AI的十億美元瓶頸:關鍵在於高品質數據,而非模型 | 評論

AI的十億美元瓶頸:關鍵在於高品質數據,而非模型 | 評論

CryptoNewsNetCryptoNewsNet2025/09/06 22:42
顯示原文
作者:crypto.news

AI 可能會成為下一個兆美元產業,但它正悄悄地接近一個巨大的瓶頸。當所有人都在競相打造更大、更強大的模型時,一個迫在眉睫的問題卻幾乎未被解決:我們可能在短短幾年內就會耗盡可用的訓練數據。

摘要
  • AI 正在耗盡燃料:訓練數據集每年增長 3.7 倍,我們可能會在 2026 年至 2032 年之間耗盡全球高品質公共數據的供應。
  • 標註市場正從 2024 年的 37 億美元(3.7B)爆炸性增長至 2030 年的 171 億美元(17.1B),而獲取真實世界人類數據的途徑則因圍牆花園和法規而日益縮減。
  • 合成數據遠遠不夠:反饋迴圈和缺乏真實世界細膩度,使其成為一種風險極高的人類生成數據替代品。
  • 權力正轉向數據持有者:隨著模型商品化,真正的差異化將取決於誰擁有並控制獨特且高品質的數據集。

根據 EPOCH AI 的數據,自 2010 年以來,大型語言模型的訓練數據集規模每年大約以 3.7 倍的速度增長。照此速度,我們可能會在 2026 年至 2032 年之間耗盡全球高品質、公開的訓練數據供應。

即使在我們真正碰壁之前,獲取和整理標註數據的成本已經在飆升。數據收集與標註市場在 2024 年的估值為 37.7 億美元,預計到 2030 年將膨脹至 171 億美元。

你可能還喜歡: The future depends on the AI we build: Centralized vs decentralized | Opinion

如此爆炸性的增長顯示出明確的機會,但同時也存在明顯的瓶頸。AI 模型的優劣取決於其訓練數據的品質。若沒有可擴展的新鮮、多元且無偏見的數據集管道,這些模型的表現將會停滯,其實用性也會開始下降。

所以,真正的問題不是誰打造了下一個偉大的 AI 模型,而是誰擁有數據,以及這些數據將從何而來?

AI 的數據問題比看起來更嚴重

過去十年,AI 創新高度依賴於公開可用的數據集:Wikipedia、Common Crawl、Reddit、開源代碼庫等等。但這些資源正在迅速枯竭。隨著企業加強對其數據的管控,以及版權問題日益嚴重,AI 公司被迫重新思考其策略。各國政府也開始出台法規限制數據抓取,公眾輿論也逐漸反對用未付費的用戶生成內容來訓練價值數十億美元的模型。

合成數據是一種被提出的解決方案,但這是一種高風險的替代品。用模型生成的數據訓練模型,可能導致反饋迴圈、幻覺現象,並隨時間推移導致性能下降。還有品質問題:合成數據往往缺乏真實世界輸入的混亂與細膩,而這正是 AI 系統在實際場景中表現良好所需的。

這使得真實世界的人類生成數據成為黃金標準,但這類數據卻越來越難獲得。大多數收集人類數據的大型平台,如 Meta、Google 和 X(前身為 Twitter),都是圍牆花園。存取受到限制、被貨幣化,甚至完全禁止。更糟的是,他們的數據集往往偏向特定地區、語言和人口結構,導致模型產生偏見,無法在多元的真實世界應用場景中發揮作用。

簡而言之,AI 產業即將面臨一個長期被忽視的現實:打造一個龐大的 LLM 只是戰鬥的一半,餵養它才是另一半。

為什麼這真的很重要

AI 價值鏈分為兩部分:模型創建和數據獲取。在過去五年裡,幾乎所有資本和熱度都集中在模型創建上。但隨著我們推動模型規模的極限,注意力終於轉向了這個等式的另一半。

如果模型正逐漸商品化,有開源替代方案、更小型的版本和硬體高效設計,那麼真正的差異化就變成了數據。獨特且高品質的數據集將成為決定哪些模型表現更佳的燃料。

這也帶來了新的價值創造方式。數據貢獻者成為利益相關者。建設者能獲得更新鮮、更動態的數據。企業則能訓練出更貼合目標受眾的模型。

AI 的未來屬於數據提供者

我們正進入 AI 的新時代,誰控制數據,誰就擁有真正的權力。隨著訓練更好、更聰明模型的競爭升溫,最大的限制將不再是算力,而是如何獲取真實、有用且合法可用的數據。

現在的問題不再是 AI 能否擴展,而是誰來為這種擴展提供燃料。這不僅僅是數據科學家的事,還包括數據管理者、聚合者、貢獻者,以及將他們聚集在一起的平台。這才是下一個前沿所在。

所以下次你聽到有關人工智慧新前沿的消息時,不要問誰建造了這個模型,而要問誰訓練了它,以及數據來自哪裡。因為最終,AI 的未來不僅僅關乎架構,更關乎輸入。

閱讀更多: Storage, not silicon, will trigger AI’s next breakthrough | Opinion

Max Li

Max Li 是 OORT 的創辦人兼 CEO,OORT 是去中心化 AI 的數據雲。Li 博士是一位教授、資深工程師和擁有超過 200 項專利的發明家。他的背景包括在 Qualcomm Research 參與 4G LTE 和 5G 系統的研發,以及在資訊理論、機器學習和區塊鏈技術領域的學術貢獻。他著有由 Taylor & Francis CRC Press 出版的《Reinforcement Learning for Cyber-physical Systems》一書。

0

免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。

PoolX: 鎖倉獲得新代幣空投
不要錯過熱門新幣,且APR 高達 10%+
立即參與

您也可能喜歡

ETHZilla以太坊資產負債表接近5億美元,正值CEO更迭及Cumberland融資交易之際

ETHZilla持有102,246枚ETH,購買均價為3,948.72美元,並擁有約2.13億美元的現金等價物。該Ethereum金庫公司表示,已與Cumberland達成8,000萬美元的融資協議。執行董事長McAndrew Rudisill也已取代Blair Jordan成為CEO。

The Block2025/09/08 23:31
ETHZilla以太坊資產負債表接近5億美元,正值CEO更迭及Cumberland融資交易之際

Galaxy、Jump及Multicoin領導16.5億美元Solana金庫,El Salvador購買21枚BTC以紀念bitcoin法案週年,更多資訊

納斯達克上市公司Forward Industries宣布獲得16.5億美元的現金和穩定幣承諾,將啟動一項由Galaxy Digital、Jump Crypto和Multicoin Capital牽頭的公開市場私人股權投資(PIPE),以推出Solana金庫策略。薩爾瓦多總統Nayib Bukele於週日宣布,為慶祝該國比特幣法頒布四週年,薩爾瓦多購買了21枚btc,價值約230萬美元。

The Block2025/09/08 23:30
Galaxy、Jump及Multicoin領導16.5億美元Solana金庫,El Salvador購買21枚BTC以紀念bitcoin法案週年,更多資訊