高質量訓練數據將耗盡?烏鎮峰會“首發”數據合成與生產平臺觀點

11月 19 日下午,行業大模型、具身智能、算力、芯片、數據合成等10 項首發成果在烏鎮峰會登臺路演, 其中 AI 數據合成與生產平臺AIGD(AI Generated Data)因聚焦“數據合成”獲廣泛關注。
11月 19 日下午,行業大模型、具身智能、算力、芯片、數據合成等10 項首發成果在烏鎮峰會登臺路演, 其中 AI 數據合成與生產平臺AIGD(AI Generated Data)因聚焦“數據合成”獲廣泛關注?!拔磥淼腁I應用需要大量稀缺且難以獲取的長尾數據,如自動駕駛中的極端天氣與極端路況數據,具身智能訓練所需要的復雜場景數據。在此背景下,數據合成成為關鍵。”螞蟻數科AI科技技術負責人、螞蟻天璣實驗室主任李哲現場說道。
AI 發展正面臨著高質量數據短缺的問題。近年來,伴隨著大模型技術的快速發展,機器學習也正從“以模型為中心”轉向“以數據為中心”,高質量數據可以更好地模擬客觀世界,提升模型的準確性和穩定性,但是“到 2026 年,現存的用于 AI 模型訓練的高質量語言數據將耗盡”,據Epoch AI Research研究團隊預測。Gartner 表示,到 2030 年,合成數據將成為 AI 模型的主要訓練數據來源;2024 年, 60% 的 AI 數據將是合成數據,被用于模擬、預測場景和降低風險。
記者在2024年世界互聯網大會烏鎮峰會了解到,AIGD平臺是由螞蟻數科申報的首發成果,平臺可通過大規模合成互聯網所不覆蓋的高質量、高價值垂直語料數據,幫助科技廠商進行 AI 模型訓練。記者了解到,AIGD具備 PB 級數據生產能力,支持數據從生成到訓練全流程自動化處理,自動化率達到 80%,這極大提高了數據處理的效率和質量。此外,平臺自研15 余種數據合成工具,目前可以合成圖片、視頻、3D模型、多模態圖文視頻對、多輪對話、語音信號、心率腦電信號、結構化交易數據等多模態數據,以滿足多種應用場景下的 AI 模型訓練需求。
業內人士普遍認為,“高質量數據”是 AI 大模型深入到產業的重要基礎,沒有好的數據做支撐,一切 AI 應用都是空中樓閣。近日,OpenAI員工爆料說,“新模型‘沒有那么大飛躍’”,主要原因之一便是高質量數據不足所導致的。今年 9 月份, OpenAI 發布推理模型o1,帶來了強化學習訓練新范式,通過自博弈強化學習,將合成數據的形式訓練給大模型,從而大幅增加大模型邏輯推理能力。
“數據合成”是螞蟻數科 AIGD 平臺的主要功能之一,此外還包括數據標注、質檢等能力。在數據標注方面,通過人機協同進行標注,人工智能算法能夠自動識別和預處理大部分基礎信息,預標注模型依賴人工標注量降低了 70%以上。在數據質檢方面,平臺會根據元信息支持不同粒度的數據質量統計,最大程度理解數據,保證合成及標注后的數據符合預期質量要求。
記者注意到,螞蟻數科今年陸續迭代發布了多款 AI 產品,包括大模型安全評測與防御產品“蟻天鑒”、反深偽造產品 ZOLOZ Deeper 等。作為一家面向 ToB 服務的科技公司,螞蟻數科旗下主要包含“企業用云服務”“企業區塊鏈服務”“企業AI服務”三大核心業務,李哲在烏鎮峰會上表示,“我們即將迎來 AI 服務產業的黃金年代,螞蟻數科將會堅定在 AI ToB 領域投入,讓 AI 深入千行百業。”
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。