大模型侵權第一案,學而思或被起訴偷數據觀點
全社會都在關注各公司推出的大模型,但鮮少關注大模型背后的訓練數據來自于哪,是否征得了數據版權方的授權,以及是否付費。
全社會都在關注各公司推出的大模型,但鮮少關注大模型背后的訓練數據來自于哪,是否征得了數據版權方的授權,以及是否付費。
日前,北京筆神作文公司計劃起訴其多年的合作伙伴學而思,指其近期推出的數學大模型MathGPT和在學而思學習機上線的AI助手,在未經其授權和許可情況下,爬取了海量數據,要求學而思公開道歉、刪除數據資源,求償1元。
筆者通過筆神作文聯系上了與其保持有業務溝通的學而思相關負責人,發去求證信息,不過截至發稿,學而思方面未給予回復。
一夜之間,數百萬篇數據資源直接被爬
4月的一個周末,北京中關村筆神作文公司。
碼農們都在家休息,辦公室里空蕩蕩。然而直至周一,歸來的程序員才發現,公司的海量數據,在周末這幾天被一群“天外來客”爬了個遍,總爬取數超過兩百萬次。
事后,筆神作文的創始人及CEO宋嘉偉經過分析判斷,并直接向他猜測的爬取方詢問,才發現爬取者不是別人,正是與其保持有多年合作關系的學而思。
事件中的主角筆神作文,成立于2017年,是一個中小學生作文AI批改平臺和投稿社區,隸屬于北京一筆兩劃科技有限公司。
創始人宋嘉偉是一位技術達人,也是一位愛好寫作的專業作家。經過過去6年的創業,筆神作文從以學生為主的用戶那里,收集及沉淀了海量的作文資源。
官方宣傳資料稱,“筆神作文每月會收到超過30萬篇作文投稿和超過40萬次的點贊評論。6年來,筆神作文積累了超過數百萬篇作文素材,月批改作文量超3萬篇。”
宋嘉偉說,這里面融入了團隊創業的心血,以來一點一點積累起來的成果。
他至今記得,為了獲得作文素材的數據,筆神作文用人工審核的方式、一篇一篇篩選投稿來的作文,通過打標簽、分級、數據清洗(指發現及糾正數據文件中的錯誤)等,最終得以積累到目前的作文素材體量。
宋嘉偉認為,正是這些優質的作文數據資源,成了“天外來客”眼中的目標。
▲ 圖 | 學而思&筆神作文
筆神作文與學而思的合作要追溯到三年前。當時筆神作文與學而思旗下的一款學習工具APP——題拍拍簽約合作,為其提供作文素材查詢服務。
官方資料顯示,題拍拍是一款免費答題APP,于2020年3月上線,涵蓋全年級、全學科,為廣大用戶提供真人在線免費答題服務,專注于6-18歲中小學生課后學習場景。
根據雙方的合作合同,雙方協議筆神作文為題拍拍中的作文版塊、只提供用戶查詢服務,且題拍拍不得將作文數據緩存本地以及機器學習訓練。
合同中有這樣幾項條款,對筆神作文數據的使用用途,進行了較為明確的規定。
1、作為第三方技術服務商的深圳市三體云聯網絡科技有限公司(即“三體云聯公司”,系學而思子公司),有義務保障北京一筆兩劃科技有限公司(即“一筆兩劃公司”)服務接口的安全性,應經一筆兩劃公司允許后、方可將合作接口內容用于雙方約定好的平臺或產品中。
2、合同原文稱,三體云聯公司不得隨意泄漏、使用、傳播或緩存乙方服務接口中的作文范文及其相關內容,否則造成的損失將由甲方全額賠付。
3、合同原文強調,三體云聯公司不得在未經一筆兩劃公司允許的情況下用于任何其它用途,包括級存、存儲、作為語料進行計算、訓練等。
基于雙方的合作精神,筆神作文介紹,自己的技術團隊設計了完備的安全機制,正常情況下,可以防止黑客們進行爬蟲攻擊。而只有提供給合作伙伴學而思的接口是不設防的。
爬取事件被發掘后,宋嘉偉也曾一度懷疑是不是有黑客利用了這個接口盜取數據,所以專門與學而思經常對接的程序員求證。
然而令他出乎意料的是,對方直接承認,筆神作文數據后臺被高頻調用、確實來自學而思方算法組的調用操作。
通常來說,算法組的工作之一,就是訓練人工智能大模型。果然,在數據調用異常不到兩周后,大量關于學而思推出數學大模型的新聞開始密集出現。5月初,學而思宣布將推出MathGPT,以及其中即將上線的AI助手涉及的功能。
宋嘉偉團隊于是高度懷疑,學而思的這項產品已將其多年積攢的數據化為己用,關鍵是未經過筆神作文的同意。
尤其AI助手被介紹為是“涵蓋作文助手、口語助手、閱讀助手、數學助手等功能”。宋嘉偉稱,學而思自己并沒有海量作文素材數據,否則此前雙方的合作也不會開始。
苦心經營多年的數據在一個周末被擅自爬取,“團隊的苦心經營為他人的大模型做了嫁衣。”宋嘉偉表示。
事件發生之后,宋嘉偉多次向學而思相關方詢問事宜,包括發出律師函,卻始終沒有得到實質性答復。
目前一筆兩劃公司已經搜集證據,準備走司法程序來維權。其訴求有三:
要求公開致歉、刪除非法獲取的數據并中止應用、求償1元。
對于筆神作文的訴求,筆者通過筆神作文聯系到了學而思方面相關負責人,對方在通過微信驗證、并看到相關提問后,直接拉黑了聯絡微信。未針對筆神作文的訴求給于回應。
海外類似糾紛頻發
筆神作文與學而思題拍拍之間發生的糾紛,揭開了大模型熱潮下一個容易被忽視的角落。
大模型想變得智能,就需要對海量數據進行深度學習。然而海量數據來自哪,是否被版權方授權,是否有需要付費,目前這是一個模糊地帶。
《真故研究室》搜集了國內過往諸多案例。圍繞一般版權的訴訟案例比較多,鮮見圍繞大模型數據版權而展開的訴訟。但在海外,類似數據版權糾紛已經顯示出頻發態勢。
先說結論,從海外數據版權糾紛來看,侵權方與被侵權方之間未存在共識。這導致數據版權保護起來還有難度。
今年年初,被稱為美國最大的商業圖庫提供商Getty Images,在英國起訴了Stability AI。這是英國首起涉及人工智能的重大知識產權糾紛。
Stability AI公司,即Stable Diffusion這個AI圖像生成模型的創建者。
Getty Images認定Stability AI非法復制和處理了Getty Images擁有或代表的受版權保護的圖像以及相關元數據,涉及數以百萬計數據。而這些行為并未獲得Getty Images任何授權許可,在給Stability AI的商業利益帶來收益的同時,侵害了內容創作者的權益。
截至目前,Stability AI尚未就這個申訴作出公開評論,但其首席執行官Emad Mostaque在推特中表示,“我認為他們(指自己)都是通過合乎規范、道德和法律標準的方式獲得并使用的”。
▲ 圖 | AI正在迅速學習數據,拓展更多用途
這種情況不算個例。
今年4月,美國艾倫人工智能研究院(2014年成立,最初定位為AI技術自研平臺)等發布了一份針對谷歌C4數據集的調查結果。
調查拆解了谷歌的C4數據集,它是很多知名英語AI大模型的訓練材料,比如谷歌的T5(2019年10月發布)和Facebook的LLaMA(2023年2月發布)。
拆解的目的是為研究C4數據集里究竟包含哪些數據材料來源。研究認為,這關系許多英語AI大模型所使用數據的正當性,比如是否有侵權,以及是否存在“臟數據”(比如本身就是盜版的數據)。
調查結果顯示,C4數據集中實際包含的大約1000萬個網站數據發現,其中有很大一部分是來路不正的數據源,包括盜版電子書網站b-ok.org等。
而一些諸如創意產品眾籌網站、個人博客也包含其中且排名靠前,意味著這類數據被使用的權重越高。問題的關鍵是,這些數據版權方可能未獲得任何授權或報酬。
作為頭部人工智能大模型的OpenAI,顯然也知道行業存在的這些問題,但沒有直接提出解決措施。
今年5月16日,OpenAI首席執行官山姆·奧特曼曾在一個聽證會場合表示,他呼吁主管部門對生成式人工智能進行監管和干預。然而,對于作品被用于人工智能生成的歌曲、文章,或其他作品的內容創作者如何得到補償等問題時,奧特曼并未給出明確的回答。
▲ 圖 | OpenAI首席執行官山姆·奧特曼
從上述案例可以看到,數據版權方被侵權,在許多大模型中是一種已發生的事實。版權方與使用方在相關問題上存有分歧,并未有達成一致的解決措施。
圍繞數據侵權的治理已在路上
從海內外數據版權糾紛來看,這是否就意味著數據版權方的利益,就難以得到保護呢。
還是先說結論。目前,我國《著作權法》對數據版權的保護存在相關規定,可被侵權者使用。其次,包括中國國家互聯網信息辦公室在內的相關單位、以及行業組織,已經行動起來,準備出臺措施、或發出倡議,呼吁保護數據版權方的利益,全社會的共識正在凝聚中。
在我國目前現行的《著作權法》框架下,GPT訓練數據使用過程的不同行為均可能存在著作權侵權風險。
《著作權法》中規定了12種合理使用情形,包括為個人學習、研究或者欣賞;為介紹、評論某一作品或說明某一問題,在作品中適當引用他人已經發表的作品;為報道時事新聞,在各類媒體中不可避免地再現或者引用已經發表的作品;為學校課堂教學或者科學研究等。
而ChatGPT對訓練數據的使用,明顯并非為“個人學習”“教學或科研”“公共文化機構”所使用,本質上屬商業性使用,因此涉嫌侵權方很難直接援引該條為自己侵權抗辯。
針對大模型帶來的新情況,海內外也在出臺一系列政策文件,進一步規范。
4月11日,中國國家互聯網信息辦公室起草了《生成式人工智能服務管理辦法(征求意見稿)》,以期促進生成式人工智能技術的健康發展和規范應用。當中就有一條明確指出:用于生成式人工智能產品的預訓練、優化訓練數據,應滿足不含有侵犯知識產權的內容。
▲ 圖 | 大模型發展,版權保護也不能置之不理
國際社會也正在加快相關討論。
4月30日,世界發達國家的技術部長在日本發布了共同聲明,指出需要促進“負責任”地使用ChatGPT等人工智能工具。其中就包括治理、如何保障包括版權在內的知識產權、促進透明度、處理虛假信息,以及如何負責任地利用這些技術等議題。
目前,國內的相關行業已經開始有相關動作。
近日,中文在線(300364)、同方知網、中國工人出版社等26家單位共同發布了國內首份有關AIGC訓練數據版權的倡議書。
作為業內首份AIGC數據版權倡議書,業內認為其最大的價值在于兩點:一是喚醒了國內AI企業關于大模型訓練數據的版權意識;二是為AIGC研發者規避版權爭議提供了方向性指引。
有關方面指出,合理使用正版數據的倡議被提出,是對AIGC研發主體的警示和啟發。
回到最開始的筆神作文與學而思糾紛,關注這個案件進展的意義在于,它關系著所有手上持有優質數據版權公司的切身利益。而大模型行業要健康發展,不能對存在的問題假裝閉一只眼睛就能蒙混過關。
宋嘉偉回憶,原本筆神作文與題拍拍合作的過程還算愉快,哪怕中途遇到行業調整,似乎也沒影響雙方的合作。
雙減打擊之下,教培行業受政策調整,業務受到了影響。宋嘉偉說,在題拍拍效益不好、規模變小之時,筆神也將合同中約定的服務收費調整到原本的三分之一,意在攜手度過教培寒冬。
然而寒冬還沒挺過,令宋嘉偉意外的是,感覺自己遭到了合作伙伴的背刺。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。