東南亞正在成為中國“AI后花園”?互聯網+

從百度到領創智信,從三四線城市到東南亞地域,圍繞AI正在形成一個覆蓋廣大地域的產業生態圈。
日前,百度在港交所二次上市,三位素人“敲鐘者”中,來自百度山西數據標注基地的年輕媽媽郭梅引起了外界注意,和她一起AI數據標注師這個看起來偏“冷門”的職業,也首次為大眾所熟知。其實早在去年2月,它的官方名稱“人工智能訓練師”就已成為新職業,并納入國家職業分類目錄,它是AI技術廣泛應用所催生的新崗位。
百度為了做好二次上市這場“大戲”,包括郭梅的敲鐘三素人都大有來頭,從身份上來講他們都和AI密切關聯。數據標注師為何重要呢?打個淺顯的比喻,如果人工智能是一條高速公路,那數據標注就是這條高速公路的基石,而數據標注師就是那群不分日夜夯實基石的幾十萬、上百萬的“鍵盤軍”。
人工智能大踏步的由概念到應用,數據標注這一行業也就被廣為討論。就在之前不久,聚焦亞太市場人工智能與大數據的中國出海公司領創智信(ADVANCE.AI)也首次推出數據標注業務,旗下上千人數的東南亞團隊將開始為國內的人工智能行業服務。從百度到領創智信,從三四線城市到東南亞地域,隨著中國在AI大國競賽中的提速,圍繞中國人工智能正在形成一個覆蓋廣大地域的產業生態圈。
大國AI競賽,數據標注緣何重要
科學技術不僅可以改變生活,而且可以改變世界,未來是屬于科技的時代,更是屬于人工智能的時代。據艾媒咨詢的數據預測,2021年全球人工智能市場收入規模或將達到12140億美元,至2024年這一數字或達到39410億美元。在這個迅猛的崛起過程中,將需要數量龐大的數據標注師作為支撐。
據相關統計預測,數據標注師與下游研發端人員需求的比例達到了驚人的1:100,因此數據標注行業也被稱為新時代的“富士康”,足見該行業人員缺口之巨。
圖片來源:艾媒咨詢
面對如此龐大的潛在市場,包括中美在內的大國之間,早已悄無聲息的開啟了關于AI的競逐賽,美國由于經濟基礎較好,所以在人工智能領域處于領先地位,但隨著中國綜合實力的整體提升,很多專家學者預測在不久的將來,中國將會挑戰美國地位爭奪全球AI的NO.1。
這一切并不是空想,至少在科研方面國內并未落后,根據斯坦福大學人工智能研究所近期發布的數據顯示,2020年AI期刊引用中國的研究論文的數量已經超越了美國。全球去年所發布的AI期刊論文中,中國占了18%,居次的是美國的12.3%,歐盟則是8.6%。而在最常被引用的論文中,中國首度超越美國,占比20.7%,美國為19.8%,歐盟則是11%。
以上數據仍只是局限在研究論文層面,也至少證明了中國人工智能部分領域和美國的差距并沒有太大。
另根據中國信通院數據研究中心的測算,2020年中國人工智能規模占到全球市場規模的三成。以此為基數的話,人工智能未來競爭中,中國并非沒有一戰之力,至少很有機會坐牢全球AI實力榜前三國家的位置。只不過從研究到應用,人工智能比拼的仍是綜合實力。美國人工智能科學技術之所以得以高產、高質,其背后是數據標注行業發達的功勞。
因為,數據標注既是人工智能產業的基礎,又是機器感知現實世界的起點,可以說數據標注是人工智能的發展“基石”。
人工智能是讓機器具備人類的思維和行為方式,而數據標注之所以重要,則因為它通過人類標注正確的數據樣本,讓AI機器學習成長的一種方式,從某種程度上來看,沒有經過標注的數據就是無用數據。而數據標注的工作目前只能由數據標注師來完成的,數據標注師們要對世界上如汪洋一般的圖片、語音、文本、視頻等數據內容進行標注,充當著人工智能機器的“幼兒教師”,以此來提高人工智能的精準度和智能化水平。
以美國的發展路線來看,它們的數據標注主要是以眾包和海外外包為主,以總部位于澳洲的數據標注上市公司為例,其在180多種語言的國家和地區擁有超過40萬名合同工。該司服務的客戶遍布全球,不少就是來自美國的人工智能企業。前兩年又先后收購了一家位于美國硅谷的數據標注公司,和一家在印度有自己數據加工工廠的數據標注公司。
另外,如Facebook則將部分數據標注工作外包給了印度公司WiPro,后者雇傭了幾百名工人為前者服務。而美國谷歌、微軟、雅虎等科技巨頭,也曾在非洲肯尼亞雇傭了大量的人力來做數據標注服務。
美國人力成本高昂,除了部分數據標注交給眾包平臺消化,科技巨頭們把更多的業務外包給了海外地區,這種形式擁有更高的集中性。上面提到的美國人工智能“大廠”們往往需要多種類型數據,傾向于在第三世界國家地區尋找一家大型綜合性服務商。這些服務商有較高集成性,通過網絡與全球各地標注人員進行工作分包。
作為IT產業的起源國和霸主的美國,就是通過海外外包的形式來實現在“IT時代”的領先地位的,而印度則被稱為“美國IT的后花園”。由于印度的勞動力成本較低,官方語言又是英語,整整一代人的時間里,美國科技公司一直將工作外包給印度,因此催生出一種“全球交付模式”,即先去客戶的公司得到他們的要求,回到印度開發這個軟件,全球交付,最后做一些維護。
此種模式在IT行業可以跑通,同理在以人工智能為主導的“新IT時代”也正在被復制,從東南亞到非洲崛起的數據標注服務產業,正在成為美國在全球范圍內培養的下一個“印度”。
太平洋彼岸的中國,由于政策的傾斜和5G等相關基礎技術的發展,人工智能產業也進入快速增長階段。據相關數據顯示,2020年我國新一代人工智能市場規模預計達到700億元,龐大的市場規模,也促使我國的數據標注行業進入細分化階段。
在國內,數據標注產業進駐了不少城鎮和農村地區,在一些省份甚至還出現了特色的“數據標注村”。隨著出海公司領創智信推出數據標注及采集業務,意味著,中國數據標注產業也意欲在全球范圍內尋找適合自己發展的“AI后花園”。
人工智能即將到來黃金十年,數據標注師缺口將異常龐大。據阿里巴巴集團調研數據顯示,預計僅到2022年,人工智能訓練師國內外相關從業人數有望達到500萬,如此來看,人工成本正在快速上升的中國,未來或也會把部分“壓力”向周邊國家地區外移。
東南亞會是中國“AI后花園”?
中國人工智能的發展,催生數據標注行業數百萬人才的缺口。中國相比美國,在人力成本上是存在優勢的。正因如此,美國人工智能巨頭和數據標注企業大踏步全球化的時候,中國人工智能企業卻是三條路并行。
百度、阿里等“大廠”,采取將數據標注基地“下放”三五線城市+眾包來解決;而類似領創智信的中國出海企業,也正在東南亞地區“培育”后備力量。為何出現這種現象?
一、數據標注師被調侃,調教AI、月薪三千;數據標注師從名字上來看挺“高大上”,可由于是“勞動密集”的職位,他們工資普遍不高,月薪三四千就已經算是高薪了。其背后的原因在于,為了讓人工智能更“智能”,需要龐大的人力去對如汪洋一般的各類數據進行不同的標注,基于工作的性質和成本考慮,數據標注師本身的薪資很難提高。
想要了解數據標注行業的勞動密集程度,可以舉一個小例子,為了“調教”人工智能更準確的識別圖片各類信息,或需要至少10億張圖片進行訓練。怎么樣才可以給這10億張圖片進行分類和打上標簽呢?以一個人每天可以分類1000張圖片來計算,10億張圖片需要一個人干上100萬天,也就是2740年。
圖片來源:艾媒咨詢
包括語言識別、圖像識別、自然語言處理,數據標注師們需要使用標注工具通過分類、畫框、標注、注釋等,對圖片、語音、文本等數據進行處理,“喂養”它們,以令它們能夠勝任交通、金融行業、醫療行業、家居行業、安防行業、公共服務、電子商務等應用場景,這將是個超過人想象的工作量。
這直接決定了數據標注師行業平均薪金不會太高,否則人工智能將因為成本問題,永遠無法落地到實處。
二、“大廠”三五線基地+眾包方式的局限性;開頭提到的百度山西數據標注基地,就是百度在山西省太原市建立的人工智能基礎數據產業基地,按照百度的計劃,未來5年,百度還將培養數據采集、標注專業人員5萬人,阿里巴巴在貴州銅仁萬山區也在做類似的事。即使如此,仍不能完全“消化”大廠數據標注的旺盛需求。
阿里旗下就有阿里眾包平臺,僅圖搜測評任務就累計推出了近百萬的任務量,將圖片搜索的準確度從原有的30%提升到80%左右。百度旗下有百度數據眾包平臺,官方網站顯示已有1萬名專職外場數據采集員,覆蓋40多個國家和地區,遍布全國300+城市。京東旗下的京東眾智,也是類似的平臺。
大廠們之所以都選擇兩條路走,一個原因是在三四線城市打造數據標注基地能在成本可控的前提下提供更為穩定的服務;然而,由于三四線城市人才普遍學歷不高,另一邊的眾包業務可以吸納在校學生的“閑散”人力,兩者互為補充。要知道,數據標注雖被調侃為新時代的“富士康”,可該職業仍有不小的上手門檻和技能要求。
東南亞地區“AI后花園”與中國人工智能產業的聯動,正在復刻當年印度與美國硅谷的關系;從上面能夠看到,由于工作量龐大,決定了該職業無法開出足夠誘人的“工資”。因此,在三四線城市構建數據標注基地和面向社會的眾包模式成為大廠解決困難的兩條路。而從領創智信的“出口轉內銷”身上,似乎看到了第三條路,市場對數據標注的旺盛需求倒逼下,將該產業南移到東南亞“消化”也正在進行著。
提起領創智信國內大多數網友是比較陌生的,這家公司在國內人工智能出海企業中卻很有名氣,該公司聯合創始人兼CEO壽棟,是賓州州立大學計算機碩士和清華大學軟件碩士;人工智能產品負責人王芳林,獲得上海交通大學博士學位,并在哈爾濱工業大學獲得碩士和學士學位,曾擔任過NUS的研究員和Autodesk的研究科學家。
領創智信2016年成立后,先后在新加坡、中國、印度尼西亞、印度、越南、菲律賓設有辦公室,服務超過1000家行業客戶,于2019年9月完成了8000萬美元的C輪融資,由高榕資本和新加坡淡馬錫控股旗下蘭亭資本參與領投。目前,團隊有2000+名員工,其中有很多就來自騰訊、百度、華為、亞馬遜等曾在互聯網公司供職的行業人才。
該公司在東南亞主要聚焦人工智能(e-KYC,智能流程自動化,聊天機器人),風險管理(反欺詐,信用評分)和數字貸款解決方案三大領域,業務邊界不斷拓寬,由印尼逐步覆蓋到菲律賓、印度、越南等國家。
去年6月份,其推出的數據標注與采集一體化服務,就是根據市場需求將過去人工智能數據標注與采集打包成新的業務線對外服務,其中包括圖片、語音、對話、文本和視頻數據的標注及采集。一方面,該服務面向出海東南亞等各國的中國人工智能企業服務,一方面也為中國人工智能企業的外包數據標注及采集業務服務。
不到一年時間,該公司在國內就擁有了不小的名氣。我們知道,美國人工智能產業正在帶動印度、東南亞甚至非洲等地數據標注外包市場,中國似乎也正在走向這個方向,這或是國內旺盛數據標注需求獲得解決的另一條出口。
中國AI產業生態圈不可忽視的一環
近年來,中國企業紛紛進入東南亞市場,借“一帶一路”政策,中國和東盟10國均獲得了有目共睹的經濟收益。數據顯示,至2016年5月,中國和東盟國家的雙向投資已達1600億美元,雙方貿易額也從1991年的79.6億美元增長至2015年的4721.6億美元。相信未來東南亞地區,將有更多類似領創智信的企業誕生。
為何這么預測呢?因為就數據標注服務的性質來看,東南亞外包模式有它自身的優勢在里面。
1、同屬漢文化圈的便利性,東南亞華僑規模全球第一;不完全統計,東南亞11國,447萬平方千米,6.5億人口,被看作是中國、印度之外的另一個巨大市場。在中國互聯網企業全球化浪潮影響下,和“一帶一路”扶持政策的推動下,“下南洋”正成為國內科技公司集體的共識,并且成績斐然。目前東南亞市場上公認的十大獨角獸企業中,中國企業通過資本、技術、經驗等方式的加持,已經牢牢占據了半壁以上江山。
其實,任何國家企業進行海外拓展,本土化都是最先需要考慮的問題,內在文化的牽連度越高越容易成功。東南亞地區與中國接壤,可以說“一衣帶水”,無論文化背景、風俗習慣皆比較相近,與中國一樣過農歷春節并有法定假期的國家中就包括越南、印尼、新加坡和馬來西亞等。相比于美國、歐洲科技巨頭,中國企業進行東南亞地區的拓展具備更多的便利性。
圖片來源:《2019 年東南亞互聯網趨勢報告》
另外,不完全統計東南亞等國家地區華僑人數高達3千多萬左右,是世界上海外華人分布最集中的地區。這也是中國企業在該地區發展相較順利的原因之一,反過來講,這些優勢也使得該地區成為中國初級產業鏈外移的首選地。
2、成本優勢;根據相關新聞報道,中國三五線城市數據標注員工資也在三五千,東南亞很多國家地區的平均薪金才不到一千。據英國人力資源管理顧問機構 ECA International 公布的一份《2020年世界薪資漲幅最高國家》報告顯示,各國工人的工資中印尼最低108美元(約706元),最高272美元(約1780元);緬甸108美元;菲律賓最低135美元(約882元),最高265美元(約1733元)。
數據標注服務除了基礎設備的一次性投入,大頭就在工資上。領創智信的數據標注服務,企業每月能超過或累計超過5萬人?幣,就提供整套采集/標注的?案設計,所依憑的正是該地區的人力成本優勢。如果該團隊所在地在國內,這些錢甚至不夠工人幾天的工資。
3、人才優勢;正是因為人工成本低,可以低成本雇傭具備一定學歷的人員提供數據標注服務。以往印象中,數據標注師普遍學歷不高、工作環境惡劣,不過這只是行業事實的一角。根據過往調查,數據標注師大多都需要專科背景,經過培訓才能掌握通用型的拉框或打點任務。但涉及到醫療、金融、語言、法律等專業領域,都需要具備專業知識的數據師來標注,這關乎著人工智能在垂直領域應用落地。
印度能成為美國IT產業后花園,也正是因為該地區有班加羅爾大學、印度科學院、印度科學研究所、農科大學、國家動力研究所等教育研究機構,每年產出大量低成本的人才進入外包服務市場。
東南亞地區人才相關的優勢有兩個層面,一是東南亞互聯網用戶數量在2020年達到4億人,意味著該地區70%的人口都是網民。二是該地區高等教育群體就業問題一直存在,幾年前,越南國家統計局一份數據顯示,越南越來越多的大學生畢業即失業,人數達到19.25萬,占該國總失業人口的15%。去年印尼中央統計局一份報告也透露,截至2020年8月,該國失業人數也達到977萬人,同比上年度增加了267萬人。由于該地區大多數國家經濟結構單一,許多高等教育人才面臨著畢業即失業的困境。吸納該地區人才為中國新興產業服務,可以大大提高國內科技領域的全球綜合實力。
4、品質優勢;百度、阿里采取在三四線城市建設數據標注基地的做法,可以通過對某地區資源的集中傾斜,來實現聚集人才的目的。可這種方案,并不適用國內所有人工智能企業。而采用外包,往往面臨著品質問題。領創智信在推出數據標注服務前,在印尼、菲律賓、越南等東南亞國家已經服務了幾百家企業級客戶,并有數億次的產品調用量;穩定的AI團隊和大學生為主人群組成執行團隊,決定了服務品質上的保證。
據了解,領創智信專業的線下采集標注團隊,已支持包括圖片、語音、對話、文本、視頻數據的標注及采集。通過自檢、質檢和抽檢三重把關,多數任務達到99.8%以上的合格率,這或是它和國內數據標注企業競爭最大的優勢所在。
《三體》作者劉慈欣曾說過這樣一句話,要達到電影里面的強人工智能,在現在看來中間還有很多技術障礙。“現在的人工智能,前面有多少智能后面就有多少人工。”
國家十四五規劃中重點提及人工智能,大國AI競賽將是全面競爭,曾落后IT時代的中國,應該不會放棄人工智能這個難得彎道超車的機會。
而在人工智能在各個領域落地的過程里,將需要數量龐大的數據標注師作為后備軍支撐。毋庸置疑,中國人工智能的大發展,不僅將帶動著中國三五線城市的就業,擁有獨特優勢的東南亞市場,或也將成長為中國的“AI后花園”。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。