為何數據的好壞將決定深度學習的未來?金融
深度學習尤其依賴于好的、結構化和標簽化的數據的穩定供給。與其源源不斷地為機器監督學習尋找數據,不如加大力度研發無監督學習技術。
TechCrunch討論了深度學習的一個主要組成部分:數據——即圖像、視頻、電子郵件、驅動模式、短語、對象等等,用來訓練神經網絡。
令人驚訝的是,盡管我們的世界正被數據所淹沒——目前每天新增約2.5億字節的數據——其中很大一部分沒有被標記或結構化,這意味著對于當前的主要學習方式——監督式學習來說,這些數據是不可用的。而深度學習尤其依賴于好的、結構化和標簽化的數據的穩定供給。
監督學習:仍要手把手地教
TechCrunch在一篇關于神經網絡的文章中,解釋了數據是如何通過一系列的操作被傳輸入機器中并被機器分析和提煉的。這一方式被稱為是監督學習,因為這些數據被輸入到機器中之前都被標記了,而標記的過程耗費了大量的時間和人力。例如,要訓練一個神經網絡來識別蘋果或橘子的圖片,就需要事先將大量的被標記了的圖片輸入這個神經網絡之中。神經網絡會分析比對出這些標有相同標簽的圖片的共同點,并將這些數據與之后識別到的新照片作比對。前期輸入的圖片越多,這個神經網絡積累的數據就越多,在識別新圖片時就越精準。
這種方法在視覺數據的機器教學中很有效,包括識別照片、視頻、圖形和筆跡之類的圖像信息。目前,在很多應用領域中,實踐已經證明了機器在識別圖像信息方面比人眼識別更快速且準確。一個明顯的好處是,對于許多應用來說,機器比人類更平等,甚至比人類更優秀,這已經是相當普遍的事情了。例如,Facebook的深度學習軟件能夠匹配一個陌生人的兩張照片,在97%的情況下比人眼匹配的更加精準。谷歌于今年早些時候發布了一個神經網絡,可以在醫學圖像中發現惡性腫瘤的位置,而且比病理學家還要精準。
無監督學習:還在起步階段
眾所周知,與監督學習對立的,便是無監督學習,這一模式是任由機器深入到數據中去發現和體驗,并尋找模式和聯系,然后得出結論,在這一過程中沒有監督和指導。
長期以來,無監督學習的發展進程緩慢,使一些人工智能科學家很憂慮。但是在2012年,谷歌展示了一個深度學習網絡,該網絡能夠從海量沒有標記的圖像中識別貓、臉和其他物體。這項技術令人印象深刻,并且產生了一系列非常有趣且有用的結果。不過,到目前為止,無監督學習在很多實用領域還是無法達到監督學習的準確性與有效性。
數據無處不在
監督學習與無監督學習的巨大差異給我們帶來了更大的問題。如果把機器比作嬰兒,就更簡單明了。在放松對嬰兒的控制且不對其進行引導時,嬰兒會自發地學習,但其所學內容并沒有針對性,可能就不是我們希望其學習的內容;而如果我們想讓嬰兒學習特定的內容,就需要為其灌輸大量關于數字、圖片與物品的信息,這還只是針對一個特定的話題,而我們要交給嬰兒的話題數量幾乎是無限大的。例如方向,動物和植物,重力和其他物理特性,閱讀和語言,食物類型和元素等等,只要是存在的東西,都是這些話題之一。要將所有這些都教給孩子,需要很長的時間,這次過程中會有無數次的展示和闡述,并要回答所有孩子都會問的“十萬個為什么”,而且這些問題他們通常不會只問一次。
這是一項巨大的事業,但大多數父母,以及孩子身邊的其他人都在日復一日進行著這項工作。而每個神經網絡也有同樣的需求,但是這些需求更加細化,所以為其灌輸的學習內容也需要被標記更加精準的標簽。
目前,人工智能研究人員和科學家可以通過多種方式為其機器的監督學習獲取數據。第一種方法就是親自去收集大量的有標簽的數據。目前谷歌、亞馬遜、百度、蘋果、微軟和Facebook等公司都采用這種方式,這些公司的業務能夠產生海量的數據——其中大部分都是由客戶免費提供的。
這些公司數據庫的云存儲上都有數十億標記了標簽的圖片數據,文檔,搜索查詢——通過語音,文本,照片和光學字符識別——位置數據和地圖,評級,喜歡和股票,購買,送貨地址,電話號碼和聯系信息,地址本和社交關系信息。因此,傳統的公司——以及任何規模龐大的公司——往往在機器學習中具有獨特的優勢,因為他們擁有大量的特定類型的數據(這些數據可能最終也可能不是很有價值,但通常是這樣的)。
有些數據的獲得并不輕松
如果不是排名前百的公司,擁有數萬億的數據,那么獲取數據的最好方式就是善于分享(或者擁有雄厚的財力)。獲取大量不同的數據是人工智能研究的一個關鍵部分。幸運的是,已經有大量免費和公開共享的標簽數據集,涵蓋了海量的各種類別的數據,維基百科頁面上就有幾十個類似的鏈接。
如今,全世界范圍內有越來越多傳感器,如醫療傳感器、運動傳感器、智能設備陀螺儀、熱傳感器等等,這些無處不在的傳感器是最新的數據來源。同時,越來越多的人會給食物、標簽和標志等東西拍照,這些也是最純粹數據來源。
所以問題何在
盡管目前已有多種途徑獲得足夠的數據,但實際上,這些數據利用起來并不簡單。對于某些分類來說,有些數據的量還是不夠,或者數據太小,再要么是不太好,要么是部分已貼上了標簽,反正就是無法滿足需要。例如,你想要教會機器識別圖像中的星巴克標志,而在數據庫中只能找到一些被貼上更寬泛的標簽的內容,如“飲品”、“飲料”、“咖啡”、“容器”等。如果沒有正確的標簽,這些數據就是無效的。再如,一般的律師事務所的數據庫中可能有數百萬份合同或其他書面資料,但這些數據不可用,因為這些很可能都是簡單的無標記的PDF格式數據。
機器學習中的一個問題就是數據集的大小。在訓練一個復雜的模型(如深度神經網絡)時,使用小的數據集可能會導致過度擬合,這是機器學習中一個常見的陷阱。從本質上說,過度擬合是指有大量與訓練樣本相關的可學習的參數,參數是那些“神經元”。過度擬合的結果往往是機器記住了所有的訓練數據,而不是按照預想的那樣從數據中學習一般概念。
例如之前提到的蘋果/橘子案例,如果想讓一個龐大的神經網絡學習識別蘋果和橘子,而只給這個神經網絡少量的圖片數據來學習,就要承擔這樣的風險,這個神經網絡可能會自動將焦點轉譯為識別更加具體的內容,如紅色物體、棕色根莖或者圓形物體。即使為神經網絡提供的學習圖片是非常精確的數據,即蘋果/橘子的照片,但是該神經網絡學習的結果仍是無法在測試中精確識別蘋果/橘子。所以,用以機器深度學習的數據必須是大量且精確區分的。
機器學習的另一個問題在于數據的多樣性。從統計學的角度講,某個或某種數據越獨特,該數據就越有可能包含更多類別的特征。仍以蘋果/橘子學習為例,該訓練的最終目標是使該神經網絡能夠識別所有的蘋果和橘子的圖片,而不僅僅是訓練中的那部分圖片。畢竟不是所有的蘋果都是紅色的,如果在訓練神經網絡時輸入的學習數據只有紅蘋果的圖片,該神經網絡就會默認蘋果只能是紅色的,在測試中就不會識別青蘋果。因此,如果在培訓期間使用的數據類型不能涵蓋該主題的所有類別,就不會得到預期的結果。
這一問題目前已在很多人工智能系統中顯現,因為蘋果/橘子的學習只是一個很小的案例,但是更多的人工智能系統學習的內容不止這么簡單。例如,在面部識別系統中,數據不全面所造成的后果就會被放大。
加速研發機器自主學習
隨著深度學習的發展,數據不足的問題會越來越明顯。針對這一問題,現有的兩種有效解決方式似乎都不是長久之計:要么繼續人工為數據加標簽,這樣下去會一直面臨人手不足的問題,因為數據的數量在以倍數增長,且機器學習需要的數據增長更快;要么就等著其他公司開源共享數據,被動等待全球所有公司全部同意數據共享的那一天,這顯然是更不靠譜的。所以,要解決機器訓練中良好數據不足這一問題的根本途徑就是設法擺脫機器學習對數據的依賴。與其源源不斷地為機器學習尋找數據,不如加大力度研發無監督學習技術。就像是教育自己的孩子一樣,雖然也需要大量的監督學習使其獲取知識,但是更多、更重要的內容還是需要孩子自己去領會,這就是無監督學習的優勢和必要性。
來源: 品途商業評論
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。