TMT观察网_独特视角观察TMT行业

為何數據的好壞將決定深度學習的未來?金融

王通 2017-07-25 18:18
分享到:
導讀

深度學習尤其依賴于好的、結構化和標簽化的數據的穩定供給。與其源源不斷地為機器監督學習尋找數據,不如加大力度研發無監督學習技術。

為何數據的好壞將決定深度學習的未來?

TechCrunch討論了深度學習的一個主要組成部分:數據——即圖像、視頻、電子郵件、驅動模式、短語、對象等等,用來訓練神經網絡。

令人驚訝的是,盡管我們的世界正被數據所淹沒——目前每天新增約2.5億字節的數據——其中很大一部分沒有被標記或結構化,這意味著對于當前的主要學習方式——監督式學習來說,這些數據是不可用的。而深度學習尤其依賴于好的、結構化和標簽化的數據的穩定供給。

監督學習:仍要手把手地教

TechCrunch在一篇關于神經網絡的文章中,解釋了數據是如何通過一系列的操作被傳輸入機器中并被機器分析和提煉的。這一方式被稱為是監督學習,因為這些數據被輸入到機器中之前都被標記了,而標記的過程耗費了大量的時間和人力。例如,要訓練一個神經網絡來識別蘋果或橘子的圖片,就需要事先將大量的被標記了的圖片輸入這個神經網絡之中。神經網絡會分析比對出這些標有相同標簽的圖片的共同點,并將這些數據與之后識別到的新照片作比對。前期輸入的圖片越多,這個神經網絡積累的數據就越多,在識別新圖片時就越精準。

這種方法在視覺數據的機器教學中很有效,包括識別照片、視頻、圖形和筆跡之類的圖像信息。目前,在很多應用領域中,實踐已經證明了機器在識別圖像信息方面比人眼識別更快速且準確。一個明顯的好處是,對于許多應用來說,機器比人類更平等,甚至比人類更優秀,這已經是相當普遍的事情了。例如,Facebook的深度學習軟件能夠匹配一個陌生人的兩張照片,在97%的情況下比人眼匹配的更加精準。谷歌于今年早些時候發布了一個神經網絡,可以在醫學圖像中發現惡性腫瘤的位置,而且比病理學家還要精準。

無監督學習:還在起步階段

眾所周知,與監督學習對立的,便是無監督學習,這一模式是任由機器深入到數據中去發現和體驗,并尋找模式和聯系,然后得出結論,在這一過程中沒有監督和指導。

長期以來,無監督學習的發展進程緩慢,使一些人工智能科學家很憂慮。但是在2012年,谷歌展示了一個深度學習網絡,該網絡能夠從海量沒有標記的圖像中識別貓、臉和其他物體。這項技術令人印象深刻,并且產生了一系列非常有趣且有用的結果。不過,到目前為止,無監督學習在很多實用領域還是無法達到監督學習的準確性與有效性。

數據無處不在

監督學習與無監督學習的巨大差異給我們帶來了更大的問題。如果把機器比作嬰兒,就更簡單明了。在放松對嬰兒的控制且不對其進行引導時,嬰兒會自發地學習,但其所學內容并沒有針對性,可能就不是我們希望其學習的內容;而如果我們想讓嬰兒學習特定的內容,就需要為其灌輸大量關于數字、圖片與物品的信息,這還只是針對一個特定的話題,而我們要交給嬰兒的話題數量幾乎是無限大的。例如方向,動物和植物,重力和其他物理特性,閱讀和語言,食物類型和元素等等,只要是存在的東西,都是這些話題之一。要將所有這些都教給孩子,需要很長的時間,這次過程中會有無數次的展示和闡述,并要回答所有孩子都會問的“十萬個為什么”,而且這些問題他們通常不會只問一次。

這是一項巨大的事業,但大多數父母,以及孩子身邊的其他人都在日復一日進行著這項工作。而每個神經網絡也有同樣的需求,但是這些需求更加細化,所以為其灌輸的學習內容也需要被標記更加精準的標簽。

目前,人工智能研究人員和科學家可以通過多種方式為其機器的監督學習獲取數據。第一種方法就是親自去收集大量的有標簽的數據。目前谷歌、亞馬遜、百度、蘋果、微軟和Facebook等公司都采用這種方式,這些公司的業務能夠產生海量的數據——其中大部分都是由客戶免費提供的。

這些公司數據庫的云存儲上都有數十億標記了標簽的圖片數據,文檔,搜索查詢——通過語音,文本,照片和光學字符識別——位置數據和地圖,評級,喜歡和股票,購買,送貨地址,電話號碼和聯系信息,地址本和社交關系信息。因此,傳統的公司——以及任何規模龐大的公司——往往在機器學習中具有獨特的優勢,因為他們擁有大量的特定類型的數據(這些數據可能最終也可能不是很有價值,但通常是這樣的)。

有些數據的獲得并不輕松

如果不是排名前百的公司,擁有數萬億的數據,那么獲取數據的最好方式就是善于分享(或者擁有雄厚的財力)。獲取大量不同的數據是人工智能研究的一個關鍵部分。幸運的是,已經有大量免費和公開共享的標簽數據集,涵蓋了海量的各種類別的數據,維基百科頁面上就有幾十個類似的鏈接。

如今,全世界范圍內有越來越多傳感器,如醫療傳感器、運動傳感器、智能設備陀螺儀、熱傳感器等等,這些無處不在的傳感器是最新的數據來源。同時,越來越多的人會給食物、標簽和標志等東西拍照,這些也是最純粹數據來源。

所以問題何在

盡管目前已有多種途徑獲得足夠的數據,但實際上,這些數據利用起來并不簡單。對于某些分類來說,有些數據的量還是不夠,或者數據太小,再要么是不太好,要么是部分已貼上了標簽,反正就是無法滿足需要。例如,你想要教會機器識別圖像中的星巴克標志,而在數據庫中只能找到一些被貼上更寬泛的標簽的內容,如“飲品”、“飲料”、“咖啡”、“容器”等。如果沒有正確的標簽,這些數據就是無效的。再如,一般的律師事務所的數據庫中可能有數百萬份合同或其他書面資料,但這些數據不可用,因為這些很可能都是簡單的無標記的PDF格式數據。

機器學習中的一個問題就是數據集的大小。在訓練一個復雜的模型(如深度神經網絡)時,使用小的數據集可能會導致過度擬合,這是機器學習中一個常見的陷阱。從本質上說,過度擬合是指有大量與訓練樣本相關的可學習的參數,參數是那些“神經元”。過度擬合的結果往往是機器記住了所有的訓練數據,而不是按照預想的那樣從數據中學習一般概念。

例如之前提到的蘋果/橘子案例,如果想讓一個龐大的神經網絡學習識別蘋果和橘子,而只給這個神經網絡少量的圖片數據來學習,就要承擔這樣的風險,這個神經網絡可能會自動將焦點轉譯為識別更加具體的內容,如紅色物體、棕色根莖或者圓形物體。即使為神經網絡提供的學習圖片是非常精確的數據,即蘋果/橘子的照片,但是該神經網絡學習的結果仍是無法在測試中精確識別蘋果/橘子。所以,用以機器深度學習的數據必須是大量且精確區分的。

機器學習的另一個問題在于數據的多樣性。從統計學的角度講,某個或某種數據越獨特,該數據就越有可能包含更多類別的特征。仍以蘋果/橘子學習為例,該訓練的最終目標是使該神經網絡能夠識別所有的蘋果和橘子的圖片,而不僅僅是訓練中的那部分圖片。畢竟不是所有的蘋果都是紅色的,如果在訓練神經網絡時輸入的學習數據只有紅蘋果的圖片,該神經網絡就會默認蘋果只能是紅色的,在測試中就不會識別青蘋果。因此,如果在培訓期間使用的數據類型不能涵蓋該主題的所有類別,就不會得到預期的結果。

這一問題目前已在很多人工智能系統中顯現,因為蘋果/橘子的學習只是一個很小的案例,但是更多的人工智能系統學習的內容不止這么簡單。例如,在面部識別系統中,數據不全面所造成的后果就會被放大。

加速研發機器自主學習

隨著深度學習的發展,數據不足的問題會越來越明顯。針對這一問題,現有的兩種有效解決方式似乎都不是長久之計:要么繼續人工為數據加標簽,這樣下去會一直面臨人手不足的問題,因為數據的數量在以倍數增長,且機器學習需要的數據增長更快;要么就等著其他公司開源共享數據,被動等待全球所有公司全部同意數據共享的那一天,這顯然是更不靠譜的。所以,要解決機器訓練中良好數據不足這一問題的根本途徑就是設法擺脫機器學習對數據的依賴。與其源源不斷地為機器學習尋找數據,不如加大力度研發無監督學習技術。就像是教育自己的孩子一樣,雖然也需要大量的監督學習使其獲取知識,但是更多、更重要的內容還是需要孩子自己去領會,這就是無監督學習的優勢和必要性。

來源: 品途商業評論

數據 學習 機器 識別 網絡
分享到:

1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


觀點約架

主站蜘蛛池模板: 涡街流量计_LUGB智能管道式高温防爆蒸汽温压补偿计量表-江苏凯铭仪表有限公司 | 酶联免疫分析仪-多管旋涡混合仪|混合器-莱普特科学仪器(北京)有限公司 | 电动葫芦|防爆钢丝绳电动葫芦|手拉葫芦-保定大力起重葫芦有限公司 | 进口消泡剂-道康宁消泡剂-陶氏消泡剂-大洋消泡剂 | 福建成考网-福建成人高考网| 品牌策划-品牌设计-济南之式传媒广告有限公司官网-提供品牌整合丨影视创意丨公关活动丨数字营销丨自媒体运营丨数字营销 | 屏蔽泵厂家,化工屏蔽泵_维修-淄博泵业 | 【铜排折弯机,钢丝折弯成型机,汽车发泡钢丝折弯机,线材折弯机厂家,线材成型机,铁线折弯机】贝朗折弯机厂家_东莞市贝朗自动化设备有限公司 | 京港视通报道-质量走进大江南北-京港视通传媒[北京]有限公司 | 济南网站策划设计_自适应网站制作_H5企业网站搭建_济南外贸网站制作公司_锐尚 | 印刷人才网 印刷、包装、造纸,中国80%的印刷企业人才招聘选印刷人才网! | 等离子空气净化器_医用空气消毒机_空气净化消毒机_中央家用新风系统厂家_利安达官网 | 北京三友信电子科技有限公司-ETC高速自动栏杆机|ETC机柜|激光车辆轮廓测量仪|嵌入式车道控制器 | 骨龄仪_骨龄检测仪_儿童骨龄测试仪_品牌生产厂家【品源医疗】 | 考勤系统_考勤管理系统_网络考勤软件_政企|集团|工厂复杂考勤工时统计排班管理系统_天时考勤 | 海德莱电力(HYDELEY)-无功补偿元器件生产厂家-二十年专业从事电力电容器 | 丁基胶边来料加工,医用活塞边角料加工,异戊二烯橡胶边来料加工-河北盛唐橡胶制品有限公司 | 美国查特CHART MVE液氮罐_查特杜瓦瓶_制造全球品质液氮罐 | 深圳货架厂家_金丽声精品货架_广东金丽声展示设备有限公司官网 | 氨水-液氨-工业氨水-氨水生产厂家-辽宁顺程化工 | 波纹补偿器_不锈钢波纹补偿器_巩义市润达管道设备制造有限公司 | 天津仓储物流-天津电商云仓-天津云仓一件代发-博程云仓官网 | 西安耀程造价培训机构_工程预算实训_广联达实作实操培训 | 远程会诊系统-手术示教系统【林之硕】医院远程医疗平台 | 工业rfid读写器_RFID工业读写器_工业rfid设备厂商-ANDEAWELL | 天然鹅卵石滤料厂家-锰砂滤料-石英砂滤料-巩义东枫净水 | 广西资质代办_建筑资质代办_南宁资质代办理_新办、增项、升级-正明集团 | 玉米深加工机械,玉米加工设备,玉米加工机械等玉米深加工设备制造商-河南成立粮油机械有限公司 | 德国进口电锅炉_商用电热水器_壁挂炉_电采暖器_电热锅炉[德国宝] | 膜结构车棚|上海膜结构车棚|上海车棚厂家|上海膜结构公司 | 酒水灌装机-白酒灌装机-酒精果酒酱油醋灌装设备_青州惠联灌装机械 | 回收二手冲床_金丰旧冲床回收_协易冲床回收 - 大鑫机械设备 | 耐驰泵阀管件制造-耐驰泵阀科技(天津)有限公司 | 山东石英砂过滤器,除氟过滤器「价格低」-淄博胜达水处理 | 基本型顶空进样器-全自动热脱附解吸仪价格-AutoHS全模式-成都科林分析技术有限公司 | KBX-220倾斜开关|KBW-220P/L跑偏开关|拉绳开关|DHJY-I隔爆打滑开关|溜槽堵塞开关|欠速开关|声光报警器-山东卓信有限公司 | 无硅导热垫片-碳纤维导热垫片-导热相变材料厂家-东莞市盛元新材料科技有限公司 | 大立教育官网-一级建造师培训-二级建造师培训-造价工程师-安全工程师-监理工程师考试培训 | 慈溪麦田广告公司,提供慈溪广告设计。 | 艾乐贝拉细胞研究中心 | 国家组织工程种子细胞库华南分库 | 万博士范文网-您身边的范文参考网站Vanbs.com |