TMT观察网_独特视角观察TMT行业

開啟NLP新時代的BERT模型,是怎么一步步封神的?互聯網+

腦極體 2018-12-13 10:15
分享到:
導讀

不僅號稱谷歌最強NLP模型的BERT如約開源了,而且最新版本還支持中文,可以用于中文命名實體識別的Tensorflow代

不僅號稱谷歌最強NLP模型的BERT如約開源了,而且最新版本還支持中文,可以用于中文命名實體識別的Tensorflow代碼!最關鍵的是,這個強大的模型還橫掃11項記錄。 NLP領域的伸手黨們,上個月簡直像在過年!
不僅號稱谷歌最強NLP模型的BERT如約開源了,而且最新版本還支持中文,可以用于中文命名實體識別的Tensorflow代碼!最關鍵的是,這個強大的模型還橫掃11項記錄,"閱讀理解超過人類"。
谷歌團隊的Thang Luong更直接宣告:BERT模型開啟了NLP的新時代。“BERT在手,天下我有”的既視感啊!
人工智能漫長的發(fā)展史上,能夠讓行業(yè)“鑼鼓喧天,鞭炮齊鳴”的算法模型還真不多見。不過,在跟風成為這個模型的舔狗之前,我們先來扒下它的外衣,看看到底有沒有那么神奇。 什么是BERT模型?
這個讓全球開發(fā)者們?yōu)橹畾g欣鼓舞的新模型,全稱是Bidirectional Encoder Representation from Transformers,即對Transformer的雙向編碼進行調整后的算法。
這種預訓練模型所針對的核心問題,就是NLP的效率難題。
眾所周知,智能語音交互要理解上下文、實現通順的交流、準確識別對象的語氣等等,往往需要一個準確的NLP模型來進行預測。
但越是精準的模型,越是依賴于海量的訓練語料,往往需要人工來進行標注和制作,因此,通過某種模型來預訓練一個語言模型,幫助進行超大規(guī)模的表征學習,就成了一種靠譜且被廣泛采用的方法。
而傳統采用的預訓練模型,比如AI2的 ELMo,以及OpenAI的fine-tune transformer,也同樣需要通過人力標注來制作訓練數據。
譬如說常用的中文漢字有3500個,詞匯數量50萬,制作中文語言預訓練模型的參數數量自然也就十分龐大,中文的預訓練模型需要對每個都進行人工標注,這就又陷入了“有多人工就有多少智能”的死胡同。
那么,呱呱落地的BERT為什么能解決這一問題呢?它的優(yōu)勢主要體現在三個方面:
1. BERT擁有一個深而窄的神經網絡。transformer的中間層有2018,BERT只有1024,但卻有12層。因此,它可以在無需大幅架構修改的前提下進行雙向訓練。由于是無監(jiān)督學習,因此不需要人工干預和標注,讓低成本地訓練超大規(guī)模語料成為可能。 2. BERT模型能夠聯合神經網絡所有層中的上下文來進行訓練。這樣訓練出來的模型在處理問答或語言推理任務時,能夠結合上下文理解語義,并且實現更精準的文本預測生成。
3. BERT只需要微調就可以適應很多類型的NLP任務,這使其應用場景擴大,并且降低了企業(yè)的訓練成本。BERT支持包括中文在內的60種語言,研究人員也不需要從頭開始訓練自己的模型,只需要利用BERT針對特定任務進行修改,在單個云TPU上運行幾小時甚至幾十分鐘,就能獲得不錯的分數。
用一些開發(fā)者的話來說,就是BERT的“效果好到不敢相信”,這也是其快速躥紅的核心原因。
BERT是如何工作的?
這樣厲害的模型,是怎樣被訓練出來的呢?主要分為五個步驟:
首先,將語料中的某一部分詞匯遮蓋住,讓模型根據上下文雙向預測被遮蓋的詞,來初步訓練出通用模型。
然后,從語料中挑選出連續(xù)的上下文語句,讓transformer模型來識別這些語句是否連續(xù)。
這兩步合在一起完成預訓練,就成為一個能夠實現上下文全向預測出的語言表征模型。
最后,再結合精加工(fine tuning)模型,使之適用于具體應用。
而BERT應用起來也非常簡單,具體到什么程度呢?個人開發(fā)者可以在任意文本語料庫上完成“預測下一句”之類的任務。
只需要進行數據生成,把整個輸入文件的純文本做成腳本保存到內存,就可以用BERT進行預訓練了。
通過一段簡單代碼,預訓練20步左右,就能得到一個基礎的NLP任務模型。如果想在實際應用中有更好的表現,訓練10000步以上也不會花費很長時間。 從上述實驗成果來看,似乎可以直接得出結論:BERT開啟了一個NLP的新世界!
以前我們總是吐槽機器翻譯、自然語言理解等NLP技術都是“實驗室的人工智能,生活中的“人工智障”,而且每個廠商的語音產品似乎都停留在用論文和跑分隔空叫板,實際應用場景上體驗感其實差異并不明顯。但BERT的出現,不僅讓機器語言理解上有了更好的效果,尤其是上下文理解和文本生成上,表現十分驚艷。更重要的是,它為自然語言處理技術帶來的新想象空間。
封神之前,BERT還要面對哪些問題?
說到這里,是不是已經有種“有條件要上BERT,沒有條件創(chuàng)造條件也要上BERT”的感覺了?
別急,BERT模型看起來很美好,但并不是一枚誰拿來都能快速見效的“救心丸”,至少有三點需要額外注意:
一是開銷巨大,在GPU上跑一次成本很高,而Google推薦的云TPU價格雖然低廉(500美元),卻需要兩周時間。
二是數據規(guī)模要求高。如果沒有足夠龐大的訓練語料,很難在針對性開發(fā)中復現同樣的評測效果。
三是BERT無法單獨完成計算問題,需要后續(xù)任務補全推理和決策環(huán)節(jié)。而且BERT本身是無監(jiān)督學習,因此不能直接用于解決NLP問題,往往需要結合現有的有監(jiān)督學習以避免算法歧視或偏見。
目前看來,BERT的魅力雖然讓開發(fā)者和企業(yè)們難以抗拒,但也存在著諸多門檻,想要見效并不是一朝一夕的事兒。但它能夠被人吹爆,并不僅僅只是因為算法和數據上的突破,真正的價值還是隱藏在對產業(yè)端的推動力量。
BERT帶來的想象空間
眾所周知,自然語言處理技術被稱為AI領域的明珠,但在產業(yè)端,智能語音企業(yè)對于自家技術的競爭力,不是宣傳又在SQuAD這樣的頂級賽事中跑了多少分,就是基于各自的數據集大吹特吹準確率。但是,彼此之間的數據往往都十分焦灼,很難真正拉開差距。
而BERT的出現,顯然為智能語音技術公司的競爭帶來了全新的關鍵要素,那就是效率,以及成本。
BERT的橫空出世,抹平了訓練語料的人工標注成本,讓超大規(guī)模的模型訓練不再遙不可及,從而使得產業(yè)端研發(fā)出交互更友好、理解力更高的語音交互產品成為了可能。
另一方面,在垂直應用端,多種語言支持和低成本地針對性訓練,讓BERT可以很快在垂直領域進行部署,大大提升了智能語音的配置效率和應用范圍,為NLP的產業(yè)端實錘落地提供了長期發(fā)展的支撐力量。
解決了模型和應用的問題,NLP領域的新賽道自然就落在了語料和算力上。
想要借助BERT訓練出更精準、更好的應用模型,考驗著企業(yè)的兩方面能力:一個是訓練語料的規(guī)模;一個是強大算力的支撐。
BERT使用了超大的數據集(BooksCorpus 800M + English Wikipedia 2.5G單詞)和超大的算力(對應于超大模型)來在相關的任務上做預訓練。未來,是否有足夠的訓練語料來復現同樣的效果,又是否足夠的GPU(背后就是錢)來支撐跑BERT,將是智能語音技術企業(yè)拉開身位的關鍵。
總而言之,BERT在NLP界還是個新生事物,但已經有了封神的潛質。比此前的解決方案更優(yōu)秀,更有發(fā)展?jié)摿Α?/span>
不過,對數據規(guī)模和算力的要求,以及與自身業(yè)務的耦合,也在無形中提升著智能語音的門檻和成本。
從這個角度看,最終能夠借助BERT拉開競爭區(qū)位的,要么是搜狗、阿里、百度這樣以搜索、電商為主業(yè)的大數據“富一代”,要么是憑借強大效率與業(yè)務創(chuàng)新實現“彎道超車”的新獨角獸,接下來恐怕可以激發(fā)不少新腦洞和解題思路。
無論如何,BERT的出現,終于讓專注“跑分”和“隔空叫板”的NLP領域,多了一些更有趣的想象力。
BERT 模型 訓練 NLP 需要
分享到:

1.TMT觀察網遵循行業(yè)規(guī)范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創(chuàng)文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創(chuàng)的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。


主站蜘蛛池模板: 西装定制/做厂家/公司_西装订做/制价格/费用-北京圣达信西装 | 盐水蒸发器,水洗盐设备,冷凝结晶切片机,转鼓切片机,絮凝剂加药系统-无锡瑞司恩机械有限公司 | 外贮压-柜式-悬挂式-七氟丙烷-灭火器-灭火系统-药剂-价格-厂家-IG541-混合气体-贮压-非贮压-超细干粉-自动-灭火装置-气体灭火设备-探火管灭火厂家-东莞汇建消防科技有限公司 | 气力输送_输送机械_自动化配料系统_负压吸送_制造主力军江苏高达智能装备有限公司! | 传爱自考网_传爱自学考试网 | 专业深孔加工_东莞深孔钻加工_东莞深孔钻_东莞深孔加工_模具深孔钻加工厂-东莞市超耀实业有限公司 | 安平县鑫川金属丝网制品有限公司,防风抑尘网,单峰防风抑尘,不锈钢防风抑尘网,铝板防风抑尘网,镀铝锌防风抑尘网 | 礼堂椅厂家|佛山市艺典家具有限公司 | POS机办理_个人POS机免费领取 - 银联POS机申请首页 | 陕西鹏展科技有限公司| 实验室隔膜泵-无油防腐蚀隔膜泵-耐腐蚀隔膜真空泵-杭州景程仪器 电杆荷载挠度测试仪-电杆荷载位移-管桩测试仪-北京绿野创能机电设备有限公司 | 广域铭岛Geega(际嘉)工业互联网平台-以数字科技引领行业跃迁 | 胀套-锁紧盘-风电锁紧盘-蛇形联轴器「厂家」-瑞安市宝德隆机械配件有限公司 | 注浆压力变送器-高温熔体传感器-矿用压力传感器|ZHYQ朝辉 | 橡胶接头_橡胶软接头_套管伸缩器_管道伸缩器厂家-巩义市远大供水材料有限公司 | 定制异形重型钢格栅板/钢格板_定做踏步板/排水沟盖板_钢格栅板批发厂家-河北圣墨金属制品有限公司 | 热处理炉-退火炉-回火炉设备厂家-丹阳市电炉厂有限公司 | 首页-瓜尔胶系列-化工单体系列-油田压裂助剂-瓜尔胶厂家-山东广浦生物科技有限公司 | 番茄畅听邀请码怎么输入 - Dianw8.com | 二手回收公司_销毁处理公司_设备回收公司-找回收信息网 | 杭州货架订做_组合货架公司_货位式货架_贯通式_重型仓储_工厂货架_货架销售厂家_杭州永诚货架有限公司 | 400电话_400电话申请_888元包年_400电话办理服务中心_400VIP网 | 博莱特空压机|博莱特-阿特拉斯独资空压机品牌核心代理商 | 企业微信scrm管理系统_客户关系管理平台_私域流量运营工具_CRM、ERP、OA软件-腾辉网络 | HYDAC过滤器,HYDAC滤芯,现货ATOS油泵,ATOS比例阀-东莞市广联自动化科技有限公司 | 高低温试验箱-模拟高低温试验箱订制-北京普桑达仪器科技有限公司【官网】 | 钢板仓,大型钢板仓,钢板库,大型钢板库,粉煤灰钢板仓,螺旋钢板仓,螺旋卷板仓,骨料钢板仓 | VOC检测仪-甲醛检测仪-气体报警器-气体检测仪厂家-深恒安科技有限公司 | 烟台金蝶财务软件,烟台网站建设,烟台网络推广| 烽火安全网_加密软件、神盾软件官网 | 实体店商新零售|微赢|波后|波后合作|微赢集团 | 自动化改造_智虎机器人_灌装机_贴标机-上海圣起包装机械 | 上海佳武自动化科技有限公司| 代做标书-代写标书-专业标书文件编辑-「深圳卓越创兴公司」 | 北京成考网-北京成人高考网| 北京燃气公司 用户服务中心| 防弹玻璃厂家_防爆炸玻璃_电磁屏蔽玻璃-四川大硅特玻科技有限公司 | 石膏基自流平砂浆厂家-高强石膏基保温隔声自流平-轻质抹灰石膏粉砂浆批发-永康市汇利建设有限公司 | 青岛侦探调查_青岛侦探事务所_青岛调查事务所_青岛婚外情取证-青岛狄仁杰国际侦探公司 | 棕刚玉-白刚玉厂家价格_巩义市东翔净水材料厂 | 东莞市天进机械有限公司-钉箱机-粘箱机-糊箱机-打钉机认准东莞天进机械-厂家直供更放心! |