TMT观察网_独特视角观察TMT行业

基礎(chǔ)硬件與AI深度協(xié)同,文化保護與傳承有了新姿勢觀點

智能相對論 2023-01-15 18:21
分享到:
導(dǎo)讀

開發(fā)框架與基礎(chǔ)硬件攜手,AI的社會價值在文化領(lǐng)域深度彰顯

語言是人類進行溝通交流的表達方式,其儲存著豐富的文化信息,傳承著民族血脈,也支撐著文明的發(fā)展與演進。然而,一些少數(shù)民族語言、方言卻正在無聲無息地消失,與之密切相連的地域文化、歷史文化也正面臨瀕危風(fēng)險。

“大約平均兩周就會有一種語言消亡“,聯(lián)合國教科文組織的這一調(diào)查數(shù)據(jù)讓人觸目驚心,且世界上正在使用的約6,000種語言,至少有43%面臨瀕危[1]。而在中國,也有25種語言使用人口已不足千人[2]。

搶救瀕危少數(shù)民族語言對保持漢語的豐富性、多元性,保護文化記憶、文化基因意義重大。因此,中國早在2015年就啟動了語言資源保護工程,借助田野調(diào)查,建立起龐大的口語語料庫,保存了原始聲音文件和國際音標標注等豐富素材。 

然而,僅僅依靠這些單語數(shù)據(jù),研究者難以獲知其背后所傳達的語義,無法有效開展相關(guān)學(xué)習(xí)與研究,更罔論留存這些少數(shù)民族瀕危語言與背后地方文化的生命力。

人工智能技術(shù)為復(fù)活這些語言,挖掘多元文化價值,傳承璀璨的歷史文化,提供了新思路和新手段。2022年國際母語日也將“利用技術(shù)促進多語言學(xué)習(xí):挑戰(zhàn)與機遇”作為主題,指出了技術(shù)對推進多語言教育以及文化傳承與保護的作用。

百度飛槳深度學(xué)習(xí)平臺攜手英特爾,基于第三代英特爾? 至強? 可擴展處理器進行深度優(yōu)化,通過完善的模型壓縮方法和量化加速技術(shù),支持全自動生成大規(guī)?!皾h語-少數(shù)民族語言”雙向詞典,對用技術(shù)幫助保護瀕危少數(shù)民族語言,推動民族互通互融,做出了積極探索,展現(xiàn)了“科技向善”的現(xiàn)實意義和歷史價值。

采用百度飛槳深度學(xué)習(xí)平臺,全自動構(gòu)建大規(guī)模雙向詞典

構(gòu)建雙向詞典項目,采用了規(guī)模大、范圍廣、語種多、內(nèi)容豐富的瀕危語言博物館館藏源語料庫,語料全部來自于田野調(diào)查與實地采集。

通過分析,項目研發(fā)人員選取了中國少數(shù)民族語言中的獨龍、爾蘇、嘉絨、撒拉這四種數(shù)據(jù)較為豐富的語言作為實驗對象。

為基于百度飛槳實現(xiàn)對齊算法,項目團隊首先開發(fā)了民間故事漢語數(shù)據(jù)集。開發(fā)過程中,充分利用飛槳PaddleOCR開發(fā)套件識別精度高、推理速度快等特性,對跨度8年的《故事會》雜志掃描樣本進行數(shù)據(jù)化處理,構(gòu)建出規(guī)模達950萬字的文本數(shù)據(jù)集,也是全球首個民間故事漢語數(shù)據(jù)庫,且具有很強的口語化風(fēng)格,適合與少數(shù)民族語言語料進行對齊。

然后,實施低資源詞向量訓(xùn)練,應(yīng)對四個少數(shù)民族語料句子數(shù)量普遍不足五千條的挑戰(zhàn),以及《故事會》語料小于二十萬條句子的問題,為下游的雙語對齊提供了強有力的支持。

繼之,依據(jù)拓撲特征,對兩種語言的詞向量進行旋轉(zhuǎn)和對齊,實施雙語詞典自動化抽取,最終導(dǎo)出了獨龍、爾蘇、嘉絨、撒拉這四種語言和漢語的雙向詞典。

目前,這四部雙向詞典已在中國社科院民族學(xué)和人類學(xué)研究所志愿者的協(xié)助下,進行了內(nèi)部評測,僅發(fā)現(xiàn)含有少量誤差。這一可喜成果,驗證了基于百度飛槳深度學(xué)習(xí)平臺,智能生成大規(guī)模漢語-少數(shù)民族語言詞典的可行性和便捷性,展現(xiàn)了人工智能對于應(yīng)對語言瀕危日益嚴峻挑戰(zhàn)的高效性和高價值。

英特爾與百度飛槳軟硬協(xié)同優(yōu)化,用智能探索文化保護新路

雙向詞典項目依托飛槳深度學(xué)習(xí)技術(shù),高效實現(xiàn)了瀕危語言詞典的自動化生成,極大減輕了語保工作者的負擔(dān)。而其背后是英特爾所提供的英特爾? 至強? 可擴展平臺具備的強勁算力和多種優(yōu)化措施,為飛槳平臺高效支撐項目運作提供了基礎(chǔ)能力和量化加速。

業(yè)界盡知,人工智能應(yīng)用不僅需要高算力作為支撐,而且源于大多數(shù)深度學(xué)習(xí)模型使用32位浮點精度(FP32)構(gòu)建,復(fù)雜度高,模型參數(shù)量大,限制了其在一些場景和設(shè)備進行部署,需要實施軟硬結(jié)合優(yōu)化,才能突破性能瓶頸,高效承載諸如上文雙向詞典生成等多類應(yīng)用。

針對上述問題,英特爾攜手百度飛槳,基于第三代英特爾? 至強? 可擴展處理器、英特爾? oneAPI工具套件等軟硬件組合,在為飛槳平臺提供充裕算力的同時,也對整個深度學(xué)習(xí)流程實施全方位優(yōu)化,幫助加速各類應(yīng)用開發(fā)和量化部署。

第三代英特爾? 至強? 可擴展處理器依托出色的微架構(gòu),發(fā)揮多核心、多線程和大容量高速緩存等特性,很好地滿足了飛槳平臺對通用算力的苛刻需求,同時加持以其內(nèi)置的英特爾? AVX-512提供的增強矢量處理能力,提升AI 推理和訓(xùn)練效率,為圖像分類、自然語言處理、語音識別、語音翻譯等廣泛的應(yīng)用開發(fā)和部署提供穩(wěn)健基石。而最新一代的第四代英特爾? 至強? 可擴展處理器更內(nèi)置一系列加速器,包括全新的AI加速器——英特爾?高級矩陣擴展(英特爾?AMX),覆蓋包括訓(xùn)練和微調(diào)在內(nèi)的更多深度學(xué)習(xí)使用場景,可以為不斷變化且要求日益增高的應(yīng)用提供更為可觀的計算性能。

為滿足模型快速“瘦身”之需,百度飛槳打造了PaddleSlim深度學(xué)習(xí)模型壓縮工具庫,以及為用戶提供靈活的壓縮策略,而英特爾? 至強? 可擴展處理器內(nèi)置的AI加速技術(shù)--英特爾? 深度學(xué)習(xí)加速(英特爾? DL Boost),可通過矢量神經(jīng)網(wǎng)絡(luò)指令(VNNI)充分提高計算資源和緩存的利用率,減少潛在的帶寬瓶頸,為INT8等低精度計算提供優(yōu)化支持,顯著加速AI 推理。由此,幫助飛槳PaddleSlim所支持的量化訓(xùn)練和靜態(tài)離線量化方法,更好地適用于計算機視覺(CV)和自然語言處理 (NLP)等模型優(yōu)化過程,這無疑也為雙向詞典AI方案的開發(fā)提供了便利,同時提高了項目運作效率。

同時為激活 VNNI 加速功能,百度飛槳深度學(xué)習(xí)平臺在量化方案實施中還廣泛使用英特爾? oneAPI 工具套件,如英特爾? oneAPI 深度神經(jīng)網(wǎng)絡(luò)庫 (Intel? oneAPI Deep Neural Network Library,英特爾? oneDNN)。借助其統(tǒng)一、簡化的編程模型,飛槳用戶得以在CPU、GPU和FPGA等不同的架構(gòu)上方便地調(diào)用通用接口來使用平臺內(nèi)置的AI加速技術(shù),而無需擔(dān)心平臺兼容問題。

得益于英特爾? 至強? 可擴展平臺與多項優(yōu)化工具的支持,百度飛槳深度學(xué)習(xí)平臺實現(xiàn)了深度優(yōu)化,并不斷豐富模型資源及應(yīng)用開發(fā)套件,為用戶提供了優(yōu)異的模型及硬件加速體驗。而雙向詞典項目在推動少數(shù)民族語言保護領(lǐng)域展現(xiàn)的神奇魔力,就是其典型案例。

“十四五”規(guī)劃把“強化重要文化和自然遺產(chǎn)、非物質(zhì)文化遺產(chǎn)系統(tǒng)性保護、推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展”,作為提高社會文明程度的重要舉措;今年的工作報告也強調(diào)了“傳承中華優(yōu)秀傳統(tǒng)文化,滿足人民日益增長的精神文化需求”,對鑄就文化新輝煌的重要作用。

英特爾攜手百度飛槳踐行“科技向善”,優(yōu)化開源平臺,促進瀕危語言保護,不僅延續(xù)和發(fā)揚了語言背后蘊含的文化、知識遺產(chǎn)及其價值,更探索出智能技術(shù)賦能的新路;也是英特爾繼用人工智能助力長城修繕,通過計算、存儲、網(wǎng)絡(luò)全棧優(yōu)化解決方案幫助云岡石窟文物保護等,持續(xù)展現(xiàn)創(chuàng)新技術(shù)對挖掘與傳承璀璨歷史文化、實現(xiàn)創(chuàng)新創(chuàng)造的新動能的又一成功實踐,有助于在讓歷史智慧照進未來,讓寶貴文化遺產(chǎn)豐富人們精神世界的同時,進一步加速人工智能的拓展應(yīng)用,助力擁抱數(shù)字化浪潮,創(chuàng)造更美好的生活。

[1] 如欲了解更多詳情請訪問:https://www.un.org/zh/observances/mother-language-day%20

[2]如欲了解更多詳情請訪問:https://epaper.gmw.cn/zhdsb/html/2022-01/19/nw.D110000zhdsb_20220119_1-06.htm


語言 英特爾 文化
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。


主站蜘蛛池模板: 防腐木批发价格_深圳_惠州_东莞防腐木厂家_森源(深圳)防腐木有限公司 | T恤衫定做,企业文化衫制作订做,广告T恤POLO衫定制厂家[源头工厂]-【汉诚T恤定制网】 | 电缆故障测试仪_电缆故障定位仪_探测仪_检测仪器_陕西意联电气厂家 | 房间温控器|LonWorks|海思 | 超声波乳化机-超声波分散机|仪-超声波萃取仪-超声波均质机-精浩机械|首页 | 红立方品牌应急包/急救包加盟,小成本好项目代理_应急/消防/户外用品加盟_应急好项目加盟_新奇特项目招商 - 中红方宁(北京) 供应链有限公司 | 医疗仪器模块 健康一体机 多参数监护仪 智慧医疗仪器方案定制 血氧监护 心电监护 -朗锐慧康 | 自动钻孔机-全自动数控钻孔机生产厂家-多米(广东)智能装备有限公司 | 通辽信息港 - 免费发布房产、招聘、求职、二手、商铺等信息 www.tlxxg.net | 阻燃剂-氢氧化镁-氢氧化铝-沥青阻燃剂-合肥皖燃新材料 | 玻璃钢罐_玻璃钢储罐_盐酸罐厂家-河北华盛节能设备有限公司 | 并网柜,汇流箱,电控设备,中高低压开关柜,电气电力成套设备,PLC控制设备订制厂家,江苏昌伟业新能源科技有限公司 | 全球化工设备网—化工设备,化工机械,制药设备,环保设备的专业网络市场。 | 专业音响设备_舞台音响设备_会议音响工程-首选深圳一禾科技 | 菏泽知彼网络科技有限公司| 开业庆典_舞龙舞狮_乔迁奠基仪式_开工仪式-神挚龙狮鼓乐文化传媒 | 蚂蚁分类信息系统 - PHP同城分类信息系统 - MayiCMS | 立式壁挂广告机厂家-红外电容触摸一体机价格-华邦瀛 | 上海新光明泵业制造有限公司-电动隔膜泵,气动隔膜泵,卧式|立式离心泵厂家 | 防水套管厂家_刚性防水套管_柔性防水套管_不锈钢防水套管-郑州中泰管道 | 机房监控|动环监控|动力环境监控系统方案产品定制厂家 - 迈世OMARA | 餐饮小吃技术培训-火锅串串香培训「何小胖培训」_成都点石成金[官网] | 大型多片锯,圆木多片锯,方木多片锯,板材多片锯-祥富机械有限公司 | 减速机三参数组合探头|TSM803|壁挂式氧化锆分析仪探头-安徽鹏宸电气有限公司 | 实验室pH计|电导率仪|溶解氧测定仪|离子浓度计|多参数水质分析仪|pH电极-上海般特仪器有限公司 | 乐泰胶水_loctite_乐泰胶_汉高乐泰授权(中国)总代理-鑫华良供应链 | 物流公司电话|附近物流公司电话上门取货| 英语词典_成语词典_日语词典_法语词典_在线词典网 | 单螺旋速冻机-双螺旋-流态化-隧道式-食品速冻机厂家-广州冰泉制冷 | 液氮罐(生物液氮罐)百科-无锡爱思科 | 振动筛-交叉筛-螺旋筛-滚轴筛-正弦筛-方形摇摆筛「新乡振动筛厂家」 | 暖气片十大品牌厂家_铜铝复合暖气片厂家_暖气片什么牌子好_欣鑫达散热器 | 健康管理师报名入口,2025年健康管理师考试时间信息网-网站首页 塑料造粒机「厂家直销」-莱州鑫瑞迪机械有限公司 | 昆明网络公司|云南网络公司|昆明网站建设公司|昆明网页设计|云南网站制作|新媒体运营公司|APP开发|小程序研发|尽在昆明奥远科技有限公司 | 高精度电阻回路测试仪-回路直流电阻测试仪-武汉特高压电力科技有限公司 | 雨水收集系统厂家-雨水收集利用-模块雨水收集池-徐州博智环保科技有限公司 | 生物颗粒燃烧机-生物质燃烧机-热风炉-生物颗粒蒸汽发生器-丽水市久凯能源设备有限公司 | bkzzy在职研究生网 - 在职研究生招生信息咨询平台 | 水平筛厂家-三轴椭圆水平振动筛-泥沙震动筛设备_山东奥凯诺矿机 包装设计公司,产品包装设计|包装制作,包装盒定制厂家-汇包装【官方网站】 | OLChemim试剂-ABsciex耗材-广州市自力色谱科仪有限公司 | 压力控制器,差压控制器,温度控制器,防爆压力控制器,防爆温度控制器,防爆差压控制器-常州天利智能控制股份有限公司 |