TMT观察网_独特视角观察TMT行业

攻破“雞尾酒會(huì)”難題,人聲分離給生活帶來(lái)了哪些改變?互聯(lián)網(wǎng)+

智能相對(duì)論 2018-04-20 18:34
分享到:
導(dǎo)讀

隨著日后無(wú)人駕駛的普及,人聲分離模式或可衍生出“雷聲分離”,將雷達(dá)誤收風(fēng)險(xiǎn)降到最低,從而保證無(wú)人駕駛障礙識(shí)別方面的安全性

文 | 柯鳴| 智能相對(duì)論(aixdlun)

試想一下,在一個(gè)嘈雜的雞尾酒會(huì)上,同時(shí)存在著許多不同的聲源:多個(gè)人同時(shí)說(shuō)話的聲音、餐具的碰撞聲、音樂(lè)聲等等。如何在酒會(huì)上分辨出特定人物的聲音,這對(duì)于我們?nèi)祟悂?lái)說(shuō)十分簡(jiǎn)單。

但對(duì)于計(jì)算機(jī)來(lái)說(shuō),要把一個(gè)音頻信號(hào)分割成多個(gè)不同的語(yǔ)音來(lái)源,依然有許多棘手的問(wèn)題需要解決。當(dāng)許多人的語(yǔ)音交疊在一起的時(shí)候,AI時(shí)常措手不及。1953年Cherry提出“雞尾酒會(huì)”問(wèn)題至今,仍然沒(méi)有人能夠解決機(jī)器深度學(xué)習(xí)識(shí)別分離人聲的問(wèn)題。

但是,近日在GoogleResearch 軟件工程師 Inbar Mosseri 和Oran Lang 發(fā)表的論文《Looking to Listen at the CocktailParty》中,采用了一個(gè)全新的視聽(tīng)模型為“雞尾酒會(huì)”問(wèn)題提供了一個(gè)合適的解決之道。

音頻-視覺(jué)語(yǔ)音分離模型,解決“雞尾酒會(huì)效應(yīng)”

為了解決“雞尾酒會(huì)”問(wèn)題,谷歌從YouTube上搜尋了10萬(wàn)個(gè)高質(zhì)量講座和演講視頻生成訓(xùn)練樣本,通過(guò)約2000 個(gè)小時(shí)的視頻片段分析,訓(xùn)練出基于多流卷積神經(jīng)網(wǎng)絡(luò)(CNN)的模型,將合成雞尾酒會(huì)片段分割成視頻中每個(gè)說(shuō)話者的單獨(dú)音頻流。

該試驗(yàn)中,輸入是一名或多名發(fā)聲對(duì)象,同時(shí)被其他對(duì)象或嘈雜背景所干擾的視頻。輸出的是將輸入視頻的音軌分解成純凈的音軌,并對(duì)應(yīng)上相應(yīng)的說(shuō)話者。

所謂的音頻-視覺(jué)語(yǔ)音分離模型,就是加強(qiáng)選中人的語(yǔ)音,同時(shí)減弱同一時(shí)間其他人的音量。該方法適用于具有單一(主)音軌的常見(jiàn)視頻,用戶也可以自行選擇傾聽(tīng)對(duì)象來(lái)生成對(duì)其的單一音軌,或者基于語(yǔ)境由算法進(jìn)行對(duì)特定發(fā)聲對(duì)象進(jìn)行選擇。

而在模型訓(xùn)練過(guò)程中,網(wǎng)絡(luò)系統(tǒng)(分別)學(xué)習(xí)了視覺(jué)和音頻信號(hào)的編碼,然后將它們?nèi)诤显谝黄鹦纬梢粋€(gè)音頻-視覺(jué)表現(xiàn)。通過(guò)這種表現(xiàn),網(wǎng)絡(luò)系統(tǒng)可以學(xué)會(huì)為每位發(fā)聲對(duì)象對(duì)應(yīng)輸出時(shí)頻掩碼。輸出的時(shí)頻掩碼與噪聲輸入頻譜圖相乘,隨后轉(zhuǎn)換成時(shí)域波形,從而形成每一位說(shuō)話者單獨(dú)純凈的音頻信號(hào)。

基于神經(jīng)網(wǎng)絡(luò)模型架構(gòu)

此外,在多人發(fā)聲的場(chǎng)景下,視覺(jué)信號(hào)除了有效提升語(yǔ)音分離的質(zhì)量,還可以把分離之后的音軌和視頻里的人物對(duì)應(yīng)起來(lái)。此種方式為其后的語(yǔ)音識(shí)別領(lǐng)域提供了許多的可能性。 

解決“雞尾酒會(huì)效應(yīng)”這一難題意味著什么?

“雞尾酒會(huì)效應(yīng)”難題的解決為語(yǔ)音識(shí)別領(lǐng)域的許多問(wèn)題提供了思考路徑,同時(shí)視覺(jué)-音頻網(wǎng)絡(luò)識(shí)別系統(tǒng)的提出,也為人聲分離提供了視覺(jué)+聽(tīng)覺(jué)的解決方式。隨著技術(shù)落地,當(dāng)人聲分離技術(shù)真正應(yīng)用于市場(chǎng)中會(huì)對(duì)產(chǎn)品有哪些改變呢?智能相對(duì)論分析師柯鳴認(rèn)為,其在以下四個(gè)方面會(huì)有較大突破。

1.人聲分離助力CC(隱藏式字幕)發(fā)展

隱藏字幕(Closed Captioning)是電視節(jié)目和電影中為有特殊情況或者需要的觀眾準(zhǔn)備的字幕,其可以起到用解釋性語(yǔ)言描述畫面的作用。

Caption 這個(gè)詞,有輔助聽(tīng)力障礙的人士用意。Caption一般還包含了效果音的提示,這些聲音正常人可以分辨,而對(duì)于障礙人士則必須通過(guò)字幕。

比如美國(guó)的「流言終結(jié)者」節(jié)目,除了可以看到「TV PG」分級(jí)標(biāo)簽以外,也顯示了 CC 標(biāo)志表明節(jié)目提供隱藏式字幕,以此來(lái)服務(wù)那些需要特殊幫助的群體。

《流言終結(jié)者》

同樣,谷歌人聲分離技術(shù)對(duì)于促進(jìn)CC發(fā)展有較大前景。多通道系統(tǒng)中對(duì)于特定人聲的分離能夠簡(jiǎn)化節(jié)目、電影制作流程,其在語(yǔ)音識(shí)別的預(yù)處理,以及視頻字幕方面能產(chǎn)生良好效果。

對(duì)于視頻自動(dòng)字幕加載系統(tǒng)而言,多名發(fā)生者同時(shí)發(fā)聲導(dǎo)致的語(yǔ)音重疊現(xiàn)象是一項(xiàng)已知的挑戰(zhàn),與此同時(shí),將音頻分離至不同的源也有助于呈現(xiàn)更加準(zhǔn)確和易讀的字幕。人聲分離技術(shù)可以在語(yǔ)音原聲的基礎(chǔ)上直譯出各個(gè)對(duì)話主題的聲音,并將其分開(kāi),利用AI實(shí)現(xiàn)字幕自動(dòng)化,這極大程度上保證了字幕的同步性與準(zhǔn)確性。 

2.人聲分離降低AI同傳“烏龍率”

在2018年博鰲論壇上,騰訊AI同傳搞了一個(gè)大烏龍。除了翻譯不準(zhǔn)確的問(wèn)題意外,現(xiàn)場(chǎng)還被曝光翻譯系統(tǒng)崩潰“抽風(fēng)”,出現(xiàn)亂碼的情況,讓現(xiàn)場(chǎng)相當(dāng)尷尬。

騰訊AI同傳的“車禍”現(xiàn)場(chǎng)

事后,騰訊指出:出現(xiàn)此種烏龍的原因在于中英雙語(yǔ)切換頻率的問(wèn)題。當(dāng)聲源在兩種語(yǔ)言之間不斷轉(zhuǎn)換時(shí),后臺(tái)中、英文識(shí)別引擎就會(huì)同時(shí)開(kāi)始工作,這會(huì)導(dǎo)致兩種識(shí)別引擎互相“掐架”,語(yǔ)音識(shí)別混亂。最終翻譯結(jié)果只能選擇一種語(yǔ)言進(jìn)行輸出,導(dǎo)致引發(fā)錯(cuò)誤。

而人聲分離技術(shù)的應(yīng)用,似乎為AI同傳中的人聲識(shí)別提供了一個(gè)有效的解決途徑。對(duì)于多種語(yǔ)言的識(shí)別流暢化后,AI同傳的質(zhì)量也相應(yīng)會(huì)得到一定的提高。

3.或可為智能音響提供“保險(xiǎn)箱”


AI人聲分離加強(qiáng)智能音響識(shí)別精準(zhǔn)度

智能音箱的問(wèn)世,使得普通家庭進(jìn)入了語(yǔ)音互動(dòng)的時(shí)代,其使用的簡(jiǎn)易性甚至超過(guò)了智能手機(jī)。有業(yè)者認(rèn)為,智能音箱將會(huì)取代智能手機(jī),成為家庭自動(dòng)化或者智能家居生活的入口,自然語(yǔ)言對(duì)話將成為主流和高效率的用戶界面。

與此同時(shí),智能音響在應(yīng)用過(guò)程中,也面臨著諸多挑戰(zhàn),其主要體現(xiàn)在語(yǔ)音識(shí)別技術(shù)、聲紋識(shí)別等諸種技術(shù)上。目前,智能音箱的技術(shù)難題在于語(yǔ)音識(shí)別技術(shù)如何在嘈雜的環(huán)境中識(shí)別語(yǔ)音指令——包括酒吧和體育場(chǎng)等人聲鼎沸的場(chǎng)景。

為此,微軟在Xbox上部署了一款名為Voice Studio的應(yīng)用,專門收集人們?cè)谕嬗螒蚧蚩措娪皶r(shí)的對(duì)話信息。為了吸引用戶貢獻(xiàn)自己在玩游戲過(guò)程中的對(duì)話內(nèi)容,該公司為參與其中的用戶提供了各種各樣的獎(jiǎng)勵(lì),包括點(diǎn)卡和游戲道具。

但是,效果并不盡如人意。如何在嘈雜環(huán)境識(shí)別人聲、如何分別多人聲音依然是智能音箱的難題。日后,隨著智能家居的普及,智能音響成為了物聯(lián)網(wǎng)環(huán)境下與其他家居溝通的“鑰匙”,而AI人聲分離技術(shù)的應(yīng)用,攻克技術(shù)問(wèn)題的同時(shí)也為智能音響提供了一個(gè)安全性較強(qiáng)的“保險(xiǎn)箱”。

4.為無(wú)人駕駛提供仿生啟示

“雞尾酒會(huì)效應(yīng)”在動(dòng)物界的應(yīng)用為無(wú)人駕駛提供一定啟示。以蝙蝠躲避障礙和捕食為例,其在飛行過(guò)程中會(huì)發(fā)射一系列超聲波,超聲波遇到障礙后反射回來(lái),蝙蝠通過(guò)感知反射信號(hào)到達(dá)兩耳的時(shí)間差來(lái)判斷障礙物的方向,通過(guò)感知反射信號(hào)的強(qiáng)度來(lái)判斷障礙物的距離。

蝙蝠發(fā)出的超聲信號(hào)一般是在110kHz的一個(gè)掃頻信號(hào),通過(guò)感知不同頻率信號(hào)的衰減程度,就可以辨別障礙物的材質(zhì),進(jìn)而可以判斷障礙物是否為捕食對(duì)象。

蝙蝠是如何區(qū)分自己和他人發(fā)出的超聲波信號(hào)的呢?科學(xué)家通過(guò)研究發(fā)現(xiàn),蝙蝠并沒(méi)有改變發(fā)出的超聲頻率,而是通過(guò)叫聲變大,持續(xù)時(shí)間變長(zhǎng),發(fā)射頻率增多等方式來(lái)解決的。

動(dòng)物界的“雞尾酒會(huì)效應(yīng)”啟示無(wú)人駕駛:想提高雷達(dá)的定位精度,提高信噪比是根本。比如,蝙蝠叫聲變大,相當(dāng)于提高了信號(hào)的能量;而叫聲持續(xù)時(shí)間變長(zhǎng)和叫聲頻率增多,則是增加了信號(hào)的樣本點(diǎn)數(shù)。在噪聲不相關(guān)的情況下,經(jīng)過(guò)簡(jiǎn)單的平均就可以降低噪聲的影響。這一點(diǎn),將會(huì)為機(jī)器人和無(wú)人駕駛汽車帶來(lái)了新的啟發(fā)。

無(wú)人駕駛的激光雷達(dá)探測(cè)

此外,視覺(jué)-音頻語(yǔ)音識(shí)別分離模型應(yīng)用于無(wú)人駕駛領(lǐng)域能大程度提高雷達(dá)、激光等距離傳感器測(cè)量出路面信息的性能,而這正是無(wú)人駕駛安全保障的基礎(chǔ)。

隨著日后無(wú)人駕駛的普及,人聲分離模式或可衍生出“雷聲分離”,將雷達(dá)誤收風(fēng)險(xiǎn)降到最低,從而保證無(wú)人駕駛障礙識(shí)別方面的安全性。

 誠(chéng)然,新技術(shù)的應(yīng)用需要一段時(shí)間。谷歌官方目前也表示:“正在探索使用這個(gè)技術(shù)到谷歌系列產(chǎn)品中去”。隨著“雞尾酒會(huì)”難題的解決,AI語(yǔ)音識(shí)別將會(huì)有長(zhǎng)足進(jìn)展。具體投入產(chǎn)品后表現(xiàn)怎樣,還需要市場(chǎng)來(lái)檢驗(yàn)。

智能相對(duì)論(微信id:aixdlun):深挖人工智能這口井,評(píng)出咸淡,講出黑白,道出深淺。重點(diǎn)關(guān)注領(lǐng)域:AI+醫(yī)療、機(jī)器人、智能駕駛、AI+硬件、物聯(lián)網(wǎng)、AI+金融、AI+安全、AR/VR、開(kāi)發(fā)者以及背后的芯片、算法、人機(jī)交互等。

語(yǔ)音 分離 識(shí)別 人聲 AI
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


專題報(bào)道

主站蜘蛛池模板: 济宁工业提升门|济宁电动防火门|济宁快速堆积门-济宁市统一电动门有限公司 | 代理记账_免费注册公司_营业执照代办_资质代办-【乐财汇】 | 济南网站策划设计_自适应网站制作_H5企业网站搭建_济南外贸网站制作公司_锐尚 | 天空彩票天下彩,天空彩天空彩票免费资料,天空彩票与你同行开奖,天下彩正版资料大全 | 学生作文网_中小学生作文大全与写作指导 | 披萨石_披萨盘_电器家电隔热绵加工定制_佛山市南海区西樵南方综合保温材料厂 | 培训无忧网-教育培训咨询招生第三方平台 | 依维柯自动挡房车,自行式国产改装房车,小型房车价格,中国十大房车品牌_南京拓锐斯特房车 - 南京拓锐斯特房车 | 动库网动库商城-体育用品专卖店:羽毛球,乒乓球拍,网球,户外装备,运动鞋,运动包,运动服饰专卖店-正品运动品网上商城动库商城网 - 动库商城 | 自动气象站_农业气象站_超声波气象站_防爆气象站-山东万象环境科技有限公司 | 飞扬动力官网-广告公司管理软件,广告公司管理系统,喷绘写真条幅制作管理软件,广告公司ERP系统 | 冷藏车-东风吸污车-纯电动环卫车-污水净化车-应急特勤保障车-程力专汽厂家-程力专用汽车股份有限公司销售二十一分公司 | 智能型高压核相仪-自动开口闪点测试仪-QJ41A电雷管测试仪|上海妙定 | 真空干燥烘箱_鼓风干燥箱 _高低温恒温恒湿试验箱_光照二氧化碳恒温培养箱-上海航佩仪器 | 运动木地板_体育木地板_篮球馆木地板_舞台木地板-实木运动地板厂家 | 定制/定做冲锋衣厂家/公司-订做/订制冲锋衣价格/费用-北京圣达信 | 单锥双螺旋混合机_双螺旋锥形混合机-无锡新洋设备科技有限公司 | 细石混凝土泵_厂家_价格-烟台九达机械有限公司 | 日本东丽膜_反渗透膜_RO膜价格_超滤膜_纳滤膜-北京东丽阳光官网 日本细胞免疫疗法_肿瘤免疫治疗_NK细胞疗法 - 免疫密码 | 齿辊分级破碎机,高低压压球机,立式双动力磨粉机-郑州长城冶金设备有限公司 | 最新范文网_实用的精品范文美文网 | 对辊式破碎机-对辊制砂机-双辊-双齿辊破碎机-巩义市裕顺机械制造有限公司 | 120kv/2mA直流高压发生器-60kv/2mA-30kva/50kv工频耐压试验装置-旭明电工 | 精密交叉滚子轴承厂家,转盘轴承,YRT转台轴承-洛阳千协轴承 | 石家庄小程序开发_小程序开发公司_APP开发_网站制作-石家庄乘航网络科技有限公司 | 混合生育酚_醋酸生育酚粉_琥珀酸生育酚-山东新元素生物科技 | 不锈钢电动球阀_气动高压闸阀_旋塞疏水调节阀_全立阀门-来自温州工业阀门巨头企业 | 滚塑PE壳体-PE塑料浮球-警示PE浮筒-宁波君益塑业有限公司 | 除尘布袋_液体过滤袋_针刺毡滤料-杭州辉龙过滤技术有限公司 | 河南新乡德诚生产厂家主营震动筛,振动筛设备,筛机,塑料震动筛选机 | 万博士范文网-您身边的范文参考网站Vanbs.com | 爱佩恒温恒湿测试箱|高低温实验箱|高低温冲击试验箱|冷热冲击试验箱-您身边的模拟环境试验设备技术专家-合作热线:400-6727-800-广东爱佩试验设备有限公司 | 蓝米云-专注于高性价比香港/美国VPS云服务器及海外公益型免费虚拟主机 | 铝单板_铝窗花_铝单板厂家_氟碳包柱铝单板批发价格-佛山科阳金属 | PAS糖原染色-CBA流式多因子-明胶酶谱MMP-上海研谨生物科技有限公司 | 环比机械| 十二星座查询(性格特点分析、星座运势解读) - 玄米星座网 | 塑胶跑道_学校塑胶跑道_塑胶球场_运动场材料厂家_中国塑胶跑道十大生产厂家_混合型塑胶跑道_透气型塑胶跑道-广东绿晨体育设施有限公司 | 自动化生产线-自动化装配线-直流电机自动化生产线-东莞市慧百自动化有限公司 | 亚克力制品定制,上海嘉定有机玻璃加工制作生产厂家—官网 | 无锡网站建设_小程序制作_网站设计公司_无锡网络公司_网站制作 |