TMT观察网_独特视角观察TMT行业

“假聲音”也來(lái)了,手把手教你造一只柯南的蝴蝶結(jié)變聲器互聯(lián)網(wǎng)+

大數(shù)據(jù)文摘 2019-03-01 13:17
分享到:
導(dǎo)讀

“假臉”技術(shù)大肆盛行,與之配套的“假聲音”上線后,更能生成無(wú)縫銜接的假視頻,讓假戲做足,真假難辨。

“假臉”技術(shù)大肆盛行,與之配套的“假聲音”上線后,更能生成無(wú)縫銜接的假視頻,讓假戲做足,真假難辨。 最近,一只“總統(tǒng)洋蔥新聞”在Youtube和Reddit上引發(fā)了一波討論。
視頻中,特朗普用它一貫懶散的聲音播報(bào)了一組耐人尋味的新聞——“數(shù)據(jù)雨“:

微信圖片_20190301125308.jpg 視頻地址: https://www.youtube.com/watch?v=jzKlTKsHeus
雖然內(nèi)容荒唐,但整個(gè)視頻中的聲音效果非常真實(shí),以至于不少網(wǎng)友在捧腹大笑的同時(shí)也開始調(diào)侃,“是不是很快就能接到特朗普給我打的廣告電話了。”
再加上近期,“假臉”技術(shù)大肆盛行,與之配套的“假聲音”上線后,更能生成無(wú)縫銜接的假視頻,讓假戲做足,真假難辨。
靠換臉技術(shù)”出演”《射雕英雄傳》的楊冪

關(guān)于變音技術(shù),江湖上確實(shí)流傳了幾種,不過(guò)加持了機(jī)器學(xué)習(xí)和深度學(xué)習(xí),這種技術(shù)不再是簡(jiǎn)單的語(yǔ)音濾波器。
聽聽下面的聲音? 是不是后面兩種語(yǔ)音的音調(diào)、停頓以及語(yǔ)氣和第一種幾乎都一模一樣。
跟”一鍵變臉“的deepfake軟件一樣,研究者們也開發(fā)了讓不懂技術(shù)的同學(xué)直接易上手的變聲軟件。
剛剛聽到的這個(gè)聲音就來(lái)自這樣一個(gè)網(wǎng)站Modulate.ai。麻省理工科技評(píng)論的資深編輯Will Knight用其輕易就合成了不同的聲音。
創(chuàng)建這個(gè)網(wǎng)站的三個(gè)小伙伴,有兩個(gè)來(lái)自麻省理工,還有一個(gè)來(lái)自加州大學(xué)洛杉磯分校。對(duì)于游客,這個(gè)網(wǎng)站給出了幾個(gè)適用的聲音,對(duì)于想定制名人聲音的用戶,還得通過(guò)官網(wǎng)給出的聯(lián)系方式聯(lián)系他們。
據(jù)網(wǎng)站介紹,合成的聲音是是采用神經(jīng)網(wǎng)絡(luò)訓(xùn)練來(lái)訓(xùn)練,具有低延遲性以及實(shí)時(shí)性。
文摘菌試了一把,在網(wǎng)站的提供的接口處錄下聲音,選擇你想要的“性別”或者“名人”,網(wǎng)站會(huì)很快生成你想要的聲音。
微信圖片_20190301125614.jpg 網(wǎng)站地址: https://modulate.ai/
此外,百度在18年的3月份曾經(jīng)宣布,百度開發(fā)的新 AI 算法Deep Voice可以通過(guò)3.7秒鐘的錄音樣本數(shù)據(jù)就能完美的克隆出一個(gè)人的聲音。Deep Voice是百度AI研究院一個(gè)由深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的高質(zhì)量語(yǔ)音轉(zhuǎn)(TTS )系統(tǒng)。除了利用少量樣本克隆聲音外,系統(tǒng)還能將女性聲音轉(zhuǎn)變成男性,英式聲音變成美式。
聲音的直接轉(zhuǎn)換是比較復(fù)雜的,因?yàn)橐粋€(gè)人的“聲音”不僅是由聲帶定義,聲帶只是聲音的頻率,具體來(lái)說(shuō),還取決于口音和說(shuō)話風(fēng)格。另外,音高會(huì)受胸腔的物理特性等的影響。這些影響作用在不同的層面上,發(fā)音決定了單詞和短語(yǔ)是如何在幾秒鐘或幾十秒內(nèi)被識(shí)別出來(lái)。
當(dāng)開始合成語(yǔ)音時(shí),技術(shù)人員主要會(huì)考慮三個(gè)因素。
首先是生物因素,這些因素人們難以自行改變。第二,構(gòu)建聲音認(rèn)同概念,即任何在語(yǔ)言下明顯表現(xiàn)出來(lái)的同一性。有了這個(gè)定義,就可以很好的建立語(yǔ)音識(shí)別模型。第三,建立獨(dú)立于上下文處理語(yǔ)音片段的模型,這個(gè)模型的好處是它比神經(jīng)網(wǎng)絡(luò)中所要處理的序列模型要簡(jiǎn)單的多,并且可以有效的降低語(yǔ)音處理延遲。
總的來(lái)說(shuō),所要建立的系統(tǒng)是:把一個(gè)說(shuō)話人的聲音的頻率分布(frequency profile)換成另一個(gè)聲音的頻率分布,同時(shí)保持他們講話的其余屬性不變。
所以,自然的將系統(tǒng)分為兩個(gè)部分:1、語(yǔ)音識(shí)別 2、語(yǔ)音轉(zhuǎn)換。這兩個(gè)部分最主要的區(qū)別是,是從語(yǔ)音轉(zhuǎn)換到文本,還是從文本轉(zhuǎn)換到語(yǔ)音。如果這兩個(gè)部分獨(dú)立運(yùn)行,那么整個(gè)系丟失“情感模仿”。
語(yǔ)音轉(zhuǎn)文本和文本轉(zhuǎn)語(yǔ)音同屬一個(gè)極端的情況。語(yǔ)音轉(zhuǎn)換必須使用媒介,由于系統(tǒng)只能給出語(yǔ)音,并且嘗試在輸出中再現(xiàn)輸入的語(yǔ)句。
通過(guò)限制某時(shí)段通過(guò)系統(tǒng)的信息量,系統(tǒng)學(xué)習(xí)識(shí)別功能(identity function),這是系統(tǒng)的瓶頸。在從語(yǔ)音到文本到語(yǔ)音的情況下,瓶頸在于對(duì)輸入的語(yǔ)音進(jìn)行文本表示,因此系統(tǒng)必須進(jìn)行一般性學(xué)習(xí),才能根據(jù)文本生成可靠的語(yǔ)音。
從通過(guò)機(jī)器學(xué)習(xí)構(gòu)建這樣一個(gè)系統(tǒng)的角度來(lái)看,出現(xiàn)瓶頸自然有其的道理。機(jī)器學(xué)習(xí),特別是深度學(xué)習(xí),當(dāng)被訓(xùn)練來(lái)完成一項(xiàng)特定的任務(wù)時(shí),一直表現(xiàn)得非常好。但是瓶頸自動(dòng)編碼器沒(méi)有接受過(guò)語(yǔ)音轉(zhuǎn)換的訓(xùn)練,他們接受的是自動(dòng)編碼訓(xùn)練。
破解瓶頸的主要方法是調(diào)整信息瓶頸的帶寬。例如文本中間表示,會(huì)丟失太多信息。文本可以使用情感標(biāo)簽或其他符號(hào)進(jìn)行注釋,但這些需要對(duì)監(jiān)督數(shù)據(jù)著重進(jìn)行手動(dòng)注釋。
具體的步驟:
首先嘗試在兩種不同的損失函數(shù)上訓(xùn)練說(shuō)話人標(biāo)識(shí)符( identifie):真實(shí)音頻匹配揚(yáng)聲器配置文件和生成音頻,以及真實(shí)音頻匹配揚(yáng)聲器配置文件和真實(shí)音頻的揚(yáng)聲器配置文件。使得說(shuō)話人的標(biāo)識(shí)符“尋找”說(shuō)話人身份,否則它只能關(guān)注于檢測(cè)生成的音頻。在實(shí)踐中,發(fā)現(xiàn)只有對(duì)兩個(gè)損失函數(shù)中的第一個(gè)函數(shù)的訓(xùn)練才能起到同樣的作用:說(shuō)話人標(biāo)識(shí)符首先學(xué)會(huì)區(qū)分真實(shí)的音頻和生成的音頻,然后隨著生成器開始產(chǎn)生更高質(zhì)量的輸出,自然進(jìn)化到使用說(shuō)話人配置文件。
在神經(jīng)網(wǎng)絡(luò)的輸入層對(duì)說(shuō)話人標(biāo)識(shí)符的大小設(shè)置了懲罰。懲罰的大小是一個(gè)可調(diào)整的參數(shù),通過(guò)訓(xùn)練效果進(jìn)步明顯與否,可以判斷最優(yōu)參數(shù)。對(duì)于真實(shí)和假音頻,我們最好的訓(xùn)練傾向于快速收斂0.55的交叉熵,然后在大多數(shù)訓(xùn)練過(guò)程中慢慢爬過(guò)0.6。
然后繼續(xù)改進(jìn)系統(tǒng)系結(jié)構(gòu),通過(guò)直接優(yōu)化語(yǔ)音轉(zhuǎn)換目標(biāo),通過(guò)一個(gè)新的說(shuō)話人標(biāo)識(shí)符,能夠產(chǎn)生與目標(biāo)聲音緊密匹配的合成語(yǔ)音,同時(shí)保留了通常由瓶頸架構(gòu)丟失的表達(dá)性。
AI合成大事件 通過(guò)AI技術(shù)合成圖片以及視頻早已不新鮮,要說(shuō)最著名的合成案例可能就是下面這個(gè)。
微信圖片_20190301125638.gif
這項(xiàng)技術(shù)由華盛頓大學(xué)SUPASORN SUWAJANAKORN等三人共同發(fā)明,他們坦言,之所以選用奧巴馬做研究范例,是因?yàn)樗母咔逡曨l資源獲取非常容易,并且不受版權(quán)限制。
因此,研究小組用神經(jīng)網(wǎng)絡(luò)分析了數(shù)百萬(wàn)幀的視頻,來(lái)確定奧巴馬的面部表情如何變化。開口說(shuō)話需要整個(gè)面部器官的協(xié)調(diào),所以研究人員不僅分析了口型變化,還包括他的嘴唇、牙齒和下巴周圍的皺紋,甚至還包括脖子與衣領(lǐng)。
微信圖片_20190301130112.jpg 具體的操作過(guò)程是:研究人員采集了音頻片段(原始音頻文件),再把口型和新的音頻文件剪輯匹配,再嫁接到新視頻。
國(guó)內(nèi)的科技公司也在這一領(lǐng)域各有千秋。拿導(dǎo)航用的語(yǔ)音來(lái)說(shuō),科大訊飛的董事長(zhǎng)劉慶峰在2018世界機(jī)器人大會(huì)上表示,高德地圖導(dǎo)航上面的林志玲、郭德綱的聲音都是合成,其實(shí)都不是本人原音,而是由他們的機(jī)器來(lái)完成合成的,壓根就不是本人錄的。

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會(huì)明確標(biāo)注作者和來(lái)源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請(qǐng)轉(zhuǎn)載時(shí)務(wù)必注明文章作者和"來(lái)源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會(huì)經(jīng)TMT觀察網(wǎng)編輯修改或補(bǔ)充。


主站蜘蛛池模板: 火锅加盟_四川成都火锅店加盟_中国火锅连锁品牌十强_朝天门火锅【官网】 | 讲师宝经纪-专业培训机构师资供应商_培训机构找讲师、培训师、讲师经纪就上讲师宝经纪 | 重庆网站建设,重庆网站设计,重庆网站制作,重庆seo,重庆做网站,重庆seo,重庆公众号运营,重庆小程序开发 | 飞扬动力官网-广告公司管理软件,广告公司管理系统,喷绘写真条幅制作管理软件,广告公司ERP系统 | 废水处理-废气处理-工业废水处理-工业废气处理工程-深圳丰绿环保废气处理公司 | pos机办理,智能/扫码/二维码/微信支付宝pos机-北京万汇通宝商贸有限公司 | 盐城网络公司_盐城网站优化_盐城网站建设_盐城市启晨网络科技有限公司 | ◆大型吹塑加工|吹塑加工|吹塑代加工|吹塑加工厂|吹塑设备|滚塑加工|滚塑代加工-莱力奇塑业有限公司 | 截齿|煤截齿|采煤机截齿|掘进机截齿|旋挖截齿-山东卓力截齿厂家报价 | 一级建造师培训_一建培训机构_中建云筑建造师培训网校 | 背压阀|减压器|不锈钢减压器|减压阀|卫生级背压阀|单向阀|背压阀厂家-上海沃原自控阀门有限公司 本安接线盒-本安电路用接线盒-本安分线盒-矿用电话接线盒-JHH生产厂家-宁波龙亿电子科技有限公司 | 震动筛选机|震动分筛机|筛粉机|振筛机|振荡筛-振动筛分设备专业生产厂家高服机械 | 伺服电机维修、驱动器维修「安川|三菱|松下」伺服维修公司-深圳华创益 | 物联网卡_物联网卡购买平台_移动物联网卡办理_移动联通电信流量卡通信模组采购平台? | 中央空调温控器_风机盘管温控器_智能_液晶_三速开关面板-中央空调温控器厂家 | 微型气泵-真空-蠕动-水泵-厂家-深圳市品亚科技有限公司 | 盘煤仪,盘料仪,盘点仪,堆料测量仪,便携式激光盘煤仪-中科航宇(北京)自动化工程技术有限公司 | CE认证_FCC认证_CCC认证_MFI认证_UN38.3认证-微测检测 CNAS实验室 | 合肥仿石砖_合肥pc砖厂家_合肥PC仿石砖_安徽旭坤建材有限公司 | 涡街流量计_LUGB智能管道式高温防爆蒸汽温压补偿计量表-江苏凯铭仪表有限公司 | 27PR跨境电商导航 | 专注外贸跨境电商 | 平面钻,法兰钻,三维钻-山东兴田阳光智能装备股份有限公司 | 万师讲师网-优质讲师培训师供应商,讲师认证,找讲师来万师 | 泰安塞纳春天装饰公司【网站】 | EPK超声波测厚仪,德国EPK测厚仪维修-上海树信仪器仪表有限公司 | ptc_浴霸_大巴_干衣机_呼吸机_毛巾架_电动车加热器-上海帕克 | 电动高尔夫球车|电动观光车|电动巡逻车|电动越野车厂家-绿友机械集团股份有限公司 | 流程管理|流程管理软件|企业流程管理|微宏科技-AlphaFlow_流程管理系统软件服务商 | 筛分机|振动筛分机|气流筛分机|筛分机厂家-新乡市大汉振动机械有限公司 | 识禅_对禅的了解,从这里开始| 防爆电机_防爆电机型号_河南省南洋防爆电机有限公司 | 臭氧老化试验箱,高低温试验箱,恒温恒湿试验箱,防水试验设备-苏州亚诺天下仪器有限公司 | 合肥升降机-合肥升降货梯-安徽升降平台「厂家直销」-安徽鼎升自动化科技有限公司 | 上海公众号开发-公众号代运营公司-做公众号的公司企业服务商-咏熠软件 | 深圳天际源广告-形象堆头,企业文化墙,喷绘,门头招牌设计制作专家 | 防火门|抗爆门|超大门|医疗门|隔声门-上海加汇门业生产厂家 | 聚氨酯复合板保温板厂家_廊坊华宇创新科技有限公司 | hdpe土工膜-防渗膜-复合土工膜-长丝土工布价格-厂家直销「恒阳新材料」-山东恒阳新材料有限公司 ETFE膜结构_PTFE膜结构_空间钢结构_膜结构_张拉膜_浙江萬豪空间结构集团有限公司 | 鑫铭东办公家具一站式定制采购-深圳办公家具厂家直销 | 驾驶人在线_专业学车门户网站| 环氧乙烷灭菌器_压力蒸汽灭菌器_低温等离子过氧化氢灭菌器 _低温蒸汽甲醛灭菌器_清洗工作站_医用干燥柜_灭菌耗材-环氧乙烷灭菌器_脉动真空压力蒸汽灭菌器_低温等离子灭菌设备_河南省三强医疗器械有限责任公司 |