“公式相聲”來了,人工智能說相聲還會遠嗎?互聯網+
當人工智能連相聲都能說了,也就意味著人類在自然語言處理方面獲得了高度成功。
前不久在一檔相聲相關的綜藝節目上,一對自稱來自上海交大的博士夫婦推出了自己的新創意:公式相聲。據說,通過自創的相聲公式,他們可以計算觀眾的笑點,甚至笑聲能持續多久都能盡在掌握之中,從而可以寫出笑果更佳的段子。
結果他們硬生生把自己給整成了段子。
這也從另一個角度表明,雖然相聲也講究推陳出新,但作為語言藝術的一種,想要對其進行數理化改造,恐怕難度極高。博士夫婦的錯誤在于,其太固執而自我地試圖將影響相聲本身的一切因素都數據化。但無論是相聲內容還是觀眾反應,數據化本身就是很難的;更何況他給出的公式純粹出于自己的臆想。
雖然“公式相聲”在目前看來是失敗的嘗試,但也并不意味著相聲就真的就不能換換形式了。比如風頭正盛的人工智能:如果讓人工智能來段相聲,效果會不會要比博士夫婦好得多?
其實讓人工智能說相聲也并不是多么新奇的想法,它已經有過類似的舞臺經驗,并且效果還挺好。但據筆者猜測,那只機器人的所有臺詞應該是提前設定好的,與其說它是在“說相聲”,倒不如說是披個人工智能的外衣播放臺詞。
那么有人就說了:就是演員說相聲不也是背的臺詞嗎?這話不錯,但除了背臺詞之外,相聲演員還必須要有靈活的現場反應能力,同一個段子不同的人說出來效果就不一樣,同樣的現場不同的人互動也不一樣。
那么,我們今天就來看看,人工智能學相聲到底有哪些可能。
背一段話容易,想說好聽難
先從“說”說起。
“說”的內容有很多,包括說、批、念、講等。比如說個繞口令,或者說個貫口。要說相聲字都咬不清楚,觀眾就什么也甭聽了;說個貫口的時候卡殼了,那觀眾得鬧退票,自己也下不來臺。
我們就從貫口的角度來說說“說”。
說貫口的第一步,就是得會背。相聲演員背是基本功,上臺表演的時候一口氣把報菜名給說完,功底就顯出來了。雖然很多貫口是老段子,但對觀眾而言百聽百新,而且還過癮。
人要背個百十個甚至上千個段子,那可真是要了命了。人工智能表示:哈?這能難得倒我?找個U盤,把古往今來所有的“說”的內容全給我裝進去,你要什么,我張嘴就來。
要這么簡單,估計機器人早就打遍天下無敵手了。因為貫口還有第二個要求:情緒。
貫口一般說得很快,比如報菜名,要的就是個吐字清晰、連貫,速度再快點兒,帶給觀眾一種酣暢淋漓之感。但并不是所有的貫口只要快就夠了。八扇屏有故事、有情節、有感情,雖然內容簡單,但你要像倒豆子一樣給說完了,效果反而不好;將自己的特點融入其中,也是貫口常演常新的秘訣所在。同樣的貫口,北京二趙名揚四方,就是這個道理。
這對人工智能來說就不那么容易了。這涉及人工智能的聲音合成技術在幫助其擺脫典型機器音的前提下,能否帶有一定的藝術韻味,比如二趙的京劇腔;同時,如何以速度控制情緒,體現出機器人對貫口內容的個性化理解,也是其基本功打造的難點。
如果在“說”上人工智能仍然是典型死板的機器音,把活潑的貫口給硬生生說得毫無生趣,那人工智能進入相聲界的第一步還沒邁出去,估計就夭折了。
從學習方言開始
人工智能面臨的第二個基礎問題,就是“學”。
學什么?說相聲的什么都得能學,街頭巷尾小販挑著擔子吆喝、市井之中男女老少的音容笑貌、各種專業人士表演的戲曲歌曲等,簡單來說就是得口技了得。這其中有一項重要的內容就是學方言。
在相聲里,模仿方言被稱為“倒口”或者“怯口”,哪兒的話都能說。從一開始模仿北方話,到后來擴展到南方的吳語和粵語,乃至還模仿說英語、到后來開始模仿外國人說普通話。
那么,人工智能在學方言這塊能有什么神通?
語音識別是人工智能語言學習的一個重要分支,而且已經在現實場景中實現了廣泛的應用。手機智能語音助手、智能音箱、語音翻譯機等,都離不開語音識別。可以說,語音識別技術將帶來一種全新的人機交流形式,對解放人的雙手具有重要意義。
目前的語音識別對各國“官話”的識別還是非常到位的。比如如今隨便一個語音助手,可以輕松識別出講的普通話內容。但人工智能學習方言的任務顯然要繁重得多。國內做語音識別輸入的公司在這方面提出了一些解決方案,比如在原有普通話庫的基礎上,對方言進行音標標注,然后輔以方言詞典。這其中的重點任務,就是要有足夠的方言詞庫或者句子來作對比標注,在大量數據積累的情況下才可能實現對每個字詞的精準識別。
簡單說的話,既然普通話能夠識別,那么只要有足夠的詞庫、足夠的時間時間進行訓練,人工智能的方言學習也不會是什么大問題。
那么至少在學方言這塊兒,人工智能應付起來還是沒有太大的問題的。在本身特有屬性的加持下,人工智能在臺上說方言想必也是一件非常有趣的事情。
但方言僅僅是一方面。有的人把“唱”也列為“學”的一部分,比如唱京劇、梆子、評戲或者流行歌曲等,或許也就是涉及語音合成的問題。本文就不再單獨把“唱”單列。但除了發音、動作之外,我們上文提到“音容笑貌”,這個“貌”可怎么學?
要解決這個問題,也許只能從人造皮膚的角度入手。輔以各種傳感器,在做指定表情的時候調動臉部指定的肌肉。目前有觸覺的人造皮膚已經被初步研發出來,日后機器人能做出像人一樣的表情或許并不遙遠。
當然有人可能會說:搞那么復雜干嘛?裝個屏幕不就行了?
我只想說:你開心就好。
段子要講好,現場氣氛也要搞起來
如果說“說”和“學”還只是個皮毛而已的話,“逗”恐怕將是人工智能在學相聲的過程中遇到的最大挑戰。
“逗”就是抖一些包袱給觀眾,說白了就是講段子。我們日常所見的,大多為對口相聲,一個逗哏,一個捧哏。在這一逗一捧之中,把段子給有條不紊地撂出來,可以說既逗了捧哏者,又逗了觀眾。
如我們上文所說,很多相聲就是在老段子的基礎上講出新效果,所以很多演出都是按照既定的臺詞和流程進行的。但只會背臺詞的演員最終也混不出來個一二三,要想把“逗”給學透了,就必須要具備極強的現場反應能力,俗稱現掛。
其實仔細想想,我們為什么會經常認為人工智能是智障?很大的原因在于跟它交流的時候實在太令人心煩了。答非所問的情況比比皆是,再就是撒嬌賣萌,其實很難得到自己真正想要的對話結果。那么對于相聲這一對語言表達要求極高的藝術形式來說,這自然是需要直面的致命傷。
要解決人工智能在相聲表演的臨場反應問題,背后自然離不開自然語言處理技術的提高。比如要能理解特定場景下觀眾喊話蘊藏的意思。岳云鵬的演出現場曾出現過各種設施意外,或者被觀眾“罵”,這個時候觀眾會一起喊“退票”。當然這就是大家圖個樂。但對機器人來說,就不能僅僅從“退票”的字面來理解了,它要能結合現場氣氛、觀眾表情來讀懂“退票”背后的真正含義,并且給出幽默、巧妙而不失尷尬的回應。
簡單來說就是,在表演節目的過程中,人工智能要能做到不拘泥于劇本,形成自然、流暢而又不至于打亂既定的表演劇本的能力。也就是說,人工智能不僅得會背段子,還得能開玩笑。要不然你逗誰呢?
當然,要想說好相聲,人工智能需要學習的還有很多。目前人工智能也只能靠得上其每一個方面的一個分支而已。背幾個段子不在話下,學幾個方言也不是問題,甚至一切需要學的東西都可以直接以數據的形式存儲在人工智能的大腦里。但這些東西說白了都是死的,要想表演出有生命感的相聲,關鍵在于演員怎么把它們給盤活了。
也許,這才是人工智能成為相聲表演藝術家的關鍵所在。當人工智能連相聲都能說了,也就意味著人類在自然語言處理方面獲得了高度成功。
1.TMT觀察網遵循行業規范,任何轉載的稿件都會明確標注作者和來源;
2.TMT觀察網的原創文章,請轉載時務必注明文章作者和"來源:TMT觀察網",不尊重原創的行為TMT觀察網或將追究責任;
3.作者投稿可能會經TMT觀察網編輯修改或補充。