中文字幕精品一区久久久久,国产一级视频,日韩福利一区二区

文生視頻路在何方？萬興科技旗下萬興“天幕”或提出破局之法觀點

2024-07-04 17:14

分享到：

導(dǎo)讀

隨著Sora驗證算法可行性后，行業(yè)玩家們未來又將如何打出差異化、實現(xiàn)真正落地？

衣著精致的女人行走在東京街頭，身著宇航服的宇航員正以堅毅的目光注視前方，頭頂黃色氣球的氣球人在跑跑跳跳……繼文本、圖像后，視頻行業(yè)也正在接受AI技術(shù)的重塑，不少人認為“AI視頻元年”已至。視頻為何會成為AI技術(shù)最后探索的領(lǐng)域？隨著Sora驗證算法可行性后，行業(yè)玩家們未來又將如何打出差異化、實現(xiàn)真正落地？

當(dāng)我們談?wù)揂I視頻，我們在談?wù)撌裁矗?/strong>

現(xiàn)階段，提及“AI視頻”，似乎包羅萬象——從文生視頻大模型Sora、Runway、快手可靈、萬興“天幕”，到虛擬人視頻HeyGen、萬興播爆、Synthesia，再到AI風(fēng)格化視頻DemoAI等，甚至包括文字快剪等AI剪輯技術(shù)……一切與“AI+視頻”兩大元素相關(guān)的都可歸為這一概念，也讓行業(yè)對AI視頻的探討稍顯不聚焦。

事實上，細究以上所有AI視頻的分支，可以發(fā)現(xiàn)雖然都是AI技術(shù)加持下生成的視頻，但其背后的技術(shù)路徑卻大相徑庭。

以HeyGen、萬興播爆為代表的虛擬人視頻生成主要依靠虛擬人技術(shù)，涵蓋了面部識別處理、建模、渲染、驅(qū)動等技術(shù)過程，AI主要體現(xiàn)在驅(qū)動虛擬人形象層面，應(yīng)用場景也主要集中于口播營銷、新聞播報等需要人物形象穩(wěn)定出鏡的類別；以DemoAI為代表的AI風(fēng)格化視頻，則是通過將一段原始視頻拆解的每一幀原始圖像替換為AI風(fēng)格化圖像，再最終合并成一段完整的AI視頻形態(tài)。

這兩種技術(shù)，都是“從有到有”“從視覺到視覺”，而實現(xiàn)“從無到有”的，則是文生視頻技術(shù)，或者說是難度指數(shù)級升級版本的文生圖技術(shù)。

文生視頻技術(shù)可簡要分為“Sora前”和“Sora后”。在Sora橫空出世之前，文生視頻一直受限于時長，被稱為“10秒以內(nèi)的時代”，而Pika和Runway則是AI視頻領(lǐng)域呼聲最高的商業(yè)類應(yīng)用。

在這個階段，文生視頻技術(shù)基本建立在AI繪畫的基礎(chǔ)操作之上，本質(zhì)上是對圖像這一基礎(chǔ)單位更為復(fù)雜的控制生成，需要對圖像這一基礎(chǔ)單位建立向前和向后等更為復(fù)雜的時空邏輯關(guān)系，其視頻訓(xùn)練的本質(zhì)也是拆解到對關(guān)鍵幀圖像的理解，主要技術(shù)路徑依靠擴散模型。在很長一段時間內(nèi)，文生視頻技術(shù)都以相對較慢的速度向前發(fā)展。

AI視頻為何受限于“10秒以內(nèi)”？

相較語言大模型、文生圖技術(shù)在短時間內(nèi)相繼迎來技術(shù)突破，并迎來市場爆火，文生視頻技術(shù)的進展顯得尤為緩慢。控制、時間連貫性、長度是其中的主要問題。

控制，顧名思義，要求算法對視頻內(nèi)所有物體以及發(fā)生的情節(jié)的絕對性控制，而控制背后的邏輯則是算法對不同物體之間物理關(guān)系的透徹理解。AIGC軟件A股上市公司萬興科技（300624.SZ）董事長吳太兵在采訪中指出，如果說文本大模型只需要理解人類，那么視頻大模型需要處理和還原視覺與聽覺等信息，相當(dāng)于理解并構(gòu)建一個接近真實的世界，這意味著指數(shù)級上升的數(shù)據(jù)和學(xué)習(xí)成本。

眾所周知，視頻里包含了大量的交互鏡頭，包括人與人、人與物體、物體與物體的交互。當(dāng)一個人行走，他的手臂如何自然擺動、走的每一步中腳和地面之間是否處于相對靜止；又或者一個玻璃杯摔落，算法是否知道它會摔碎，如果摔碎那么每一個玻璃碎片又將按照怎樣的軌跡彈出；風(fēng)吹過一片草地，每一根小草該如何隨風(fēng)舞動……所有我們在日常生活中習(xí)以為常、視若無睹的極細微運動，均遵循著物理規(guī)律，而如此龐大的物理規(guī)律的堆疊，使得“控制”成為視頻生成領(lǐng)域最為困難的一個問題。

除對視頻內(nèi)容的控制外，時間連貫性也同樣重要——如何讓角色、物體和背景在幀之間保持一致，而不會變形或扭曲，或者變換成另一個物體。如一個人在街邊走路，是否可以保證街邊景色的連貫，而正在走路的主人公，他的長相是否能夠保持一致……這是一個視頻是否可以實際使用的底線，但受限于技術(shù)的不可控性，往往很難達成。

此外，視頻長度同樣重要，且與時間連貫性密切相關(guān)。目前，許多公司限制旗下產(chǎn)品生成視頻的長度，究其原因，在于他們無法確保幾秒鐘后的畫面一致性。如果只能保證短時間內(nèi)的連貫性，那么視頻將會面臨鏡頭過多、觀感差的問題，大大降低了文生視頻應(yīng)用的可能性。

Sora為何成為文生視頻“紫微星”？

隨著今年初Sora的橫空出世，控制、時間連貫性、時長三大問題似乎都迎刃而解，大幅提升的生成質(zhì)量讓不少人直呼文生視頻領(lǐng)域的“ChatGPT時刻”已經(jīng)到來。根據(jù)OpenAI公開的技術(shù)文檔顯示，Sora主要依靠三大“秘密武器”解決了以上矛盾。

首先是DiT（Diffusion Transformer）架構(gòu)。DiT最早完整體現(xiàn)在華人學(xué)者謝賽寧教授的論文《Scalable Diffusion Models with Transformers》，后經(jīng)由OpenAI完整地工業(yè)化實現(xiàn)。簡單來講，DiT是將傳統(tǒng)的U-Net架構(gòu)替換為Transformer架構(gòu)，這樣做的理由和優(yōu)勢是：當(dāng)數(shù)據(jù)集量級大時，Transformer相比于U-Net更具擴展性，更能促成龐大數(shù)據(jù)集所帶來的涌現(xiàn)能力發(fā)生。

此外，Transformer的自注意力機制還極有可能幫助Sora在視頻的時間連貫性上取得更好的表現(xiàn)。Sora可以將時間離散化，然后通過自注意力機制理解前后時間線的關(guān)系。而自注意力機制的原理就是每個時間點和其他所有時間點產(chǎn)生聯(lián)系，這是Diffusion Model所不具備的。

第二大“武器”，是Sora特有的視頻分解邏輯。對于沒有視覺能力、只會理解二進制的計算機來說，如何將包含三維視覺信息的視頻拆分成計算機能夠理解的格式，以進一步推進訓(xùn)練，是文生視頻技術(shù)的一大難點。目前，包括Sora在內(nèi)的大部分大模型都采用了把視頻編碼成一個一個離散的token的方式，而Sora在此基礎(chǔ)上，將視頻在三維空間中均分成一個一個小的token，被OpenAI稱為“時空補丁”（spacetime patches），更有利于最大化利用視頻數(shù)據(jù)，完成OpenAI的“暴力美學(xué)”。

最后是強大的語言理解能力。在OpenAI文生圖模型DALLE3的加持下，Sora可以將許多沒有文本標(biāo)注的視頻自動進行標(biāo)注，并用于視頻生成的訓(xùn)練。同時因為有GPT的加持，可以將用戶的輸入擴寫成更加詳細的描述，使得生成的視頻獲得更加貼合用戶的輸入，并且Transformer框架能幫助Sora模型更有效地學(xué)習(xí)和提取特征，獲取和理解大量的細節(jié)信息，增強模型對未見過數(shù)據(jù)的泛化能力。

Sora解決了部分問題，但這就夠了嗎？

Sora的三大“武器”推動了文生視頻“GPT時刻”的到來，也從一定程度上解決了以上種種困擾文生視頻領(lǐng)域一年多的問題，但行業(yè)的發(fā)展速度仍遠慢于2023年初大語言模型橫空出世之時。距離Sora官宣已近半年，但真正用到這一工具的用戶仍寥寥無幾，更有不少爭議甚囂塵上。距離文生視頻技術(shù)成為真正能夠代替生產(chǎn)力的工具，我們還有哪些懸而未決的問題？

首先，高質(zhì)量的訓(xùn)練數(shù)據(jù)從何而來？相較文本、圖像等數(shù)據(jù)形式，目前全球范圍內(nèi)的高質(zhì)量標(biāo)記訓(xùn)練視頻數(shù)據(jù)都處于緊缺狀態(tài)。雖然YouTube和TikTok等視頻平臺上不乏可公開訪問的視頻，但這些原始視頻沒有經(jīng)過標(biāo)注，同時在內(nèi)容種類上也不夠多樣化。

從現(xiàn)階段來看，與專業(yè)視頻工作室、制作公司，乃至于電視臺等機構(gòu)達成合作，或許是高質(zhì)量視頻數(shù)據(jù)獲取的最優(yōu)解，而國內(nèi)顯然已有玩家開始探索這一合作模式。作為國內(nèi)首個音視頻多媒體大模型，萬興“天幕”在發(fā)布之初，就已落戶馬欄山，并與中廣天擇達成大模型算料戰(zhàn)略合作，針對中國本土數(shù)據(jù)采集進行了前瞻性布局，并且已完成了百億本土化高質(zhì)量音視頻數(shù)據(jù)沉淀，或可作為案例來借鑒。

其次，誰將負責(zé)工作流程？視頻創(chuàng)作并非單純的AI生成可滿足，而是需要動畫、字幕、音樂、特效等等資源層層結(jié)合加碼，也正因為音視頻制作鏈路的門檻和復(fù)雜性，注定了相關(guān)需求無法由單一模型“一氣呵成”。

當(dāng)前，許多創(chuàng)作者常見的創(chuàng)作流程包括從ChatGPT等語言大模型上獲取創(chuàng)作靈感、腳本及提示詞，從Midjourney等圖像大模型上通過文字生成關(guān)鍵幀畫面，在Runway等視頻大模型上通過關(guān)鍵幀延伸創(chuàng)作出動畫視頻，在Suno等音頻大模型上生成配樂，再將所有素材導(dǎo)入傳統(tǒng)剪輯軟件進行后期剪輯并制作出成品。縱觀整個流程，創(chuàng)作者需輾轉(zhuǎn)多個平臺、切換不同軟件、多次導(dǎo)入文件，由此帶來了飆升的工作量。

而采取“車間模式”協(xié)同生產(chǎn)的音視頻大模型，或許可以為此問題提出一個可能的解決方向。吳太兵認為，大模型1.0時代生成方式以文本為主并輔以跨模態(tài)，內(nèi)容的可控性不高；2.0時代，垂直大模型增長趨勢明顯，好比“工匠”，可更快速、更靈活解決細分領(lǐng)域?qū)I(yè)性問題，可對“原材料”進行組裝等加工，做成“半成品”乃至“成品”，其生成模式更多是多媒體融合的方式，可從模型到應(yīng)用場景對用戶一條龍賦能。

基于此理念，萬興科技推出了萬興“天幕”，以音視頻生成式AI技術(shù)為基礎(chǔ)，聚焦數(shù)字創(chuàng)意垂直場景，由視頻大模型、音頻大模型、圖片大模型、語言大模型組成，并擁有超百個AI原子能力，讓用戶能夠“一站式”完成內(nèi)容創(chuàng)作。

從2022年至今，短短不到兩年的時間內(nèi)，世界見證了AI行業(yè)的飛速發(fā)展，也更加證實了未來的潛力。雖然偶有困難，但是AI視頻技術(shù)的明天無疑是光明的，它將繼續(xù)推動著我們向一個更加豐富、多元和互動的數(shù)字世界新時代邁進。

萬興科技 Sora驗證算法

分享到：

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范，任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源；
2.TMT觀察網(wǎng)的原創(chuàng)文章，請轉(zhuǎn)載時務(wù)必注明文章作者和"來源：TMT觀察網(wǎng)"，不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任；
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。

熱門文章

TMT观察网_独特视角观察TMT行业

文生視頻路在何方？萬興科技旗下萬興“天幕”或提出破局之法觀點