TMT观察网_独特视角观察TMT行业

文生視頻路在何方?萬興科技旗下萬興“天幕”或提出破局之法觀點

觀察君 2024-07-04 17:14
分享到:
導(dǎo)讀

隨著Sora驗證算法可行性后,行業(yè)玩家們未來又將如何打出差異化、實現(xiàn)真正落地?

衣著精致的女人行走在東京街頭,身著宇航服的宇航員正以堅毅的目光注視前方,頭頂黃色氣球的氣球人在跑跑跳跳……繼文本、圖像后,視頻行業(yè)也正在接受AI技術(shù)的重塑,不少人認為“AI視頻元年”已至。視頻為何會成為AI技術(shù)最后探索的領(lǐng)域?隨著Sora驗證算法可行性后,行業(yè)玩家們未來又將如何打出差異化、實現(xiàn)真正落地?

當(dāng)我們談?wù)揂I視頻,我們在談?wù)撌裁矗?/strong>

現(xiàn)階段,提及“AI視頻”,似乎包羅萬象——從文生視頻大模型Sora、Runway、快手可靈、萬興“天幕”,到虛擬人視頻HeyGen、萬興播爆、Synthesia,再到AI風(fēng)格化視頻DemoAI等,甚至包括文字快剪等AI剪輯技術(shù)……一切與“AI+視頻”兩大元素相關(guān)的都可歸為這一概念,也讓行業(yè)對AI視頻的探討稍顯不聚焦。

事實上,細究以上所有AI視頻的分支,可以發(fā)現(xiàn)雖然都是AI技術(shù)加持下生成的視頻,但其背后的技術(shù)路徑卻大相徑庭。

以HeyGen、萬興播爆為代表的虛擬人視頻生成主要依靠虛擬人技術(shù),涵蓋了面部識別處理、建模、渲染、驅(qū)動等技術(shù)過程,AI主要體現(xiàn)在驅(qū)動虛擬人形象層面,應(yīng)用場景也主要集中于口播營銷、新聞播報等需要人物形象穩(wěn)定出鏡的類別;以DemoAI為代表的AI風(fēng)格化視頻,則是通過將一段原始視頻拆解的每一幀原始圖像替換為AI風(fēng)格化圖像,再最終合并成一段完整的AI視頻形態(tài)。

這兩種技術(shù),都是“從有到有”“從視覺到視覺”,而實現(xiàn)“從無到有”的,則是文生視頻技術(shù),或者說是難度指數(shù)級升級版本的文生圖技術(shù)。

文生視頻技術(shù)可簡要分為“Sora前”和“Sora后”。在Sora橫空出世之前,文生視頻一直受限于時長,被稱為“10秒以內(nèi)的時代”,而Pika和Runway則是AI視頻領(lǐng)域呼聲最高的商業(yè)類應(yīng)用。

在這個階段,文生視頻技術(shù)基本建立在AI繪畫的基礎(chǔ)操作之上,本質(zhì)上是對圖像這一基礎(chǔ)單位更為復(fù)雜的控制生成,需要對圖像這一基礎(chǔ)單位建立向前和向后等更為復(fù)雜的時空邏輯關(guān)系,其視頻訓(xùn)練的本質(zhì)也是拆解到對關(guān)鍵幀圖像的理解,主要技術(shù)路徑依靠擴散模型。在很長一段時間內(nèi),文生視頻技術(shù)都以相對較慢的速度向前發(fā)展。

AI視頻為何受限于“10秒以內(nèi)”?

相較語言大模型、文生圖技術(shù)在短時間內(nèi)相繼迎來技術(shù)突破,并迎來市場爆火,文生視頻技術(shù)的進展顯得尤為緩慢。控制、時間連貫性、長度是其中的主要問題。

控制,顧名思義,要求算法對視頻內(nèi)所有物體以及發(fā)生的情節(jié)的絕對性控制,而控制背后的邏輯則是算法對不同物體之間物理關(guān)系的透徹理解。AIGC軟件A股上市公司萬興科技(300624.SZ)董事長吳太兵在采訪中指出,如果說文本大模型只需要理解人類,那么視頻大模型需要處理和還原視覺與聽覺等信息,相當(dāng)于理解并構(gòu)建一個接近真實的世界,這意味著指數(shù)級上升的數(shù)據(jù)和學(xué)習(xí)成本。

眾所周知,視頻里包含了大量的交互鏡頭,包括人與人、人與物體、物體與物體的交互。當(dāng)一個人行走,他的手臂如何自然擺動、走的每一步中腳和地面之間是否處于相對靜止;又或者一個玻璃杯摔落,算法是否知道它會摔碎,如果摔碎那么每一個玻璃碎片又將按照怎樣的軌跡彈出;風(fēng)吹過一片草地,每一根小草該如何隨風(fēng)舞動……所有我們在日常生活中習(xí)以為常、視若無睹的極細微運動,均遵循著物理規(guī)律,而如此龐大的物理規(guī)律的堆疊,使得“控制”成為視頻生成領(lǐng)域最為困難的一個問題。

除對視頻內(nèi)容的控制外,時間連貫性也同樣重要——如何讓角色、物體和背景在幀之間保持一致,而不會變形或扭曲,或者變換成另一個物體。如一個人在街邊走路,是否可以保證街邊景色的連貫,而正在走路的主人公,他的長相是否能夠保持一致……這是一個視頻是否可以實際使用的底線,但受限于技術(shù)的不可控性,往往很難達成。

此外,視頻長度同樣重要,且與時間連貫性密切相關(guān)。目前,許多公司限制旗下產(chǎn)品生成視頻的長度,究其原因,在于他們無法確保幾秒鐘后的畫面一致性。如果只能保證短時間內(nèi)的連貫性,那么視頻將會面臨鏡頭過多、觀感差的問題,大大降低了文生視頻應(yīng)用的可能性。

Sora為何成為文生視頻“紫微星”?

隨著今年初Sora的橫空出世,控制、時間連貫性、時長三大問題似乎都迎刃而解,大幅提升的生成質(zhì)量讓不少人直呼文生視頻領(lǐng)域的“ChatGPT時刻”已經(jīng)到來。根據(jù)OpenAI公開的技術(shù)文檔顯示,Sora主要依靠三大“秘密武器”解決了以上矛盾。

首先是DiT(Diffusion Transformer)架構(gòu)。DiT最早完整體現(xiàn)在華人學(xué)者謝賽寧教授的論文《Scalable Diffusion Models with Transformers》,后經(jīng)由OpenAI完整地工業(yè)化實現(xiàn)。簡單來講,DiT是將傳統(tǒng)的U-Net架構(gòu)替換為Transformer架構(gòu),這樣做的理由和優(yōu)勢是:當(dāng)數(shù)據(jù)集量級大時,Transformer相比于U-Net更具擴展性,更能促成龐大數(shù)據(jù)集所帶來的涌現(xiàn)能力發(fā)生。

此外,Transformer的自注意力機制還極有可能幫助Sora在視頻的時間連貫性上取得更好的表現(xiàn)。Sora可以將時間離散化,然后通過自注意力機制理解前后時間線的關(guān)系。而自注意力機制的原理就是每個時間點和其他所有時間點產(chǎn)生聯(lián)系,這是Diffusion Model所不具備的。

第二大“武器”,是Sora特有的視頻分解邏輯。對于沒有視覺能力、只會理解二進制的計算機來說,如何將包含三維視覺信息的視頻拆分成計算機能夠理解的格式,以進一步推進訓(xùn)練,是文生視頻技術(shù)的一大難點。目前,包括Sora在內(nèi)的大部分大模型都采用了把視頻編碼成一個一個離散的token的方式,而Sora在此基礎(chǔ)上,將視頻在三維空間中均分成一個一個小的token,被OpenAI稱為“時空補丁”(spacetime patches),更有利于最大化利用視頻數(shù)據(jù),完成OpenAI的“暴力美學(xué)”。

最后是強大的語言理解能力。在OpenAI文生圖模型DALLE3的加持下,Sora可以將許多沒有文本標(biāo)注的視頻自動進行標(biāo)注,并用于視頻生成的訓(xùn)練。同時因為有GPT的加持,可以將用戶的輸入擴寫成更加詳細的描述,使得生成的視頻獲得更加貼合用戶的輸入,并且Transformer框架能幫助Sora模型更有效地學(xué)習(xí)和提取特征,獲取和理解大量的細節(jié)信息,增強模型對未見過數(shù)據(jù)的泛化能力。

Sora解決了部分問題,但這就夠了嗎?

Sora的三大“武器”推動了文生視頻“GPT時刻”的到來,也從一定程度上解決了以上種種困擾文生視頻領(lǐng)域一年多的問題,但行業(yè)的發(fā)展速度仍遠慢于2023年初大語言模型橫空出世之時。距離Sora官宣已近半年,但真正用到這一工具的用戶仍寥寥無幾,更有不少爭議甚囂塵上。距離文生視頻技術(shù)成為真正能夠代替生產(chǎn)力的工具,我們還有哪些懸而未決的問題?

首先,高質(zhì)量的訓(xùn)練數(shù)據(jù)從何而來?相較文本、圖像等數(shù)據(jù)形式,目前全球范圍內(nèi)的高質(zhì)量標(biāo)記訓(xùn)練視頻數(shù)據(jù)都處于緊缺狀態(tài)。雖然YouTube和TikTok等視頻平臺上不乏可公開訪問的視頻,但這些原始視頻沒有經(jīng)過標(biāo)注,同時在內(nèi)容種類上也不夠多樣化。

從現(xiàn)階段來看,與專業(yè)視頻工作室、制作公司,乃至于電視臺等機構(gòu)達成合作,或許是高質(zhì)量視頻數(shù)據(jù)獲取的最優(yōu)解,而國內(nèi)顯然已有玩家開始探索這一合作模式。作為國內(nèi)首個音視頻多媒體大模型,萬興“天幕”在發(fā)布之初,就已落戶馬欄山,并與中廣天擇達成大模型算料戰(zhàn)略合作,針對中國本土數(shù)據(jù)采集進行了前瞻性布局,并且已完成了百億本土化高質(zhì)量音視頻數(shù)據(jù)沉淀,或可作為案例來借鑒。

其次,誰將負責(zé)工作流程?視頻創(chuàng)作并非單純的AI生成可滿足,而是需要動畫、字幕、音樂、特效等等資源層層結(jié)合加碼,也正因為音視頻制作鏈路的門檻和復(fù)雜性,注定了相關(guān)需求無法由單一模型“一氣呵成”。

當(dāng)前,許多創(chuàng)作者常見的創(chuàng)作流程包括從ChatGPT等語言大模型上獲取創(chuàng)作靈感、腳本及提示詞,從Midjourney等圖像大模型上通過文字生成關(guān)鍵幀畫面,在Runway等視頻大模型上通過關(guān)鍵幀延伸創(chuàng)作出動畫視頻,在Suno等音頻大模型上生成配樂,再將所有素材導(dǎo)入傳統(tǒng)剪輯軟件進行后期剪輯并制作出成品。縱觀整個流程,創(chuàng)作者需輾轉(zhuǎn)多個平臺、切換不同軟件、多次導(dǎo)入文件,由此帶來了飆升的工作量。

而采取“車間模式”協(xié)同生產(chǎn)的音視頻大模型,或許可以為此問題提出一個可能的解決方向。吳太兵認為,大模型1.0時代生成方式以文本為主并輔以跨模態(tài),內(nèi)容的可控性不高;2.0時代,垂直大模型增長趨勢明顯,好比“工匠”,可更快速、更靈活解決細分領(lǐng)域?qū)I(yè)性問題,可對“原材料”進行組裝等加工,做成“半成品”乃至“成品”,其生成模式更多是多媒體融合的方式,可從模型到應(yīng)用場景對用戶一條龍賦能。

基于此理念,萬興科技推出了萬興“天幕”,以音視頻生成式AI技術(shù)為基礎(chǔ),聚焦數(shù)字創(chuàng)意垂直場景,由視頻大模型、音頻大模型、圖片大模型、語言大模型組成,并擁有超百個AI原子能力,讓用戶能夠“一站式”完成內(nèi)容創(chuàng)作。

從2022年至今,短短不到兩年的時間內(nèi),世界見證了AI行業(yè)的飛速發(fā)展,也更加證實了未來的潛力。雖然偶有困難,但是AI視頻技術(shù)的明天無疑是光明的,它將繼續(xù)推動著我們向一個更加豐富、多元和互動的數(shù)字世界新時代邁進。

萬興科技 Sora驗證算法
分享到:

1.TMT觀察網(wǎng)遵循行業(yè)規(guī)范,任何轉(zhuǎn)載的稿件都會明確標(biāo)注作者和來源;
2.TMT觀察網(wǎng)的原創(chuàng)文章,請轉(zhuǎn)載時務(wù)必注明文章作者和"來源:TMT觀察網(wǎng)",不尊重原創(chuàng)的行為TMT觀察網(wǎng)或?qū)⒆肪控?zé)任;
3.作者投稿可能會經(jīng)TMT觀察網(wǎng)編輯修改或補充。


主站蜘蛛池模板: 节流截止放空阀-不锈钢阀门-气动|电动截止阀-鸿华阀门有限公司 | 工业铝型材-铝合金电机壳-铝排-气动执行器-山东永恒能源集团有限公司 | 奇酷教育-Python培训|UI培训|WEB大前端培训|Unity3D培训|HTML5培训|人工智能培训|JAVA开发的教育品牌 | 闪蒸干燥机-喷雾干燥机-带式干燥机-桨叶干燥机-[常州佳一干燥设备] | 专业广州网站建设,微信小程序开发,一物一码和NFC应用开发、物联网、外贸商城、定制系统和APP开发【致茂网络】 | 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 - 杭州标识标牌|文化墙|展厅|导视|户内外广告|发光字|灯箱|铭阳制作公司 | 耐酸碱胶管_耐腐蚀软管总成_化学品输送软管_漯河利通液压科技耐油耐磨喷砂软管|耐腐蚀化学软管 | 螺钉式热电偶_便携式温度传感器_压簧式热电偶|无锡联泰仪表有限公司|首页 | 海鲜池-专注海鲜鱼缸、移动海鲜缸、饭店鱼缸设计定做-日晟水族厂家 | 退火炉,燃气退火炉,燃气热处理炉生产厂家-丹阳市丰泰工业炉有限公司 | 湖南自考_湖南自学考试网| 水稻烘干机,小麦烘干机,大豆烘干机,玉米烘干机,粮食烘干机_巩义市锦华粮食烘干机械制造有限公司 水环真空泵厂家,2bv真空泵,2be真空泵-淄博真空设备厂 | 淋巴细胞分离液_口腔医疗器材-精欣华医疗器械(无锡)有限公司 | 衡阳耐适防护科技有限公司——威仕盾焊接防护用品官网/焊工手套/焊接防护服/皮革防护手套 | 光伏支架成型设备-光伏钢边框设备-光伏设备厂家 | 金属软管_不锈钢金属软管_巩义市润达管道设备制造有限公司 | 黑龙江京科脑康医院-哈尔滨精神病医院哪家好_哈尔滨精神科医院排名_黑龙江精神心理病专科医院 | 青岛侦探_青岛侦探事务所_青岛劝退小三_青岛调查出轨取证公司_青岛婚外情取证-青岛探真调查事务所 | 硬度计,金相磨抛机_厂家-莱州华煜众信试验仪器有限公司 | 博博会2021_中国博物馆及相关产品与技术博览会【博博会】 | 玖容气动液压设备有限公司-气液增压缸_压力机_增压机_铆接机_增压器 | 99文库_实习生实用的范文资料文库站 | 糖衣机,除尘式糖衣机,全自动糖衣机,泰州市长江制药机械有限公司 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 开业庆典_舞龙舞狮_乔迁奠基仪式_开工仪式-神挚龙狮鼓乐文化传媒 | 仓储笼_金属箱租赁_循环包装_铁网箱_蝴蝶笼租赁_酷龙仓储笼租赁 测试治具|过炉治具|过锡炉治具|工装夹具|测试夹具|允睿自动化设备 | 微型气泵-真空-蠕动-水泵-厂家-深圳市品亚科技有限公司 | 耐高温风管_耐高温软管_食品级软管_吸尘管_钢丝软管_卫生级软管_塑料波纹管-东莞市鑫翔宇软管有限公司 | 石油/泥浆/不锈钢防腐/砂泵/抽砂泵/砂砾泵/吸砂泵/压滤机泵 - 专业石油环保专用泵厂家 | 鼓风干燥箱_真空烘箱_高温干燥箱_恒温培养箱-上海笃特科学仪器 | CTAB,表面活性剂1631溴型(十六烷基三甲基溴化铵)-上海升纬化工原料有限公司 | 耐火浇注料-喷涂料-浇注料生产厂家_郑州市元领耐火材料有限公司 耐力板-PC阳光板-PC板-PC耐力板 - 嘉兴赢创实业有限公司 | Pos机办理_个人商户免费POS机申请-拉卡拉办理网| 深圳APP开发公司_软件APP定制开发/外包制作-红匣子科技 | 据信,上课带着跳 D 体验-别样的课堂刺激感受引发网友热议 | 真空上料机(一种真空输送机)-百科 | 深圳办公室装修-写字楼装修设计-深圳标榜装饰公司 | 螺旋压榨机-刮泥机-潜水搅拌机-电动泥斗-潜水推流器-南京格林兰环保设备有限公司 | 粒米特测控技术(上海)有限公司-测功机_减速机测试台_电机测试台 | 成都热收缩包装机_袖口式膜包机_高速塑封机价格_全自动封切机器_大型套膜机厂家 | 西装定制/做厂家/公司_西装订做/制价格/费用-北京圣达信西装 | 超声骨密度仪-动脉硬化检测仪器-人体成分分析仪厂家/品牌/价格_南京科力悦 |