OpenAI近期推出的視頻生成模型Sora在業(yè)界引發(fā)了廣泛關(guān)注,被視為視頻生成技術(shù)的一大飛躍。盡管Sora因其卓越的視頻穩(wěn)定性和清晰度而備受市場(chǎng)喜愛(ài),但一些來(lái)自競(jìng)爭(zhēng)對(duì)手的科學(xué)家卻對(duì)其持保留意見(jiàn)。盡管如此,仍有人對(duì)Sora寄予厚望,認(rèn)為它有可能成為人工智能領(lǐng)域的新高峰——世界模擬器,這也是OpenAI所追求的目標(biāo)。
OpenAI也在其官網(wǎng)文章中寄望,Sora絕不僅僅是個(gè)視頻生成器,而是一個(gè)現(xiàn)實(shí)世界的模擬器。通過(guò)學(xué)習(xí)和模擬數(shù)據(jù)分布,生成與真實(shí)世界相似的虛擬樣本,從而給現(xiàn)實(shí)世界提供預(yù)知信息。但這一前景被Meta的首席AI科學(xué)家Yann LeCun公開反駁,這位以直言不諱聞名的AI大佬直言:搞搞視頻就好,別吹有的沒(méi)的。
注定失敗的模擬器
LeCun在X上公開發(fā)文稱,通過(guò)生成像素來(lái)對(duì)世界進(jìn)行模擬是一種資源浪費(fèi),且注定會(huì)失敗。而該貼也引發(fā)了極大關(guān)注,一眾網(wǎng)友在評(píng)論區(qū)華山論劍。簡(jiǎn)單來(lái)說(shuō),LeCun認(rèn)為Sora模型試圖推斷太多不相關(guān)的細(xì)節(jié),就像是通過(guò)試圖分析足球的材料來(lái)判斷足球的運(yùn)行軌跡。
他指出,生成式模型適用于文本內(nèi)容,因?yàn)槲谋臼请x散的,且是由數(shù)量有限的符號(hào)組成的數(shù)據(jù),在這種情況下,處理預(yù)測(cè)中的不確定性變得十分容易。但如果換到以像素為單位的預(yù)測(cè)領(lǐng)域,不確定性就會(huì)變得非常棘手,且不可能成功。
底下的網(wǎng)友也紛紛發(fā)言,有人稱Sora雖然令人印象深刻,但幾乎每個(gè)場(chǎng)景都可能出現(xiàn)邏輯問(wèn)題,比如藝術(shù)家測(cè)試視頻中三頭小狼莫名其妙分裂成五頭小狼。這讓模擬現(xiàn)實(shí)變得多少不太靠譜。
也有人說(shuō),Sora是應(yīng)夢(mèng)想而生,人可以做清醒的夢(mèng),或者做不太清醒的夢(mèng)。這種看起來(lái)不太清醒的發(fā)言則是賭Sora有那么一些可能實(shí)現(xiàn)OpenAI“世界模擬器”的壯言。
與此同時(shí),LeCun所在的Meta上周發(fā)布了一個(gè)視頻聯(lián)合嵌入預(yù)測(cè)架構(gòu)V-JEPA,據(jù)稱其通過(guò)觀看視頻來(lái)教導(dǎo)大模型理解和對(duì)物理世界建模,算是Sora之外,對(duì)世界模擬器的另一種嘗試。
此外,V-JEPA還可以靈活丟棄不可預(yù)測(cè)的信息,而將訓(xùn)練和樣本運(yùn)行效率提升1.5-6倍。不過(guò),V-JEPA顯然顯然沒(méi)在市場(chǎng)引發(fā)多大動(dòng)靜,相比Sora要低調(diào)很多。
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com