美國互聯網(互聯網行業分析報告)OpenAI公司發布的全新的Sora文生視頻模型,可以根據用戶輸入的文本指令,一次生成60秒的長視頻,且視頻的畫面精細度、流暢度超越了以往的文生視頻模型。由于Sora能夠模擬對世界狀態產生簡單影響的行為,有分析人士認為,這將文生視頻能力推向了全新的高度。
在Sora發布之后,有博主對當前市場上其他主流文生視頻產品做了對比評測,在對Sora、Pika、Runway和Stable Video四個模型輸入了相同的提示詞后,Sora在視頻生成質量和時間上均對同行“降維打擊”,其更加清晰連貫、符合描述。
在OpenAI官方的技術報告中,對Sora的定位為“作為世界模擬器的視頻生成模型”。之前幾款主流模型生成的視頻時長僅在20秒以內,Sora不僅能夠深入理解用戶提示,還學會了物理世界的部分規律,一個人吃漢堡后會留下咬痕、火車車窗上會產生逼真的倒影,Sora還可在單個視頻中設計出多個鏡頭
以往文生視頻軟件都是在2D平面上對圖形元素進行操作,可以把視頻看成是多個真實圖片的組合,并沒有真正掌握這個世界的知識。這次OpenAI利用它的大語言模型優勢,讓Sora實現了對現實世界的理解和對世界的模擬兩層能力,這樣產生的視頻才是“真實”的。
業內人士表示,雖然OpenAI表示當前Sora仍有弱點,例如難以準確模擬復雜場景中的物理現象,可能無法理解具體的因果關系,但從當前展示的效果來看,Sora顯著領先于其他文生視頻模型,推動AI視頻生成“進入了一個全新的時代”。