美國時間2月16日凌晨,OpenAI再次扔出一枚深水炸彈,發布了首個文字生成視頻模型Sora。據介紹,Sora可以直接輸出長達1分鐘的視頻,並且包含高度細致的背景、複雜的多角度鏡頭,以及富有情感的多個角色等。
目前OpenAI官網上已經更新了48個視頻demo,在這些demo中,Sora不僅能準確呈現細節,還能理解物體在物理世界中的存在,並生成具有豐富情感的角色。該模型還可以根據提示、靜止圖像甚至填補現有視頻中的缺失帧來生成視頻。記者注意到,總體上這些視頻已非常逼真、細節炸裂,但在文化方面,還難以原汁原味,只是體現了西方視野下的文化要素。
行駛中的列車窗外偶遇遮擋,車內人物倒影短暫出現非常驚艷。
AI想像中的舞龍,西方特點明顯。
雨後東京街頭,潮濕地面反射霓虹燈光影效果堪比RTX ON。
豎屏超近景視角下,這隻蜥蜴細節拉滿。
OpenAI表示,正在教AI理解和模擬運動中的物理世界,目標是訓練模型來幫助人們解決需要現實世界交互的問題。根據文本提示生成視頻,僅僅是整個計劃其中的一步。目前Sora已經能生成具有多個角色、包含特定運動的複雜場景,不僅能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。
據悉,目前已有一些視覺藝術家、設計師和電影製作人(以及OpenAI員工)獲得了Sora訪問權限。