4月12日,中國科學院深圳先進技術研究院舉辦「探Sora真相,論AI未來」人工智能沙龍講座。本次活動邀請到人工智能領域的專家學者圍繞人工智能領域前沿技術進行了深入探討和分析,並討論了Sora對AI基礎技術的推進作用。此次活動由深圳先進院先進計算與數字工程研究所、中國科學院與香港地區多媒體技術聯合實驗室共同主辦。
中國科學院院士、深圳先進院副院長鄭海榮在致辭中提到,人工智能帶來科學研究範式的改變,正在深深影響材料、生命、信息和醫學等領域發展。「我們應以極高的敏感度去思考如何與人工智能技術相融合帶動相關領域的變革。」鄭海榮希望通過交流與合作,促進非人工智能領域的研究學者擁有人工智能的意識和思維,助力開拓學科的新疆域。
香港中文大學副教授李鴻升在《圖像生成和視頻生成前沿技術探索》主題報告中,介紹了實驗室團隊在面對生成模型評估困難、生成圖像文本跟隨性差、生成視頻一致性差、生成模型推理速度慢等多重挑戰時開發的一系列工作,包括文生圖模型評估方法HPS(Human Preference Score)、增強生成圖像的文本依從性方法CoMat、增強生成視頻的一致性方法Motion-I2V、擴展圖像生成模型至視頻生成方法AnimateLCM等。他說,「視頻生成模型的開發是一個龐大的系統工程,應對這一挑戰,算力資源和人員組織架構都需要集中規劃,技術的開發需要有系統化的數據工程。」
騰訊科技高級研究員王鑫濤在《視頻生成探索及MINI-SORA的初步研究》的報告中提到,視頻生成正日益受到學術界和工業界的關注,隨着OpenAI Sora的發布,視頻生成技術的潛力和挑戰越來越明晰。他回顧了視頻生成技術的發展路線,以及Sora的出現為視頻生成技術帶來的啟發與思考。「這是最好的時代也是最『壞』的時代,我們見證了人工智能技術的不斷突破,同時也必須一次次突破認知才不至於『望洋興嘆』。」
Sora有望提高自動駕駛安全性
在圓桌對話中,5位人工智能領域的科學家們探討了Sora對AI基礎技術的推進作用,以及人工智能技術發展背後的思考。
談及視頻生成模型的應用場景時,華為技術有限公司高級工程師蔡穎婕說道:「最直接的是在創作場景方面的應用,Sora表現出的良好一致性和一部分對物理世界的理解能力,讓其有希望成為數據仿真器,解決自動駕駛等任務中的部分數據問題,有利於提高安全性。」
那麼,Sora是如何模擬和理解物理世界的?「數據在Sora中起到了很大的作用,其中可能存在一部分使用了遊戲物理引擎仿真的數據,再加上自然圖像大數據的訓練導致Sora能在一定程度上理解物理規律,產生符合人類認知的畫面。」李鴻升分析道。
王鑫濤同樣認為數據在Sora中佔據十分重要的地方,他認為網絡模型本身的學習方式或許與人類學習的模式不一樣,模型從大量數據中學習可能也可以自適應地理解某種規律。
「物理規律是人類對於世界的某種『壓縮』,將一系列的物理現象濃縮到幾個公式來統一表達,某種程度上說,『壓縮』即智能。」香港中文大學助理教授薛天帆補充道。
深圳先進院數字所多媒體集成技術中心主任董超從另一個角度提到,如果從Sora輸出的結果中,能推導出某種一致性規律,那麼即使可能與真實世界規律有偏差,也算是Sora世界中自成一體的「物理定律」。
「無論什麼樣的技術都是從人出發,最終也是反饋到人類身上。我們應該更多關注人本身,創造出有利的科研環境,讓一線的從業者和科學家們保持創造力和好奇心。技術需要被人掌控並回歸人類本身,才能讓前沿技術帶來正向價值、有利於社會發展。」董超說道。(記者林麗青)