<td id="azwx9"><strike id="azwx9"></strike></td>

    又一視頻生成模型刷屏!名副其實?

       Sora爆火后,谷歌重磅官宣Genie。

       據谷歌官網,Genie擁有110億參數,能夠用一張圖片、草圖合成可操控的虛擬世界。

       Genie到底是什么?與Sora相比,兩者有何異同?世界模擬器又是什么?據此,第一財經、藍鯨財經進行了相關報道。

       以下是報道全文。(請點擊查看原文)

       “Sora熱”未退,新一款視頻生成模型——Genie強勢來襲。

       2月26日,谷歌Deep Mind團隊發布基礎世界模型Genie,一個虛擬生成的可交互環境,110 億參數,通過給模型投喂視頻數據進行訓練,生成照片、草圖甚至可以操控的虛擬世界。

       這意味著,僅靠一張圖片,Genie便能開啟無限世界的大門。

       很多人表示:谷歌又來領導 AI 技術了。

       但,這只是 AI 技術的新突破嗎?事情真的這么簡單嗎?

       1 Genie是什么?

    圖片來源:視覺中國

       據谷歌介紹,Genie是一個110億參數的基礎世界模型,能從互聯網視頻中學習顆粒度的控制,不僅能了解哪些部分是可控的,還能推斷出生成的環境中的潛在動作。

       它由三部分組成:一個簡單且可擴展的潛在動作模型推斷每對幀之間的潛在動作、一個視頻分詞器將原始視頻幀轉換為離散標志(token),以及一個動態模型,在給定潛在動作和過去幀token的情況下預測下一幀。

       根據藍鯨財經記者觀察,這是指當給Genie提供不同的圖像(類似不同版本的馬里奧通關環境)時,圖像中的小人能在遇到障礙時表現出同樣的彈跳、躲避障礙的動作,且符合物理規律,但這些視頻非??ㄍɑ?。

       官網也表示:“我們專注于 2D 平臺游戲和機器人技術的視頻,但我們的方法是通用的,應該適用于任何類型的領域,并且可以擴展到更大的互聯網數據集?!?/p>

    Genie生成的視頻截圖。圖片來源:Google Genie官網

       在官網上,Genie也生成了模擬機器人動作的視頻。Genie團隊訓練了一個較小的 2.5B 模型,與游戲平臺的情況一樣,具有相同潛在動作序列的軌跡通常會表現出相似的行為。這表明 Genie 能夠學習符合一貫規律的動作空間,可能適合訓練多面手智能體(機械臂)。Genie 還可以模擬可以變形的物體。

    Genie生成的機械臂視頻截圖。圖片來源:Google Genie官網

       2 Sora、Genie誰更牛?

       與競爭對手OpenAI兩周前火遍全球的文生視頻模型Sora相同,Genie同樣是一個“物理世界模擬器”,能夠在虛擬世界中做物理世界的實驗。不同的是,Sora是直接從文字生成視頻,這更加“大力出奇跡”,且生成視頻長度可達一分鐘;而Genie從目前官網披露的情況看,大部分情況下需要先用文生圖模型來生成起始幀圖片,再用Genie 生成視頻,且視頻在一兩秒左右,更像是動圖。

       且與Sora呈現出來的高清晰度、高真實度相比,Genie似乎不那么強調畫面真實性,而是將重點放在潛在動作預測上。生成高真實度的視頻并非目前Genie的著力點。

       “Genie的獨特之處在于它能夠專門從互聯網視頻中學習細顆粒度的控制。這是一個挑戰,因為互聯網視頻通常不會標注其正在執行哪個動作、應該控制圖像中的哪一部分。Genie不僅了解觀察的哪些部分是可控制的,而且能根據生成的環境來推測出多種潛在的動作。請注意相同的潛在操作如何在不同的提示圖像下產生相似的行為?!?/p>

       據了解,動作可控是目前AI視頻的一個難點,有創作者告訴第一財經記者,PIKA等視頻生成工具多是做視差動畫,看上去動了,但運動合理性還有很大改進空間,大幅度運動、人物對話較難實現。一段長視頻要具備劇情,還保持在同一個風格里,AI很難做到,Sora通過多鏡頭巧妙地規避了這個問題,但還不能確認解決了問題。從這個角度看,AI理解物理世界并控制物體動作是一個重要方向。

       3 Sora、Genie的本質是什么?

       如果只把Sora、Genie當做生成視頻的影視工具,就大材小用了。

    Sora生成的一個視頻中,跑步機倒著跑。圖片來源:OpenAI Sora官網

       Sora、Genie的本質是“世界模擬器”,讓虛擬世界模仿現實物理世界的各種屬性(重力、摩擦力、動能、光、聲、電、材料、生物等等),在虛擬世界中操控物體動作,在仿真的物理條件下來做實驗。

       Sora此前發布視頻中的金毛犬、吹蠟燭的老太太、冰川上的猛犸象等,都是Sora通過視頻數據集來“理解”現實世界是如何構成的、有什么物理規律、人類有怎樣的行為,來模擬生成的。所以,Sora自行理解提煉的模擬世界中的規律也可能不符合現實物理世界,比如老太太吹不滅蠟燭、人在跑步機上倒著走、籃球直接穿籃而過等等。

       世界存在龐大的信息量,我們需要開發出能夠分析并理解這些海量數據的模型和算法,生成模型是朝向這個目標邁進的最有希望的方法之一。世界模型的一個好處或許在于,人類可以把需要試錯的部分放在虛擬世界中進行。

       在谷歌發布的Genie之前,有不少視頻生成模型在全球火爆。2023年12月底,Pika Labs推出Pika 1.0,生成視頻長度在3秒左右,以單鏡頭為主。Runway視頻模型于2023年2月發布,支持最多18s視頻生成,鏡頭相對固定。2024年2月16日,全球明星AI創業公司OpenAI發布文生視頻模型Sora,有精細的畫質、多鏡頭拍攝、多角度運鏡,對于真實人類世界的模擬度極高。

     

    時間:2024-02-29 來源:中國記協網-“中國記協”微信公眾號
    作者:中國記協 編輯:劉卓文
    av无码午夜福利一区二区三区,美女一级ba大片免色无遮住,欧美日韩国产综合在线小说,欧美性猛交高清58
      <td id="azwx9"><strike id="azwx9"></strike></td>