Project Genie,Google用於創建互動式世界的AI原型

  • Project Genie 結合了 Genie 3、Nano Banana Pro 和 Gemini,可根據文字或圖像產生互動式虛擬世界。
  • 僅限美國境內的 Google AI Ultra 訂閱用戶訪問,每次會話時長最多 60 秒,解析度約為 720p。
  • 該工具允許你即時繪製、探索和混合世界,但它存在真實性問題、延遲問題和角色控制不佳等問題。
  • 它模仿知名遊戲的能力引發了關於版權的爭論,也讓部分電子遊戲產業感到擔憂。

人工智慧專案:產生互動式世界

谷歌在其攻勢中採取了新的舉措 人工智慧在電子遊戲中的應用 虛擬世界 隨著Project Genie的推出,這款原型產品允許用戶根據少量文字提示或圖像生成並瀏覽互動式環境,該公司將其定位為仍在測試階段的實驗性工具。然而,其初步演示在業界引發了既興奮又質疑的雙重情緒。

目前,存取權限僅限於 美國GoogleAI Ultra計畫的訂閱用戶會話時間短,效能也明顯體現了此系統的實驗性質。即便如此,該專案也預示著未來任何用戶都可以… 只需幾秒鐘即可創建一個小型「可玩世界」。無需了解如何編程或操作圖形引擎。

Project Genie是什麼?它結合了哪些技術?

人工智慧世界生成器

Project Genie 是一個 由GoogleDeepMind和Google人工智慧開發的研究原型 它是一款互動式世界生成器。其技術基礎基於三大支柱:Genie 3 模型,專門用於模擬動態環境;Nano Banana Pro,負責視覺效果和草圖繪製;以及 Gemini,這款多模態模型能夠解讀使用者指令並在創作過程中提供輔助功能。

該系統的核心是 Genie 3 是一個「世界」模型,能夠逐幀預測螢幕上發生的事情。與以往只能產生靜態 3D 場景的技術不同,此方法可讓環境即時對玩家的動作做出反應,根據 DeepMind 的內部實驗,其解析度約為 720p,視覺連貫性可達數分鐘。

基於此,它是一體化的。 Nano Banana Pro 負責產生舞台的初始影像。 從描述性文字或參考影像開始,這個初始視圖可以作為草圖,用於確定圖形風格、世界組成以及探索過程中將控制的角色的外觀。

最後, Gemini 擔任編曲層和助手。它能以自然語言解釋指令,幫助即時調整世界,並能執行諸如改變視角(第一人稱或第三人稱)、重新混合已創建的環境或將幾個想法組合成一個可玩場景等任務。

如何創建和探索虛擬世界

由人工智慧產生的互動式世界

Project Genie 的運作結構圍繞著一個核心: 逐步過程分為三個階段 谷歌將其概括為勾勒、探索和融合不同的世界。其目標是讓任何人都能無需額外工具,就能將想法轉化為小型互動體驗。

在第一階段,使用者編寫他們想要創建的世界的描述,或上傳一張參考圖片。基於這些輸入, Nano Banana Pro 產生靜態預覽 場景可以是低多邊形風格的森林、未來都市環境、歷史景觀,或文字中描述的任何其他場景。角色類型、攝影機模式和一些基本移動參數也在此階段定義。

一旦草圖被接受,Genie 3 就會發揮作用,讓玩家能夠… 使用 W、A、S 和 D 鍵等典型的 PC 控制鍵,自由探索遊戲環境。該模型能夠即時生成角色面前出現的內容,根據前一幀預測每一幀,並在攝影機旋轉或返回到已訪問過的區域時保持一定的連貫性。

第三項關鍵能力是 世界的組合與重組該系統允許用戶重新訪問先前生成的場景,使用新的參數對其進行修改,將它們合併在一起,甚至可以使用谷歌預先生成的世界作為基礎來構建各種變體。此外,用戶還可以分享會話視頻,供其他用戶觀看或從中汲取靈感。

所有這些都透過一個類似於其他谷歌人工智慧服務的Web應用程式運行,因此 無需安裝其他程序,也不需要高深的技術知識。只需打開該工具,輸入指令,然後開始測試各種組合,直到找到滿意的結果。

技術限制:時間、性能與真實性

人工智慧原型在虛擬世界中的局限性

谷歌堅持將Project Genie定義為 具有顯著實驗特徵的研究原型這個標籤並非只是形式上的:目前的經驗表明,除了最初的好奇心之外,該工具存在一些明顯的局限性,限制了其實際應用。

最明顯的例子就是… 每次產生和探索會話限時 60 秒一分鐘後,遊戲世界彷彿靜止,玩家必須重新開始遊戲。該公司解釋說,這種限制可以更好地分配運算資源,因為每次遊戲都會為玩家預留一個專用晶片。

就性能而言,公開測試描述了 解析度接近 720p,幀頻率在每秒 20 到 24 幀之間這些功能也伴隨著明顯的輸入延遲,例如在移動角色或切換視角時。一些早期測試者表示,這種體驗更像是互動視頻,而不是流暢的傳統電子遊戲。

還應該注意的是,Genie 3 它不是傳統的圖形引擎,而是預測下一幀的模型。 基於上述所述,這會導致一些奇怪的現象:路徑紋理無故改變、元素消失、物理效果不合理,或是動畫隨機變形。

谷歌本身也發出警告,生成的世界 “它們可能看起來並不完全真實,也並非總是符合物理規律或物理定律。”而且角色操控也不夠精準。換句話說,這項技術展現了潛力,但在遊戲性和畫面穩定性方面,距離提供完善的遊戲體驗還有很長的路要走。

受限訪問和國際路線圖

人工智慧原型機的使用權限有限

在第一階段,Project Genie 僅適用於 美國GoogleAI Ultra客戶該公司最先進的訂閱計畫是針對需要高效能人工智慧功能的企業和創作者。這是一項高級服務,因此限制了可參與實驗的用戶數量。

限制檢測的決定可以用以下兩個方面來解釋: 每次會話的計算成本 這是因為Google希望在更大規模推廣之前收集詳細的用戶回饋。 DeepMind 研究總監 Shlomi Frutcher 強調,能夠向更多人開放這些工具以收集真實使用體驗意見“令人興奮”,但目前尚無這些工具在歐洲或其他市場推出的具體日期。

從西班牙和歐洲用戶及研究的角度來看,這意味著,至少在短期內, 最現實的角色將是觀察者。密切關注測試結果,分析已經在社交媒體上流傳的視頻,並評估這項技術在多大程度上可以融入關卡設計、快速原型製作或創意可視化的工作流程中。

谷歌已表明其意圖 逐步擴大准入 前提是性能、成本和法律問題允許。然而,這種擴張的速度也將取決於社群的反應,以及圍繞版權和負責任地使用第三方內容的爭論將如何發展。

模仿知名遊戲的能力以及版權爭議

Project Genie最棘手的問題之一就是它的 能夠以不同程度的成功,重現明顯受到現有電子遊戲啟發的世界一些專業記者設法創造出了與《超級瑪利歐 64》、《銀河戰士 Prime》或《薩爾達傳說:曠野之息》等遊戲明顯相似的場景。

就薩爾達傳說而言,甚至有人見過它們。 跳躍時展開滑翔傘的角色這一動作與任天堂遊戲密切相關。這些巧合表明,該模型可能使用了大量公開的遊戲影片進行訓練,這引發了人們對人工智慧訓練中智慧財產權處理方式的質疑。

經過多次測試,重現了受知名IP啟發而創建的世界之後,Google已經開始… 阻止生成某些場景和角色尤其是在提及特定名稱或商標時。在某些情況下,該工具會直接阻止基於某些故事背景創建世界,理由是「涉及第三方內容提供者的利益」。

該公司解釋說,Project Genie是 “主要使用公開的網路資料進行訓練”但請記住,這些內容仍然受著作權法保護。因此,目前尚在完善審核系統,該系統會明確阻止一些複製受版權保護作品的行為,而只要避免過於直接的引用,其他一些行為則可以繞過審核。

這種不尋常的行為加劇了關於…的爭論。 人工智慧在多大程度上可以或應該從現有遊戲中汲取靈感? 那麼,我們該如何界定致敬、模仿和抄襲之間的界線呢?這場辯論預計在歐盟等地區尤其重要,因為這些地區仍在製定人工智慧訓練資料和版權方面的監管框架。

對電子遊戲產業的潛在影響

除了媒體對觀看的吸引力之外 幾秒鐘內即可生成「類似馬裡奧」或「類似塞爾達」的世界Project Genie是各大科技公司競相將生成式人工智慧應用於遊戲開發這一更廣泛競賽的一部分。例如,微軟已經推出了Muse等項目,旨在自動化部分設計和製作流程;其他公司也在探索類似的解決方案,以降低成本並加快開發速度。

在此背景下,Google的提案旨在成為 一種快速原型製作和實驗工具 這對於獨立工作室和大型發行商來說都可能很有吸引力。能夠根據草圖或一段文字建立可玩場景,有助於早期驗證創意、創建內部演示或測試遊戲機制,而無需投入數月的時間。

然而,這類解決方案的興起引起了業內一些人士的擔憂。一方面, 人們擔心這可能會對某些職業領域產生影響。 如果部分內容是自動產生的。另一方面,許多開發者對那種人工智慧利用已發表的作品進行訓練,卻沒有向作者支付明確報酬的商業模式持謹慎態度。

在歐洲和西班牙市場,關於文化創作保護的爭論尤其激烈,因此,像Project Genie這樣的工具如何融入未來的監管體系至關重要。諸如訓練資料的透明度、版權所有者的退出機制以及產生內容的歸屬等問題,都可能決定這些工具能否被謹慎採用,還是會與開發者和出版商持續產生衝突。

目前,Project Genie仍處於早期階段。 它更像是一個公共實驗室,而不是一個成品。它的發展演變,以及Google如何處理相關的法律和道德問題,將決定它最終是融入工作室的工作流程,還是僅僅停留在華麗但有限的實驗階段。

然而,這款原型機的出現清楚地表明,大型科技公司看到了… 自動產生互動式世界 這是一個至關重要的策略領域。儘管它目前的實際應用受到限制,並且存在許多技術缺陷,但發展方向是明確的:模型越來越能夠將文字和圖像轉化為可玩的體驗,而整個行業將不得不決定如何與這些新工具共存。

相關文章:
虛擬現實的定義 你應該知道的!