Google DeepMind 於 21 日的開發者大會上正式發表新一代生成式 AI 工具,包括圖像模型 Imagen 4 和影音模型 Veo 3,進一步強化其在 AI 創作領域的競爭力。
Imagen 4 在細節還原、色彩層次和排版字體等方面均有顯著提升,目前已整合至 Gemini App、Whisk 和 Google Workspace 等產品中。該模型支援高達 2K 解析度及多種長寬比例,特別適合用於卡片、漫畫和海報等設計創作。Google 還計劃推出「Imagen 4 快版」,生成速度將比上一代 Imagen 3 快 10 倍,大幅縮短創作者從構思到實現的時間。
在影音領域,全新的 Veo 3 模型首次支援影片中的聲音生成功能,包括環境音效和角色對話。該模型對故事敘述的理解能力更強,目前已向美國地區的 Ultra 訂閱用戶和企業 Vertex AI 用戶開放。同時,Veo 2 也獲得升級,新增參考圖像生成、鏡頭運動控制、場景延伸和物件增刪等功能。
Google 還推出了名為 Flow 的 AI 製片平台,整合了 Veo、Imagen 與 Gemini 的功能,使用者只需通過自然語言敘述即可完成分鏡腳本、角色設定和場景風格統一等工作。
在負責任 AI 創作方面,Google 透過 SynthID 技術為 AI 生成內容加入數位浮水印,已為超過 100 億項內容標記,並推出「SynthID Detector」網站,供公眾查驗內容是否為 AI 生成。