Google 在 I/O 2025 開發者大會上正式發布升級版「Live API」,為 Gemini 生態系統注入全新的即時 AI 互動能力。這項技術突破將使語音與視訊串流互動更加智慧化,支援多種前沿應用場景,包括精準語音辨識、即時工具串接及具情感的音訊輸出。
Live API 的核心功能包括完整的音訊與視訊串流支援,讓開發者能直接處理串流媒體資料,特別適用於遠端協作、智慧客服及物聯網設備等應用。系統提供「Cascaded」與「Audio-to-Audio」兩種架構選項,大幅提升開發彈性。
在技術細節方面,Live API 整合了語音活動偵測功能,能自動識別用戶發言時機;同時具備完善的會話管理系統,支援資料壓縮、媒體解析度動態調整及發言輪替控制。安全性設計上,系統採用臨時憑證機制,強化連線安全與授權管理。
特別值得注意的是,Live API 引入了原生音訊輸出能力,包括「Proactive audio」與「Affective dialog」等情緒化回應功能,甚至能模擬 AI「思考中」的聲音提示,大幅提升互動自然度。
Google 表示,Live API 的推出代表 AI 互動正朝向更即時、更具情感連結的方向發展。這項技術預計將廣泛應用於虛擬助理、智慧客服、教育學習平台及無障礙輔助裝置等多元場景,為 Gemini 生態系統開創嶄新可能。
Copyright © 2022 好好聽文創傳媒股份有限公司 All Rights Reserved.