Google近期在AI Studio平台上悄然推出一項突破性的語音合成技術,讓使用者能透過簡單的自然語言描述來調整語音風格。這項名為「Gemini 2.5 Flash Preview TTS」的文字轉語音模型,無需複雜設定,只要輸入如「中文腔調的英語」或「牙買加口音、輕鬆語氣」等描述,即可生成相應風格的語音輸出。
創投家@deedydas在社交平台X上分享的示範影片中,展示了該技術在中文、牙買加英語、泰米爾混英語與旁遮普混英語等多種語音風格間的無縫切換能力。影片中的語音表現流暢自然,幾乎感覺不到人工合成的痕跡,引發了網友的廣泛關注。
雖然這項功能目前仍處於預覽階段,尚未支援即時語音生成,但其潛在應用價值已相當明顯。專家預測,這項技術未來可能在教育領域、專業配音、個人化語音助手等多個場景帶來革命性的變革,大幅降低跨語言、跨文化語音應用的技術門檻。