亞馬遜推出AI語音模型Nova Sonic：價格比GPT-4o便宜80%

亞馬遜正式推出新一代生成式AI語音模式Nova Sonic，標誌著在人工智慧語音領域取得重大突破。

這款創新模型能夠原生處理語音輸入並產生自然流暢的語音輸出，在速度、語音識別準確率和對話質量等核心性能指標上，已達到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。

Nova Sonic透過亞馬遜Bedrock開發者平台提供服務，採用創新的雙向串流API接口，為企業級AI應用開發提供了強大支援。亞馬遜特別強調，該模型在成本效益方面具有顯著優勢，其價格比OpenAI的GPT-4o便宜約80%。堪稱目前市場上最具性價比的AI語音解決方案。

與競爭對手的AI語音模型相比，Nova Sonic在將用戶請求路由到不同API方面表現出色。這項能力使得Nova Sonic能夠知道何時需要從網路獲取即時資訊、解析專有資料來源，或在外部應用程式中採取行動，並使用合適的工具來完成任務。

在雙向對話中，Nova Sonic會等待「合適的時機」發言，會考慮到說話者的停頓和打斷等情況。此外，Nova Sonic還能夠為使用者的語音產生文字記錄，開發者可以將這些文字用於各種應用場景。

亞馬遜AGI部門首席科學家羅希特?普拉薩德透露，Nova Sonic的部分技術已經應用於升級版數位助理Alexa+。該模型的推出是亞馬遜建構人工通用智慧(AGI)策略的重要一步，未來也將推出支援多模態理解的AI模型，涵蓋影像、影片及其他物理世界感知資料。