AI

OpenAI發布語音模型GPT-realtim:具備情感感知能力多語言無縫切換

OpenAI正式發布語音模型GPT-realtime。

根據介紹,GPT-realtime是一款專注於語音AI Agent的多模態模型,能夠產生高度自然流暢的語音,精準還原人類語調、情緒和語速的豐富變化。此模型支援圖像理解,並可結合語音或文字對話使用,非常適合應用於客服、教育、金融、醫療等領域,用於建立高品質的語音智能體。

官方表示,新模型在複雜指令遵循、工具精確調用以及產生更自然、更具表現力的語音方面表現卓越。尤其在重複字母與數字、逐字朗讀免責聲明、語句間無縫切換語言等場景中,GPT-realtime展現出優秀的適應能力。

該模型還具備出色的上下文理解能力,可準確捕捉非語言線索(如笑聲),並即時調整語音語氣,實現諸如“帶有法國口音的友好語調”或“語速較快的專業語調”等多樣化表達。

此外,GPT-realtime新增了「Cedar」和「Marin」兩種語音風格,並對現有八種語音效果進行了全面優化。

來源

 

延伸影片閱讀:  
Previous post

雷霆金獅王 COUGAR GR 850W 全模組電源供應器開箱

Next post

《戰地風雲6》不支援光線追蹤 原因令人感動

The Author

kai

kai