聯和科創為臺灣客語開發尖端的文字轉語音系統
智通科創(股票代號 : 8932)旗下子公司聯和科創宣布在客語語音合成技術方面取得重要突破,公司的AI部門在李鴻欣博士的帶領下,與國立聯合大學的張陳基博士合作開發了「VoxHakka系統」,VoxHakka是一款多腔調暨多語者的客語語音合成系統。該成果的學術論文《VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka》將於今年第27屆Oriental-COCOSDA(O-COCOSDA 2024)國際會議上發表。
VoxHakka 系統的研發,成功解決了保存與活化瀕危的臺灣客語所面臨的挑戰。該系統基於 YourTTS 架構,實現了語音合成的高自然度、準確性及低延遲,並且獨特地支援所有六種主要的客語腔調。
為了解決客語語音公開可用資料稀缺的問題,聯和科創團隊採用了一種新穎的網路爬蟲技術以及先進的自動語音辨識(ASR)技術。這種方法確保了創建高品質、多語者、多腔調資料集,這對於訓練語音合成模型至關重要。
根據比較平均意見分數(CMOS)進行的嚴格主觀聽力測試證實,VoxHakka 在發音準確性、聲調正確性和整體自然度方面明顯優於現有的公開客語語音合成系統。
「我們很高興推出 VoxHakka系統,這是客語語音技術的重大飛躍」李鴻欣博士表示,「這個項目突顯了我們致力於運用AI產生積極社會文化影響力的貢獻,特別是在傳統語言保存的領域。」VoxHakka 根據 CC-BY 4.0 授權 (https://voxhakka.github.io) 免費提供,旨在鼓勵其成果可以在研究、教育和創意應用中被廣泛使用。這種開放取用方法也促進了客家社群內外的協作和創新。
聯和科創將持續致力於改進和擴展 VoxHakka 的功能,進一步鞏固其在AI語音保存領域的領導地位。
O-COCOSDA 是東方口語語音資料庫和評估技術協調與標準化委員會的縮寫,該委員會成立於1997年,主要探討語音資料庫及語音處理的評估技術,為研究人員、業界專家和從業者提供一個交流最新研究成果和合作機會的平台,涵蓋了自動語音辨識、自然語言處理和語音合成等領域。
聯和科創「VoxHakka系統」為臺灣客語開發尖端的文字轉語音系統
《VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka》
原文網址 https://arxiv.org/abs/2409.01548
VoxHakka:臺灣客語多腔調暨多語者的語音合成系統
VoxHakka是一個專為臺灣客語(一種臺灣資源嚴重匱乏的語言)設計的文字轉語音 (TTS) 系統。透過運用YourTTS框架,VoxHakka在語音合成中實現了高自然度和高準確性,同時在實時性方面表現優秀,並且支持六種不同的客語腔調。透過使用特定腔調的資料訓練模型來實現,從而能夠生成具備語者特徵的客語語音。為了解決公開可用之客語語音語料庫的稀缺問題,聯和科創採用了一種具有成本效益的方法,結合了網頁爬蟲管道和基於自動語音辨識(ASR)的資料清理技術,此過程確保了高品質的多語者、多腔調語音資料集的獲取,適合語音合成模型的訓練。通過主觀聆聽測試並使用比較平均意見評分(CMOS)進行評估,結果顯示VoxHakka在發音準確性、語調正確性和整體自然度方面顯著優於現有的公開客語語音合成系統。這項工作在客語技術領域取得了重要進展,為語言保存和振興提供了一個寶貴的資源。