聯和科創攜手學界,將於 ICASSP 2025 發表突破性語音辨識技術
智通科創(股票代號 : 8932)旗下子公司聯和科創 AI 部門主管李鴻欣博士,與國立臺灣師範大學陳柏琳教授、中央研究院王新民研究員攜手合作,將於頂級音訊處理會議 ICASSP 2025發表最新研究成果,提出一項名為「Channel-Aware Domain-Adaptive Generative Adversarial Network (CADA-GAN)」的創新技術,能有效提升語音辨識系統在不同錄音環境下的精準度。同時,聯和科創更推出全新商業產品「Audio Pro」即時語音增強系統,結合頂尖技術與實用功能,為串流產業提供卓越的語音處理解決方案。
ICASSP 2025將於 2025年 4 月 6 日至 11 日在印度海德拉巴舉行。團隊於會中發表的論文標題為:「Channel-Aware Domain-Adaptive Generative Adversarial Network for Robust Speech Recognition」(用於強健式語音辨識之通道相容暨領域自適應生成對抗網路)(線上論文:https://arxiv.org/abs/2409.12386)。
跨環境語音辨識挑戰:錄音通道差異導致辨識率下降
近年來,預訓練的自動語音辨識 (ASR) 系統在特定領域表現卓越,但當面對來自不同錄音環境或條件的通道差異時,辨識效果往往會大幅下降。為了克服這個難題,聯和科創團隊提出了全新的通道相容資料模擬方法,用於訓練更穩健的 ASR 系統。
CADA-GAN:整合通道提取與生成對抗網路的創新方法
此項技術的核心概念在於結合通道提取技術與生成對抗網路 (GAN) 的優勢。首先,團隊訓練一個通道編碼器,能夠從任意音訊中提取通道嵌入資訊。接著,利用少量的目標領域資料提取通道嵌入,並以此引導基於GAN的語音合成器。此合成器能生成保留原始語音內容,同時模擬目標領域通道特性的語音,大幅減少跨環境的語音差異。
實驗結果顯著:於 HAT 及 TAT 資料集獲得大幅辨識率提升
研究團隊在極具挑戰性的臺灣客語 (Hakka Across Taiwan, HAT) 以及臺灣台語 (Taiwanese Across Taiwan, TAT) 語料庫上進行測試,實驗結果顯示,相較於基準系統,此方法在HAT資料集上獲得 20.02%的相對字元錯誤率 (Character Error Rate, CER) 降低,在 TAT 資料集上則獲得 9.64% 的降低。這些數據充分證明此通道感知資料模擬方法能有效縮小來源領域和目標領域之間的聲學差異。
研究結論:CADA-GAN 顯著提升語音辨識準確度與感知品質
本研究提出的 CADA-GAN方法,透過整合通道編碼器與 GAN 架構,有效解決了語音辨識系統的通道不匹配問題,提升系統在未見條件下的泛化能力。實驗結果顯示,CADA-GAN在HAT和TAT資料集上的表現均顯著優於強大的基準系統,不僅大幅降低了字元錯誤率,也提高了語音辨識的感知品質。
「Audio Pro」可調式即時語音增強系統:極致效能,打造清晰語音體驗
除了在學術研究上的突破,聯和科創更進一步將抗噪技術應用於商業領域,推出全新的「Audio Pro」即時語音增強系統。Audio Pro採用最先進的第三代深度濾波網路架構,以極低的計算成本,實現卓越的降噪效果(PESQ 分數超過 3.1),且模型大小僅有不到 3 百萬參數,並提供超低延遲(<40ms)的即時處理能力。
Audio Pro 的獨特優勢:
• 無與倫比的效能與輕巧體積: 採用最先進的深度濾波網路架構,提供卓越的降噪效果,同時保持極低的運算成本。即使在單核心CPU裝置(如NUC)上也能順暢運作,無需高階硬體,大幅降低成本。
• 可調式降噪,打造純淨音訊: 獨特的可調式衰減功能,可依據不同環境微調降噪強度,確保在低噪音或高噪音環境下,都能獲得最佳的語音清晰度和自然度。
• 集中式管理,輕鬆擴展部署: 從單一中央控制系統輕鬆管理和監控20多個裝置。可單獨或批量調整衰減參數,簡化管理並確保效能一致性。實時監控輸入和輸出音量等關鍵指標,提供有價值的資訊並促進系統的主動管理。
未來展望:學術研究與商業應用並駕齊驅
未來,聯和科創將持續投入音訊處理技術的研發,不僅深入學術研究,更積極將技術轉化為實際應用,透過 CADA-GAN 技術與 Audio Pro 產品,為直播串流產業提供更高效、更優質的語音解決方案,為人們的生活帶來更多便利。
關於聯和科創 (United Link CO., LTD)
聯和科創 股份有限公司系 智通科創 股票代號 8 932) 旗下 子公司 是一家融合電商和線上影音串流 創新技術 的企業。聯和科創 的產品及服務涵蓋 網頁開發 、 系統整合 、手機行動應用程式 開發 、 線上影音串流 、 電商平台開發 等多樣 化 的數位解決 方案, 為消費者及企業 用戶 帶來數位時代的全新體驗。