聯和科創 AI 團隊再創佳績,兩篇論文獲國際頂級會議 IEEE ASRU 2025 接受
智通科創(股票代號:8932) 旗下深耕串流影音 AI 優化的子公司「聯和科創」宣布, AI 部門在主管李鴻欣博士帶領下,攜手國立臺灣師範大學陳柏琳教授及中央研究院王新民研究員組成的頂尖產學合作團隊,再次於國際舞台上取得重大突破。兩篇前瞻性研究論文,已成功獲得全球頂級語音處理會議 IEEE 自動語音辨識與理解研討會(ASRU 2025)的正式接受,展現聯和科創在 AI 語音技術領域的深厚實力與突破性貢獻。
IEEE ASRU 研討會是全球語音技術的殿堂,匯集了學術界與產業界的頂尖智慧。聯和科創的兩項研究成果,不僅展現了卓越的技術創新,更直接回應了當前 AI 應用於真實世界所面臨的兩大關鍵挑戰 :
第一個挑戰:如何讓 AI 在任何環境下都「聽得準」?
不少人曾經歷以下的情境: 在安靜的室內對手機下達語音指令清晰無誤,但一進到嘈雜的車內或使用不同品牌的藍牙耳機,語音助理就變得遲鈍甚至頻頻出錯?過去,大家普遍認為這只是訓練資料不足的問題。
然而,聯和科創與合作團隊的研究發現,錄音設備本身的物理特性,才是幕後真正的元兇。不同麥克風捕捉到的聲音,就像是帶有不同「口音」的語言,會讓AI模型感到困惑。
為此,聯和科創團隊在第一篇論文《揭示音訊通道於自動語音辨識(ASR)性能衰退中所扮演的角色》( Revealing the Role of Audio Channels in ASR Performance Degradation) 中,開發出了一種創新的「聲音正規化」技術,就像為 AI 裝上了一副「萬能翻譯耳機」。它能即時將來自任何設備、帶有 「口音」的聲音,轉換為 AI 最熟悉、最純淨的標準版本,從而大幅降低辨識錯誤率。這項技術能以「即插即用」的方式,輕鬆整合到現有系統中,無需對龐大的 AI 模型進行重新訓練,讓語音辨識在各種 真實場景下都更可靠、更穩定。
第二個挑戰:AI 生成的音樂和語音,如何判斷 「好不好聽」?
隨著技術發展,AI 不僅能聽懂我們說話,更能創作音樂、生成語音。然而,AI 生成的音樂是否動聽? 語音是否自然?我們該如何客觀地評斷其「品質」? 傳統方法僅是讓機器去預測一個分數,例如 1 到 5 分,但這種方式非常粗糙,常常無法捕捉人類感知的細微差異。我們都知道,一首 4 分的曲子和一首 4.5 分的曲子,在聽感上可能有天壤之別。 在第二篇論文《QAMRO:用於音訊生成系統之人類聽感對齊評估的品質感知適應性邊界排序優化框架》(QAMRO: Quality-aware Adaptive Margin Ranking Optimization for Human-aligned Assessment of Audio Generation Systems)中,團隊提出了名為 QAMRO的全新評估框架。這個框架不再是讓 AI 猜分數,而是教導 AI 學習像人類專家一樣去「品鑑」
和「排序」。它能理解「這段聲音比那段聲音聽起來更悅耳」,從而更精準地評估出 AI 生成內容的品質,尤其是在分辨「好」與「極好」的 作品時,表現更為出色。這項突破性的框架,將能幫助開發者打造出更貼近人類審美、品質更高的 AI 產品。從更悅耳的 AI 語音助理,到更具感染力的 AI 配樂,都將因此受益。
聯和科創 AI 部門主管李鴻欣博士表示:「這兩項成果充分展現我們以『解決真實問題』為核心的研發理念。 我們不僅要讓 AI 更聰明,更要讓它在複雜多變的現實世界中更實用、更可靠。這次成功的產學合作,攻克了語音辨識穩健性與生成內容品質評估兩大難題。未來,我們將繼續 引領技術前沿,創造真正能改善人們生活的 AI 應用。」 此次聯和科創與臺灣學術界翹楚的攜手合作,不僅為全球 AI 技術發展貢獻了來自臺灣的創新力量, 更為 AI 技術從實驗室走向大眾生活,鋪平了最後一哩路。
關於聯和科創 (United Link CO., LTD)
聯和科創股份有限公司為 智通科創(股票代號:8932) 旗下子公司,專注於電商與線上影音串流創新解決方案。服務涵蓋 網頁開發、系統整合、行動應用、影音串流平台及電商系統,致力於為企業與消費者提供數位時代的嶄新體驗。