資源匱乏環境中端到端語音辨識的域適配

資源匱乏環境中端到端語音辨識的域適配
林潤生博士
十月 5, 2022
研究

端到端自動語音辨識 (ASR) 簡化了傳統的 ASR 系統構建管道,無需具有多個元件,也無需創建發音詞典所需的專家語言知識。因此,端到端 ASR 非常適合為新域構建系統。然而,端到端ASR的一個主要缺點是,與傳統方法相比,有必要具有更多的標記語音。因此,在本文中,我們探討了在資源匱乏環境中端到端ASR的領域適應方法。我們通過在標籤序列的開頭插入域符號、因數化隱藏層自適應和域特異性門控機制,證明瞭聯合域識別和語音識別可以提高低資源目標域的性能。此外,我們還展示了所提出的適應方法對看不見的領域的魯棒性,當只有3小時的未轉錄數據可用時,相對報告高達8.7%的改進。

資源匱乏環境中端到端語音辨識的域適配

工程學士(2005),博士(2010),香港大學。IEEE高級會員。裘槎研究員。香港大學EEE兼職助理教授。加州大學伯克利分校博士後。浸會大學和香港大學研究助理教授。