基於子空間的具有前饋層的LSTM聲學模型的序列判別訓練

基於子空間的具有前饋層的LSTM聲學模型的序列判別訓練
林潤生博士
十月 5, 2022
研究

最先進的自動語音辨識(ASR)系統使用序列判別訓練來提高幀級跨熵(CE)標準的性能。儘管序列判別訓練改善了長短期記憶(LSTM)遞歸神經網路(RNN)聲學模型(AM),但尚不清楚這些系統是否由於過擬合而達到最佳性能。本文研究了狀態級最小貝葉斯風險(sMBR)訓練對LSTM AM的影響,並表明通過更新所有LSTM參數來執行sMBR的傳統方法不是最優的。我們研究了兩種方法來提高LSTM AM序列判別訓練的性能。在最後一個LSTM層和輸出層之間包含更多的前饋(FF)層,因此這些額外的FF層可能更適合sMBR訓練。其次,在對AM的LSTM層執行 sMBR 時,將子空間估計為1級矩陣的插值。我們的方法在基準 AMI 單距離麥克風 (SDM) 任務中進行了評估。我們發現,與強大的sMBR訓練的LSTM基線相比,所提出的方法提供了1.6%的絕對改進。

基於子空間的具有前饋層的LSTM聲學模型的序列判別訓練

工程學士(2005),博士(2010),香港大學。IEEE高級會員。裘槎研究員。香港大學EEE兼職助理教授。加州大學伯克利分校博士後。浸會大學和香港大學研究助理教授。