使用自回歸預訓練改進非自回歸 ASR

使用自回歸預訓練改進非自回歸 ASR
4月25, 2023
研究

自回歸 (AR) 自動語音辨識 (ASR) 模型預測每個輸出令牌條件,從而降低其推理速度。另一方面,非自回歸(NAR)模型在恆定的解碼反覆運算次數內獨立並同時預測令牌,從而帶來很高的推理速度。但是,NAR 模型的準確度通常低於 AR 模型。在這項工作中,我們提出了對NAR編碼器進行AR預訓練,以縮小AR和NAR模型之間的精度差距。實驗結果表明,我們的AR預訓練MaskCTC在Aishell-1上達到了與AR構象體相同的精度(均為4.9%CER),並且在LibriSpeech上與AR構象體的性能差距降低了50%。此外,我們的AR預訓練MaskCTC只需要一次解碼反覆運算,從而將推理時間縮短了50%。我們還研究了訓練MaskCTC的掩碼語言模型的多種掩蔽策略。