使用自回歸預訓練改進非自回歸 ASR

4月25， 2023

自回歸（AR）自動語音辨識（ASR）模型預測每個輸出令牌條件，從而降低其推理速度。另一方面，非自回歸（NAR）模型在恆定的解碼反覆運算次數內獨立並同時預測令牌，從而帶來很高的推理速度。但是，NAR 模型的準確度通常低於 AR 模型。在這項工作中，我們提出了對NAR編碼器進行AR預訓練，以縮小AR和NAR模型之間的精度差距。實驗結果表明，我們的AR預訓練MaskCTC在Aishell-1上達到了與AR構象體相同的精度（均為4.9%CER），並且在LibriSpeech上與AR構象體的性能差距降低了50%。此外，我們的AR預訓練MaskCTC只需要一次解碼反覆運算，從而將推理時間縮短了50%。我們還研究了訓練MaskCTC的掩碼語言模型的多種掩蔽策略。

使用自回歸預訓練改進非自回歸 ASR

最新文章

宣佈我們的 ISO27001：2022 資訊安全認證

FANOVATION 2023 匯聚 80多名高管參與生成式AI討論

使用自回歸預訓練改進非自回歸 ASR

最新文章

宣佈我們的 ISO27001：2022 資訊安全認證

FANOVATION 2023 匯聚 80多名高管 參與生成式AI討論

FANOVATION 2023 匯聚 80多名高管參與生成式AI討論