用於高效基於變壓器的語音辨識的無束位置編碼

用於高效基於變壓器的語音辨識的無束位置編碼
4月25, 2023
研究

自我注意已成為端到端(E2E)自動語音辨識(ASR)的重要組成部分。具有相對位置編碼(RPE)的捲積增強變壓器(Conformer)實現了最先進的性能。本文提出了一種名為縮放未綁定RPE的位置編碼(PE)機制,該機制在自注意力計算中解開特徵-位置相關性,並使用不同的投影矩陣分別計算特徵相關性和位置相關性。此外,我們建議使用位置相關性來縮放特徵相關性,並且可以使用稱為幅度的參數來表示這種乘法交互作用的侵略性。此外,我們表明PE矩陣可以切片以減少模型參數。我們對國家語音語料庫 (NSC) 的結果表明,與 Conformer 基線相比,具有縮放未綁定 RPE 的變壓器編碼器在準確性方面分別實現了 1.9% 的相對改進和高達 50.9% 的延遲。