基於一致性的語音辨識,具有線性奈斯特羅姆注意力和旋轉位置嵌入

基於一致性的語音辨識,具有線性奈斯特羅姆注意力和旋轉位置嵌入
2022年5月1日
研究

自我注意已成為端到端(E2E)自動語音辨識(ASR)的重要組成部分。最近,具有相對位置編碼(RPE)的捲積增強變壓器(Conformer)實現了最先進的性能。然而,自我注意的計算和記憶複雜性隨著輸入序列長度呈四方增長。在處理較長的序列時,這種影響對於Conform編碼器來說可能非常大。在這項工作中,我們建議用線性複雜度Nystro ̈m注意力代替自我注意,這是基於Nystro ̈m方法的注意力分數的低秩近似。此外,我們建議使用旋轉位置嵌入(RoPE)和Nystro ̈m,因為RPE具有二次複雜性。此外,我們表明,通過從頂部編碼器層中刪除自我注意子層,可以使模型變得更輕,而不會降低性能。此外,我們證明瞭Conformer中的捲積子層可以有效地恢復由於Nystro ̈m近似而丟失的資訊。