強大的端到端揚聲器分割,具有構象和附加裕量懲罰

強大的端到端揚聲器分割,具有構象和附加裕量懲罰
4月25, 2023
研究

傳統上,說話人分割系統有多個組合來提取和聚集說話人嵌入。然而,端到端分割更可取,因為與傳統設置中的多個元件相比,它有助於優化一個模型。此外,端到端分割系統能夠處理重疊的語音。最近提出的基於編碼器-解碼器的自注意端到端分割化模型(EEND-EDA)能夠處理來自未知數量說話者的語音,並且報告了與傳統系統相當的性能。在這項工作中,我們的目標是證明EEND-EDA模型。首先,我們通過結合附加裕度懲罰來最小化類內方差,從而提高模型的魯棒性。其次,我們建議用Conform編碼器替換變壓器編碼器以捕獲本地資訊。第三,我們建議使用卷積子採樣和上採樣,而不是僅使用手動子採樣。我們提出的改進報告稱,在DIHARD III挑戰賽軌道2的全套評估中,DER相對降低了21.6%。