強大的端到端揚聲器分割，具有構象和附加裕量懲罰

4月25， 2023

傳統上，說話人分割系統有多個組合來提取和聚集說話人嵌入。然而，端到端分割更可取，因為與傳統設置中的多個元件相比，它有助於優化一個模型。此外，端到端分割系統能夠處理重疊的語音。最近提出的基於編碼器-解碼器的自注意端到端分割化模型（EEND-EDA）能夠處理來自未知數量說話者的語音，並且報告了與傳統系統相當的性能。在這項工作中，我們的目標是證明EEND-EDA模型。首先，我們通過結合附加裕度懲罰來最小化類內方差，從而提高模型的魯棒性。其次，我們建議用Conform編碼器替換變壓器編碼器以捕獲本地資訊。第三，我們建議使用卷積子採樣和上採樣，而不是僅使用手動子採樣。我們提出的改進報告稱，在DIHARD III挑戰賽軌道2的全套評估中，DER相對降低了21.6%。

強大的端到端揚聲器分割，具有構象和附加裕量懲罰

最新文章

宣佈我們的 ISO27001：2022 資訊安全認證

FANOVATION 2023 匯聚 80多名高管參與生成式AI討論

強大的端到端揚聲器分割，具有構象和附加裕量懲罰

最新文章

宣佈我們的 ISO27001：2022 資訊安全認證

FANOVATION 2023 匯聚 80多名高管 參與生成式AI討論

FANOVATION 2023 匯聚 80多名高管參與生成式AI討論