FANOVATION 2023 匯聚 80多名高管 參與生成式AI討論
2023年10月31日
傳統上,說話人分割系統有多個組合來提取和聚集說話人嵌入。然而,端到端分割更可取,因為與傳統設置中的多個元件相比,它有助於優化一個模型。此外,端到端分割系統能夠處理重疊的語音。最近提出的基於編碼器-解碼器的自注意端到端分割化模型(EEND-EDA)能夠處理來自未知數量說話者的語音,並且報告了與傳統系統相當的性能。在這項工作中,我們的目標是證明EEND-EDA模型。首先,我們通過結合附加裕度懲罰來最小化類內方差,從而提高模型的魯棒性。其次,我們建議用Conform編碼器替換變壓器編碼器以捕獲本地資訊。第三,我們建議使用卷積子採樣和上採樣,而不是僅使用手動子採樣。我們提出的改進報告稱,在DIHARD III挑戰賽軌道2的全套評估中,DER相對降低了21.6%。