將先驗知識納入話者分離和連結中,以識別共同的發言者

將先驗知識納入話者分離和連結中,以識別共同的發言者
林潤生博士
十月 5, 2022
研究

演講者 Diarization 和 Linking 可在沒有任何演講者註冊的情況下跨錄音發現“誰在何時發言”。對每個錄音分別執行二值化,並且連結將不同錄音中同一揚聲器的集群組合在一起。這是一種兩步法,但是它遭受了將誤差從二化步驟傳播到連結步驟的困擾。在給定的錄音集中出現一個獨特的說話者的情況下,本文旨在利用他或她存在的先驗知識來定位共同的說話者。這意味著沒有此常見揚聲器的註冊數據。我們提出了成對公共說話人識別(PCSI)方法,該方法與兩步法相比,考慮了共同說話人的存在。我們進一步表明,PCSI可用於減少兩步法的二化步驟中引入的誤差。我們的實驗是在從AMI語料庫合成的語料庫上進行的,也是在與普通話混合的內部會話電話四川語語料庫上進行的。與最先進的x向量二元化和鏈接系統相比,時間加權相等錯誤率的相對改進高達7.68%。

將先驗知識納入話者分離和連結中,以識別共同的發言者

工程學士(2005),博士(2010),香港大學。IEEE高級會員。裘槎研究員。香港大學EEE兼職助理教授。加州大學伯克利分校博士後。浸會大學和香港大學研究助理教授。