將先驗知識納入話者分離和連結中，以識別共同的發言者

十月 5， 2022

演講者 Diarization 和 Linking 可在沒有任何演講者註冊的情況下跨錄音發現“誰在何時發言”。對每個錄音分別執行二值化，並且連結將不同錄音中同一揚聲器的集群組合在一起。這是一種兩步法，但是它遭受了將誤差從二化步驟傳播到連結步驟的困擾。在給定的錄音集中出現一個獨特的說話者的情況下，本文旨在利用他或她存在的先驗知識來定位共同的說話者。這意味著沒有此常見揚聲器的註冊數據。我們提出了成對公共說話人識別（PCSI）方法，該方法與兩步法相比，考慮了共同說話人的存在。我們進一步表明，PCSI可用於減少兩步法的二化步驟中引入的誤差。我們的實驗是在從AMI語料庫合成的語料庫上進行的，也是在與普通話混合的內部會話電話四川語語料庫上進行的。與最先進的x向量二元化和鏈接系統相比，時間加權相等錯誤率的相對改進高達7.68%。

林潤生博士

首席科學家兼首席技術官

工程學士（2005），博士（2010），香港大學。IEEE高級會員。裘槎研究員。香港大學EEE兼職助理教授。加州大學伯克利分校博士後。浸會大學和香港大學研究助理教授。

將先驗知識納入話者分離和連結中，以識別共同的發言者

林潤生博士

最新文章

宣佈我們的 ISO27001：2022 資訊安全認證

FANOVATION 2023 匯聚 80多名高管參與生成式AI討論

將先驗知識納入話者分離和連結中，以識別共同的發言者

林潤生博士

最新文章

宣佈我們的 ISO27001：2022 資訊安全認證

FANOVATION 2023 匯聚 80多名高管 參與生成式AI討論

FANOVATION 2023 匯聚 80多名高管參與生成式AI討論