FANOVATION 2023 匯聚 80多名高管 參與生成式AI討論
2023年10月31日
演講者 Diarization 和 Linking 可在沒有任何演講者註冊的情況下跨錄音發現“誰在何時發言”。對每個錄音分別執行二值化,並且連結將不同錄音中同一揚聲器的集群組合在一起。這是一種兩步法,但是它遭受了將誤差從二化步驟傳播到連結步驟的困擾。在給定的錄音集中出現一個獨特的說話者的情況下,本文旨在利用他或她存在的先驗知識來定位共同的說話者。這意味著沒有此常見揚聲器的註冊數據。我們提出了成對公共說話人識別(PCSI)方法,該方法與兩步法相比,考慮了共同說話人的存在。我們進一步表明,PCSI可用於減少兩步法的二化步驟中引入的誤差。我們的實驗是在從AMI語料庫合成的語料庫上進行的,也是在與普通話混合的內部會話電話四川語語料庫上進行的。與最先進的x向量二元化和鏈接系統相比,時間加權相等錯誤率的相對改進高達7.68%。