適用於極低資源語言的通用神經機器翻譯

適用於極低資源語言的通用神經機器翻譯
李安國教授
十月 5, 2022
研究

在本文中,我們提出了一種新的通用機器翻譯方法,專注於並行數據量有限的語言。我們提出的方法利用遷移學習方法,將多種源語言的詞法和句子級表示形式共用為一種目標語言。詞法部分通過通用詞法表示共用,以支援多語言單詞級共用。句子級共用由來自所有源語言的專家模型表示,這些源語言與所有其他語言共用源編碼器。這使得低資源語言能夠利用高資源語言的詞法和句子表示。我們的方法能夠使用6k句子的小型並行語料庫在羅馬尼亞語 - 英語WMT2016上實現23 BLEU,而使用多語言培訓和反向翻譯的強大基線系統的18 BLEU。此外,我們表明,通過在零次設置下微調預先訓練的多語言系統,所提出的方法可以在同一數據集上實現近20 BLEU。

適用於極低資源語言的通用神經機器翻譯

麻省理工學院學士、碩士、博士;香港大學電子工程系首席教授;清華大學長江學者、客座教授;IEEE院士,香港工程科學院院士;香港特別行政區銅紫荊勳章獲得者。