FANOVATION 2023 匯聚 80多名高管 參與生成式AI討論
2023年10月31日
在本文中,我們提出了一種新的通用機器翻譯方法,專注於並行數據量有限的語言。我們提出的方法利用遷移學習方法,將多種源語言的詞法和句子級表示形式共用為一種目標語言。詞法部分通過通用詞法表示共用,以支援多語言單詞級共用。句子級共用由來自所有源語言的專家模型表示,這些源語言與所有其他語言共用源編碼器。這使得低資源語言能夠利用高資源語言的詞法和句子表示。我們的方法能夠使用6k句子的小型並行語料庫在羅馬尼亞語 - 英語WMT2016上實現23 BLEU,而使用多語言培訓和反向翻譯的強大基線系統的18 BLEU。此外,我們表明,通過在零次設置下微調預先訓練的多語言系統,所提出的方法可以在同一數據集上實現近20 BLEU。