搜尋引擎引導的非參數化神經機器翻譯

搜尋引擎引導的非參數化神經機器翻譯
李安國教授
十月 5, 2022
研究

在本文中,我們擴展了基於注意力的神經機器翻譯(NMT)模型,允許它即使在訓練后也能訪問整個並行句子對的訓練集。擬議的方法包括兩個階段。在第一階段 - 檢索階段--,一個現成的黑盒搜尋引擎用於從給定源句子的訓練集中檢索句子對的一小部分。這些對基於編輯距離的模糊匹配分數進一步過濾。在第二階段 - 翻譯階段--,一種稱為翻譯記憶庫增強型NMT(TM-NMT)的新型翻譯模型,無縫地使用源句子和一組檢索到的句子對來執行翻譯。對三個語言對(En-Fr,En-De和En-Es)的實證評估表明,所提出的方法明顯優於基線方法,並且當檢索到更相關的句子對時,改進更為顯著。

搜尋引擎引導的非參數化神經機器翻譯

麻省理工學院學士、碩士、博士;香港大學電子工程系首席教授;清華大學長江學者、客座教授;IEEE院士,香港工程科學院院士;香港特別行政區銅紫荊勳章獲得者。