非自回歸神經機器翻譯

非自回歸神經機器翻譯
李安國教授
十月 5, 2022
研究

現有的神經機器翻譯方法將每個輸出字都放在以前生成的輸出上。我們引入了一個模型,該模型避免了這種自回歸屬性,並並行生成其輸出,從而在推理過程中允許延遲降低一個數量級。通過知識提煉,使用輸入令牌肥力作為潛在變數,以及政策梯度微調,相對於用作教師的自回歸變壓器網路,我們以低至2.0 BLEU點的成本實現這一目標。我們展示了與培訓策略的三個方面相關的實質性累積改進,並驗證了我們在IWSLT 2016英語 - 德語和兩個WMT語言對上的方法。通過在推理時間並行採樣肥沃,我們的非自回歸模型在WMT 2016英語 - 羅馬尼亞語上實現了29.8 BLEU的近一流性能。

非自回歸神經機器翻譯

麻省理工學院學士、碩士、博士;香港大學電子工程系首席教授;清華大學長江學者、客座教授;IEEE院士,香港工程科學院院士;香港特別行政區銅紫荊勳章獲得者。