用於神經機器翻譯的可訓練貪婪解碼

用於神經機器翻譯的可訓練貪婪解碼
李安國教授
十月 5, 2022
研究

最近對神經機器翻譯的研究主要集中在兩個方面;神經網路架構和端到端學習演算法。然而,解碼問題在研究界受到的關注相對較少。在本文中,我們僅關注給定訓練神經機器翻譯模型的解碼問題。我們沒有嘗試為任何特定的解碼目標構建新的解碼演算法,而是提出了可訓練解碼演算法的想法,在這種演算法中,我們訓練解碼演算法以找到最大化任意解碼目標的翻譯。更具體地說,我們設計了一個觀察和操縱神經機器翻譯解碼器隱藏狀態的參與者,並建議使用確定性策略梯度的變體來訓練它。我們使用四個語言對和兩個解碼目標對所提出的演算法進行了廣泛的評估,並表明我們確實可以訓練一個可訓練的貪婪解碼器,以最小的計算開銷生成更好的翻譯(就目標解碼目標而言)。

用於神經機器翻譯的可訓練貪婪解碼

麻省理工學院學士、碩士、博士;香港大學電子工程系首席教授;清華大學長江學者、客座教授;IEEE院士,香港工程科學院院士;香港特別行政區銅紫荊勳章獲得者。