FANOVATION 2023 匯聚 80多名高管 參與生成式AI討論
2023年10月31日
最近對神經機器翻譯的研究主要集中在兩個方面;神經網路架構和端到端學習演算法。然而,解碼問題在研究界受到的關注相對較少。在本文中,我們僅關注給定訓練神經機器翻譯模型的解碼問題。我們沒有嘗試為任何特定的解碼目標構建新的解碼演算法,而是提出了可訓練解碼演算法的想法,在這種演算法中,我們訓練解碼演算法以找到最大化任意解碼目標的翻譯。更具體地說,我們設計了一個觀察和操縱神經機器翻譯解碼器隱藏狀態的參與者,並建議使用確定性策略梯度的變體來訓練它。我們使用四個語言對和兩個解碼目標對所提出的演算法進行了廣泛的評估,並表明我們確實可以訓練一個可訓練的貪婪解碼器,以最小的計算開銷生成更好的翻譯(就目標解碼目標而言)。