狠狠躁日日躁夜夜躁A片无码,中文字幕在线亚洲二区,最近更新中文字幕在线,四虎影视国产精品亚洲精品,男人扒开添女人下部免费视频

訂閱
糾錯(cuò)
加入自媒體

中科院計(jì)算所副研究員馮洋:神經(jīng)機(jī)器翻譯的訓(xùn)練改進(jìn)和解碼提速

訓(xùn)練

1. 計(jì)劃采樣

對(duì)上面提到的問(wèn)題進(jìn)行一個(gè)小總結(jié):訓(xùn)練預(yù)測(cè)過(guò)程中Ground Truth的未知導(dǎo)致的Exposure Bias 問(wèn)題交叉熵?fù)p失函數(shù)的逐詞匹配所導(dǎo)致對(duì)于所有的非Ground Truth 一視同仁的問(wèn)題。解碼Beam Search 的Beam Size 會(huì)引入大量的計(jì)算成本自回歸解碼導(dǎo)致的無(wú)法并行問(wèn)題。

首先,針對(duì)于Exposure Bias問(wèn)題,我們采用的是進(jìn)化采樣的方法,這個(gè)就是我們2019ACL Best Paper的工作。針對(duì)與訓(xùn)練和測(cè)試時(shí)context不一致的情況,我們的解決方法的主要思想是,在訓(xùn)練的時(shí)候模仿測(cè)試時(shí)候可能會(huì)碰到的情況,這樣在測(cè)試的時(shí)候就會(huì)發(fā)現(xiàn),當(dāng)前碰到的情況在訓(xùn)練的時(shí)候都碰到過(guò),這樣模型就可以應(yīng)對(duì)了。

具體的做法是我們?cè)诿恳徊,模擬上一步的翻譯結(jié)果,就是slides中的oracle,其中帶*的是就是Ground Truth,在每一步,我們都會(huì)隨機(jī)的選擇是Oracle還是Ground Truth來(lái)作為當(dāng)前步的上一步詞輸入。

使用上述方法,我們需要解決的三個(gè)關(guān)鍵問(wèn)題是:1)如何生成Oracle翻譯,2)Oracle和Ground Truth如何進(jìn)行采樣,3) 如何訓(xùn)練模型。

對(duì)于Oracle的生成,我們有兩種方法,一個(gè)是生成詞級(jí)別的Oracle,另一個(gè)是生成句級(jí)別的Oracle。詞級(jí)Oracle即每一步都會(huì)選擇最優(yōu),句子級(jí)別Oracle需要考慮到整個(gè)句子的最優(yōu)。

由于RNN Search會(huì)在生成oracle的算法中會(huì)用到。在講生成oracle的算法之前,先大體介紹一下RNN Search模型。RNN Search在當(dāng)前步翻譯的時(shí)候,會(huì)輸入歷史的隱狀態(tài)信息,同時(shí)也會(huì)將上一步翻譯的結(jié)果輸入進(jìn)去,經(jīng)過(guò)一系列的變換,會(huì)得到當(dāng)前步的一個(gè)隱狀態(tài),該隱狀態(tài)再經(jīng)過(guò)幾層全連接的計(jì)算,最終輸入到softmax層得到詞表中每一個(gè)詞的歸一化的分?jǐn)?shù)。

在生成詞級(jí)oracle的時(shí)候,我們會(huì)在softmax歸一化分布之前加上一個(gè)Gumble Noise。Gumble Noise 的公式如slides中所示,其中  表示一個(gè)均勻分布。式子中的 表示溫度,當(dāng)非常大的時(shí)候,相當(dāng)于argmax,當(dāng)  比較小的時(shí)候,相當(dāng)于均勻分布。

對(duì)于句級(jí)Oracle,我們首先采用Beam Search生成前K個(gè)候選譯文,然后對(duì)選定的K個(gè)候選譯文進(jìn)行排序,這里的排序可以根據(jù)K個(gè)候選譯文和Ground Truth計(jì)算一個(gè)BLUE值,還可以用一些其它的方法進(jìn)行排序,最終選取得分最高的譯文作為句級(jí)的Oracle。詞級(jí)Oracle和句級(jí)Oracle 是一個(gè)局部最優(yōu)和全局最優(yōu)的一個(gè)區(qū)別。

對(duì)于采樣,具體是怎么操作的呢?首先考慮到一點(diǎn)就是在剛開(kāi)始訓(xùn)練的時(shí)候,模型的效果不怎么好,這樣,無(wú)論是詞級(jí)oracle的生成還是句級(jí)oracle的生成效果肯定都不是很理想,如果這時(shí)候使用oracle來(lái)引導(dǎo)模型訓(xùn)練的話, 可能會(huì)使得模型收斂的比較慢。一個(gè)比較合理的做法是,剛開(kāi)始我們盡量選用Ground Truth的詞,當(dāng)模型快收斂的時(shí)候,我們?cè)偌哟驩racle翻譯的采樣比例。這里的采樣概率公式如slides所示,其中,隨著epoch的增長(zhǎng),系統(tǒng)越來(lái)越傾向于選擇oracle label。

對(duì)于訓(xùn)練的話,同樣的采用最大化log likelihood的方式。

實(shí)驗(yàn)結(jié)果:除了對(duì)比Transformer 和 RNN-Search,也對(duì)比了另外兩個(gè)系統(tǒng),SS-NMT 和 MIXER。其中,SS-NMT也是通過(guò)計(jì)劃采樣的方式。MIXER的loss分為兩個(gè)部分,一個(gè)部分是傳統(tǒng)的Transformer使用的交叉熵?fù)p失函數(shù),另外一部分是將BLEU值作為reward,然后通過(guò)policy gradient的方法對(duì)模型進(jìn)行訓(xùn)練。

這個(gè)是在中英文新聞數(shù)據(jù)上的結(jié)果,可以看到,在RNN-Search的系統(tǒng)上, 我們相比于Baseline能夠提升2.3個(gè)點(diǎn)。在Transformer系統(tǒng)上,相比于Baseline能夠提升1.5個(gè)點(diǎn)。

在英德新聞數(shù)據(jù)結(jié)果上,基于RNN-Search的系統(tǒng)比baseline高了1.6個(gè)點(diǎn),基于Transformer的系統(tǒng)比baseline高了1.3個(gè)點(diǎn)。

<上一頁(yè)  1  2  3  4  5  下一頁(yè)>  
聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)