99精品国产乱码久久久人妻,最近免费中文字幕大全免费

百度提出的持續(xù)學(xué)習(xí)語義理解框架RNIE基本原理簡析

2020-12-17 09:30

本文以通俗易懂的語言介紹了百度提出的持續(xù)學(xué)習(xí)語義理解框架 ERNIE 的基本原理，和利用 ERNIE 來解決下游 NLP 任務(wù)的過程。

一、簡介

人工智能這個古老而又年輕的學(xué)科，正在經(jīng)歷一場由深度學(xué)習(xí)引領(lǐng)的革命。深度學(xué)習(xí)最早在圖像和語音領(lǐng)域取得成功，人們發(fā)現(xiàn)在解決這兩個領(lǐng)域的問題時，各類基于神經(jīng)網(wǎng)絡(luò)的方法大大超越了其它傳統(tǒng)方法的效果。隨后這樣的變革也發(fā)生在了自然語言處理（NLP）領(lǐng)域。時至今日，人們在處理 NLP 任務(wù)時，例如詞法分析、語言模型、機器翻譯等，通常會選擇構(gòu)建各種神經(jīng)網(wǎng)絡(luò)來解決，這已形成了一種范式。不過，不同任務(wù)所適用的神經(jīng)網(wǎng)絡(luò)可能千差萬別，人們要把相當(dāng)大的精力放在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計或者選擇上來，這無疑增加了深度學(xué)習(xí)的使用成本。

近年來，語義表示（language representation）技術(shù)的發(fā)展，使得 “預(yù)訓(xùn)練－微調(diào)” 作為解決NLP任務(wù)的一種新的范式開始出現(xiàn)。一個通用的表示能力強的模型被選擇為語義表示模型，在預(yù)訓(xùn)練階段，用大量的語料和特定的任務(wù)訓(xùn)練該模型，使其編碼海量的語義知識；在微調(diào)階段，該模型會被加上不同的簡單輸出層用以解決下游的 NLP 任務(wù)。

早期較為著名的語義表示模型包括ELMo 和 GPT ，分別基于雙層雙向LSTM和Transformer Decoder框架，而真正讓語義表示技術(shù)大放異彩的是BERT （Bidirectional Encoder Representations from Transformers）的提出。BERT以Transformer Encoder為骨架，以屏蔽語言模型（Masked LM）和下一句預(yù)測（Next Sentence Prediction）這兩個無監(jiān)督預(yù)測任務(wù)作為預(yù)訓(xùn)練任務(wù)，用英文Wikipedia和Book Corpus的混合語料進行訓(xùn)練得到預(yù)訓(xùn)練模型。結(jié)合簡單的輸出層，BERT提出伊始就在11個下游NLP任務(wù)上取得了 SOTA（State of the Art）結(jié)果，即效果最佳，其中包括了自然語言理解任務(wù)GLUE和閱讀理解SQuAD。

可以看到，用語義表示模型解決特定的NLP任務(wù)是個相對簡單的過程。因此，語義表示模型的預(yù)訓(xùn)練階段就變得十分重要，具體來說，模型結(jié)構(gòu)的選取、訓(xùn)練數(shù)據(jù)以及訓(xùn)練方法等要素都會直接影響下游任務(wù)的效果。當(dāng)前的很多學(xué)術(shù)工作就是圍繞預(yù)訓(xùn)練階段而展開的，在BERT之后各種語義表示模型不斷地被提了出來。

ERNIE（Enhanced Representation through kNowledge IntEgration）是百度提出的語義表示模型，同樣基于Transformer Encoder。相較于BERT，其預(yù)訓(xùn)練過程利用了更豐富的語義知識和更多的語義任務(wù)，在多個NLP任務(wù)上取得了比BERT等模型更好的效果。

項目開源地址：https：／／github．com／PaddlePaddle／ERNIE

該項目包含了對預(yù)訓(xùn)練，以及常見下游 NLP 任務(wù)的支持，如分類、匹配、序列標(biāo)注和閱讀理解等。

二、基本原理Transformer Encoder

ERNIE 采用了 Transformer Encoder 作為其語義表示的骨架。Transformer 是由論文Attention is All You Need 首先提出的機器翻譯模型，在效果上比傳統(tǒng)的 RNN 機器翻譯模型更加優(yōu)秀。

Transformer 的簡要結(jié)構(gòu)如圖1所示，基于 Encoder－Decoder 框架，其主要結(jié)構(gòu)由 Attention（注意力）機制構(gòu)成：

Encoder 由全同的多層堆疊而成，每一層又包含了兩個子層：一個Self－Attention層和一個前饋神經(jīng)網(wǎng)絡(luò)。Self－Attention 層主要用來輸入語料之間各個詞之間的關(guān)系（例如搭配關(guān)系），其外在體現(xiàn)為詞匯間的權(quán)重，此外還可以幫助模型學(xué)到句法、語法之類的依賴關(guān)系的能力。

Decoder 也由全同的多層堆疊而成，每一層同樣包含了兩個子層。在 Encoder 和 Decoder 之間還有一個Encoder－Decoder Attention層。Encoder－Decoder Attention層的輸入來自于兩部分，一部分是 Encoder 的輸出，它可以幫助解碼器關(guān)注輸入序列哪些位置值得關(guān)注。另一部分是 Decoder 已經(jīng)解碼出來的結(jié)果再次經(jīng)過Decoder的Self－Attention層處理后的輸出，它可以幫助解碼器在解碼時把已翻譯的內(nèi)容中值得關(guān)注的部分考慮進來。例如：將“read a book”翻譯成中文，我們把“book”之所以翻譯成了“書”而沒有翻譯成“預(yù)定”就是因為前面Read這個讀的動作。

在解碼過程中 Decoder 每一個時間步都會輸出一個實數(shù)向量，經(jīng)過一個簡單的全連接層后會映射到一個詞典大小、被稱作對數(shù)幾率（logits）的向量，再經(jīng)過 softmax 歸一化之后得到當(dāng)前時間步各個詞出現(xiàn)的概率分布。

圖 1 Transformer 的簡要結(jié)構(gòu)圖

Transformer 在機器翻譯任務(wù)上面證明了其超過 LSTM／GRU 的卓越表示能力。從 RNN 到 Transformer，模型的表示能力在不斷的增強，語義表示模型的骨架也經(jīng)歷了這樣的一個演變過程。

如圖2所示，該圖為BERT、GPT 與 ELMo的結(jié)構(gòu)示意圖，可以看到 ELMo 使用的就是 LSTM 結(jié)構(gòu)，接著 GPT 使用了 Transformer Decoder。進一步 BERT 采用了 Transformer Encoder，從理論上講其相對于 Decoder 有著更強的語義表示能力，因為Encoder接受雙向輸入，可同時編碼一個詞的上下文信息。最后在NLP任務(wù)的實際應(yīng)用中也證明了Encoder的有效性，因此ERNIE也采用了Transformer Encoder架構(gòu)。