最近高清中文在线国语字幕,最近中文字幕mv免费高清在线,国产久久久

深蘭科技多條推理任務(wù)解決方案分享

2021-06-09 10:44

2021年6月6日－11日，自然語(yǔ)言處理（NLP）領(lǐng)域的頂級(jí)會(huì)議NAACL在線上舉辦。深蘭科技DeepBlueAI團(tuán)隊(duì)參加了Multi－Hop Inference Explanation Regeneration （TextGraphs－15）共享任務(wù)比賽，并獲得了第一，該方案多用于科學(xué)知識(shí)問(wèn)答等領(lǐng)域。同賽道競(jìng)技的還有騰訊、哈爾濱工業(yè)大學(xué)組成的團(tuán)隊(duì)以及新加坡科技設(shè)計(jì)大學(xué)團(tuán)隊(duì)等。

圖1 成績(jī)排名

NAACL全稱(chēng)為 Annual Conference of the North American Chapter of the Association for Computational Linguistics： Human Language Technologies，與ACL、EMNLP并稱(chēng)NLP領(lǐng)域的三大頂會(huì)。

冠軍方案分享

任務(wù)介紹

多條推理（Multi－Hop Inference）任務(wù)是結(jié)合多條信息去解決推理任務(wù)，如可以從書(shū)中或者網(wǎng)絡(luò)上選擇有用的句子，或者集合一些知識(shí)庫(kù)的知識(shí)去回答他人提出的問(wèn)題。如下圖所示，如需回答當(dāng)前問(wèn)題，要結(jié)合圖中所示三種信息才能完成推理，得到正確的答案。而解釋再生（Explanation Regeneration）任務(wù)是多條推理任務(wù)的基礎(chǔ)，其目的是構(gòu)建科學(xué)問(wèn)題的解釋?zhuān)總€(gè)解釋都表示為一個(gè)“解釋圖”，一組原子事實(shí)（每個(gè)解釋包含1－16個(gè)，從9000個(gè)事實(shí)的知識(shí)庫(kù)中提�。�，它們一起構(gòu)成了對(duì)回答和解釋問(wèn)題進(jìn)行推理解析的詳細(xì)解釋。

圖2 任務(wù)示例

對(duì)于當(dāng)前任務(wù)，舉辦方將其定義為一個(gè)排序任務(wù)，輸入的是問(wèn)題及其對(duì)應(yīng)的正確答案，要求系統(tǒng)能夠?qū)μ峁┑陌虢Y(jié)構(gòu)化知識(shí)庫(kù)中的原子事實(shí)解釋進(jìn)行排序，以便排名靠前的原子事實(shí)解釋能夠?yàn)榇鸢柑峁└釉敿?xì)和確切的說(shuō)明。

數(shù) 據(jù)

此共享任務(wù)中使用的數(shù)據(jù)包含從 AI2 推理挑戰(zhàn) （ARC）數(shù)據(jù)集中提取的大約 5，100 道科學(xué)考試題，以及從 WorldTree V2．1［2］解釋中提取的正確答案的事實(shí)解釋語(yǔ)料庫(kù)，并在此基礎(chǔ)上增加了專(zhuān)家生成的相關(guān)性評(píng)級(jí)。支持這些問(wèn)題及其解釋的知識(shí)庫(kù)包含大約 9，000 個(gè)事實(shí)，知識(shí)庫(kù)既可以作為純文本句子（非結(jié)構(gòu)化）也可以作為半結(jié)構(gòu)化表格使用。

方案

該任務(wù)為一個(gè)排序任務(wù)，具體表現(xiàn)為給定問(wèn)題和答案，將知識(shí)庫(kù)中的9，000個(gè)原子事實(shí)解釋進(jìn)行排序，評(píng)價(jià)方式為NDCG。方案主要由召回和排序兩部分組成，第一步先召回Top－K（k＞ 100）個(gè)解釋?zhuān)诙綄?duì)召回的Top－K個(gè)解釋進(jìn)行排序。針對(duì)召回和排序任務(wù)，如果直接采用 Interaction－Based（交互型，即問(wèn)題文本和事實(shí)解釋在模型中存在信息交互）類(lèi)型的網(wǎng)絡(luò)，計(jì)算量將巨大，因此交互型網(wǎng)絡(luò)在當(dāng)前的任務(wù)中無(wú)法使用，團(tuán)隊(duì)最終采用了向量化檢索的方式進(jìn)行排序。

為了提取更深的語(yǔ)義信息生成比較好的特征向量，團(tuán)隊(duì)沒(méi)有采用TF－IDF、BM25、DSSM［3］等常用的排序模型，而是采用了當(dāng)前比較流行的預(yù)訓(xùn)練模型作為特征提取器，結(jié)合Triplet loss［4］訓(xùn)練了一個(gè)Triplet Network來(lái)完成向量化排序，其中在召回部分和排序部分均采用Triplet Network。

圖3 Triplet loss

Triplet loss如圖3所示，輸入樣本對(duì)是一個(gè)三元組，這個(gè)三元組

由一個(gè)錨點(diǎn)樣本

，一個(gè)正樣本

，一個(gè)負(fù)樣本組成

。其目標(biāo)是錨點(diǎn)樣本與負(fù)樣本之間的距離

與錨點(diǎn)樣本和正樣本之間的距離

之差大于一個(gè)閾值m ，可以表示為：

。

對(duì)于簡(jiǎn)單容易學(xué)習(xí)的樣本

，對(duì)比于正樣本來(lái)說(shuō)，負(fù)樣本和錨點(diǎn)樣本已經(jīng)有足夠的距離了（即是大于m ），此時(shí)loss為0，網(wǎng)絡(luò)參數(shù)將不會(huì)繼續(xù)更新，對(duì)于其他樣本loss＞0 網(wǎng)絡(luò)參數(shù)可以正常更新。

模型

針對(duì)當(dāng)前任務(wù)，如下圖所示，錨點(diǎn)（Anchor）樣本為問(wèn)題和答案連接的文本，正樣本（Positive）為問(wèn)題對(duì)應(yīng)的解釋文本，負(fù)樣本（Negative）為其他隨機(jī)選擇與正樣本不同的解釋文本，其中他們?nèi)齻€(gè)輸入共享一套預(yù)訓(xùn)練語(yǔ)言模型（Pre－trained language model ：PLM）參數(shù)。訓(xùn)練時(shí)將上述三個(gè)文本輸入到PLM模型中，選取PLM模型的所有Token 向量平均作為輸出，將三個(gè)輸入向量經(jīng)過(guò)Triplet Loss 得到損失值完成模型的訓(xùn)練。

圖4 模型圖

負(fù) 采樣

為了更好地訓(xùn)練模型，團(tuán)隊(duì)在召回階段采用了三種不同的負(fù)采樣方式：

全局隨機(jī)負(fù)采樣，即在9，000個(gè)解釋文本中隨機(jī)選取一個(gè)不是正樣本的樣本作為負(fù)樣本；

Batch內(nèi)負(fù)采樣，即在當(dāng)前Batch內(nèi)選取其他問(wèn)題的對(duì)應(yīng)的解釋正樣本，作為當(dāng)前問(wèn)題的負(fù)樣本；

相近樣本負(fù)采樣，在同一個(gè)表中隨機(jī)選取一個(gè)樣本作為負(fù)樣本，因?yàn)橥粋€(gè)表中的樣本比較相近。

在排序階段同樣采取了三種不同的負(fù)采樣方式：

Top－K 隨機(jī)負(fù)采樣，即在在召回的Top－K個(gè)樣本中隨機(jī)選取一個(gè)負(fù)樣本；

Batch內(nèi)負(fù)采樣，和召回階段相同；

Top－N 隨機(jī)負(fù)采樣，為了強(qiáng)化前面一些樣本的排序效果，增大了前面N個(gè)樣本的采樣概率（N遠(yuǎn)遠(yuǎn)小于K）。

實(shí) 驗(yàn)

團(tuán)隊(duì)采用了兩種預(yù)訓(xùn)練模型RoBERTa［5］和ERNIE 2．0［6］，并將兩個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行了融合。在召回和排序階段，采用了同樣的參數(shù)，主要參數(shù)如采用三種負(fù)采樣方式，每種負(fù)采樣方式選取16個(gè)樣本，最終的batch size為48，epoch為15。同時(shí)，使用了Adam優(yōu)化器并采用了學(xué)習(xí)率衰減策略，從1e－5衰減到0。

團(tuán)隊(duì)分別評(píng)測(cè)了NDCG ＠100、NDCG ＠500、NDCG ＠1000、NDCG ＠2000的結(jié)果，最終效果如下表所示，其中Baseline為T(mén)FIDF模型、Recall為召回階段、Re－ranker為針對(duì)召回的結(jié)果重新排序的結(jié)果。從表中可以看出基于預(yù)訓(xùn)練模型的方法對(duì)比Baseline有著很大的提升，同時(shí)重排也有著顯著的提升，同時(shí)從排行榜中可以看出DeepBlueAI團(tuán)隊(duì)的模型對(duì)比他人也有著較大的領(lǐng)先。

Table 1 The final results compared with different models

參考文獻(xiàn)

［1］ Clark P， Cowhey I， Etzioni O， et al． Think you have solved question answering？ try arc， the ai2 reasoning challenge［J］． arXiv preprint arXiv：1803．05457， 2018．

［2］ Xie Z， Thiem S， Martin J， et al． Worldtree v2： A corpus of science－domain structured explanations and inference patterns supporting multi－h(huán)op inference［C］／／Proceedings of The 12th Language Resources and Evaluation Conference． 2020： 5456－5473．

［3］ Huang， Po－Sen， et al．＂Learning deep structured semantic models for web search using clickthrough data．＂＊Proceedings of the 22nd ACM international conference on Information ＆ Knowledge Management＊． 2013．

［4］ Schroff， Florian， Dmitry Kalenichenko， and James Philbin．＂Facenet： A unified embedding for face recognition and clustering．＂＊Proceedings of the IEEE conference on computer vision and pattern recognition＊． 2015．

［5］ Liu Y， Ott M， Goyal N， et al． Roberta： A robustly optimized bert pretraining approach［J］． arXiv preprint arXiv：1907．11692， 2019．

［6］ Sun Y， Wang S， Li Y， et al． Ernie 2．0： A continual pre－training framework for language understanding［C］／／Proceedings of the AAAI Conference on Artificial Intelligence． 2020， 34（05）： 8968－8975．

深蘭科技自然語(yǔ)言處理騰訊哈爾濱工業(yè)大學(xué)