深蘭科技多條推理任務(wù)解決方案分享
2021年6月6日-11日,自然語(yǔ)言處理(NLP)領(lǐng)域的頂級(jí)會(huì)議NAACL在線上舉辦。深蘭科技DeepBlueAI團(tuán)隊(duì)參加了Multi-Hop Inference Explanation Regeneration (TextGraphs-15) 共享任務(wù)比賽,并獲得了第一,該方案多用于科學(xué)知識(shí)問(wèn)答等領(lǐng)域。同賽道競(jìng)技的還有騰訊、哈爾濱工業(yè)大學(xué)組成的團(tuán)隊(duì)以及新加坡科技設(shè)計(jì)大學(xué)團(tuán)隊(duì)等。
圖1 成績(jī)排名
NAACL全稱(chēng)為 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,與ACL、EMNLP并稱(chēng)NLP領(lǐng)域的三大頂會(huì)。
冠軍方案分享
任務(wù)介紹
多條推理(Multi-Hop Inference)任務(wù)是結(jié)合多條信息去解決推理任務(wù),如可以從書(shū)中或者網(wǎng)絡(luò)上選擇有用的句子,或者集合一些知識(shí)庫(kù)的知識(shí)去回答他人提出的問(wèn)題。如下圖所示,如需回答當(dāng)前問(wèn)題,要結(jié)合圖中所示三種信息才能完成推理,得到正確的答案。而解釋再生(Explanation Regeneration)任務(wù)是多條推理任務(wù)的基礎(chǔ),其目的是構(gòu)建科學(xué)問(wèn)題的解釋?zhuān)總(gè)解釋都表示為一個(gè)“解釋圖”,一組原子事實(shí)(每個(gè)解釋包含1-16個(gè),從9000個(gè)事實(shí)的知識(shí)庫(kù)中提。,它們一起構(gòu)成了對(duì)回答和解釋問(wèn)題進(jìn)行推理解析的詳細(xì)解釋。
圖2 任務(wù)示例
對(duì)于當(dāng)前任務(wù),舉辦方將其定義為一個(gè)排序任務(wù),輸入的是問(wèn)題及其對(duì)應(yīng)的正確答案,要求系統(tǒng)能夠?qū)μ峁┑陌虢Y(jié)構(gòu)化知識(shí)庫(kù)中的原子事實(shí)解釋進(jìn)行排序,以便排名靠前的原子事實(shí)解釋能夠?yàn)榇鸢柑峁└釉敿?xì)和確切的說(shuō)明。
數(shù) 據(jù)
此共享任務(wù)中使用的數(shù)據(jù)包含從 AI2 推理挑戰(zhàn) (ARC) 數(shù)據(jù)集中提取的大約 5,100 道科學(xué)考試題,以及從 WorldTree V2.1[2] 解釋中提取的正確答案的事實(shí)解釋語(yǔ)料庫(kù),并在此基礎(chǔ)上增加了專(zhuān)家生成的相關(guān)性評(píng)級(jí)。支持這些問(wèn)題及其解釋的知識(shí)庫(kù)包含大約 9,000 個(gè)事實(shí),知識(shí)庫(kù)既可以作為純文本句子(非結(jié)構(gòu)化)也可以作為半結(jié)構(gòu)化表格使用。
方 案
該任務(wù)為一個(gè)排序任務(wù),具體表現(xiàn)為給定問(wèn)題和答案,將知識(shí)庫(kù)中的9,000個(gè)原子事實(shí)解釋進(jìn)行排序,評(píng)價(jià)方式為NDCG。方案主要由召回和排序兩部分組成,第一步先召回Top-K(k> 100)個(gè)解釋?zhuān)诙綄?duì)召回的Top-K個(gè)解釋進(jìn)行排序。針對(duì)召回和排序任務(wù),如果直接采用 Interaction-Based(交互型,即問(wèn)題文本和事實(shí)解釋在模型中存在信息交互) 類(lèi)型的網(wǎng)絡(luò),計(jì)算量將巨大,因此交互型網(wǎng)絡(luò)在當(dāng)前的任務(wù)中無(wú)法使用,團(tuán)隊(duì)最終采用了向量化檢索的方式進(jìn)行排序。
為了提取更深的語(yǔ)義信息生成比較好的特征向量,團(tuán)隊(duì)沒(méi)有采用TF-IDF、BM25、DSSM[3]等常用的排序模型,而是采用了當(dāng)前比較流行的預(yù)訓(xùn)練模型作為特征提取器,結(jié)合Triplet loss[4]訓(xùn)練了一個(gè)Triplet Network來(lái)完成向量化排序,其中在召回部分和排序部分均采用Triplet Network。
圖3 Triplet loss
Triplet loss如圖3所示,輸入樣本對(duì)是一個(gè)三元組,這個(gè)三元組
由一個(gè)錨點(diǎn)樣本
,一個(gè)正樣本
,一個(gè)負(fù)樣本組成
。其目標(biāo)是錨點(diǎn)樣本與負(fù)樣本之間的距離
與錨點(diǎn)樣本和正樣本之間的距離
之差大于一個(gè)閾值m ,可以表示為:
。
對(duì)于簡(jiǎn)單容易學(xué)習(xí)的樣本
,對(duì)比于正樣本來(lái)說(shuō),負(fù)樣本和錨點(diǎn)樣本已經(jīng)有足夠的距離了(即是大于m ),此時(shí)loss為0,網(wǎng)絡(luò)參數(shù)將不會(huì)繼續(xù)更新,對(duì)于其他樣本loss>0 網(wǎng)絡(luò)參數(shù)可以正常更新。
模 型
針對(duì)當(dāng)前任務(wù),如下圖所示,錨點(diǎn)(Anchor)樣本為問(wèn)題和答案連接的文本,正樣本(Positive)為問(wèn)題對(duì)應(yīng)的解釋文本,負(fù)樣本(Negative)為其他隨機(jī)選擇與正樣本不同的解釋文本,其中他們?nèi)齻(gè)輸入共享一套預(yù)訓(xùn)練語(yǔ)言模型(Pre-trained language model :PLM)參數(shù)。訓(xùn)練時(shí)將上述三個(gè)文本輸入到PLM模型中,選取PLM模型的所有Token 向量平均作為輸出,將三個(gè)輸入向量經(jīng)過(guò)Triplet Loss 得到損失值完成模型的訓(xùn)練。
圖4 模型圖
負(fù) 采 樣
為了更好地訓(xùn)練模型,團(tuán)隊(duì)在召回階段采用了三種不同的負(fù)采樣方式:
全局隨機(jī)負(fù)采樣,即在9,000個(gè)解釋文本中隨機(jī)選取一個(gè)不是正樣本的樣本作為負(fù)樣本;
Batch內(nèi)負(fù)采樣,即在當(dāng)前Batch內(nèi)選取其他問(wèn)題的對(duì)應(yīng)的解釋正樣本,作為當(dāng)前問(wèn)題的負(fù)樣本;
相近樣本負(fù)采樣,在同一個(gè)表中隨機(jī)選取一個(gè)樣本作為負(fù)樣本,因?yàn)橥粋(gè)表中的樣本比較相近。
在排序階段同樣采取了三種不同的負(fù)采樣方式:
Top-K 隨機(jī)負(fù)采樣,即在在召回的Top-K個(gè)樣本中隨機(jī)選取一個(gè)負(fù)樣本;
Batch內(nèi)負(fù)采樣,和召回階段相同;
Top-N 隨機(jī)負(fù)采樣,為了強(qiáng)化前面一些樣本的排序效果,增大了前面N個(gè)樣本的采樣概率(N遠(yuǎn)遠(yuǎn)小于K)。
實(shí) 驗(yàn)
團(tuán)隊(duì)采用了兩種預(yù)訓(xùn)練模型RoBERTa[5] 和ERNIE 2.0[6],并將兩個(gè)模型的預(yù)測(cè)結(jié)果進(jìn)行了融合。在召回和排序階段,采用了同樣的參數(shù),主要參數(shù)如采用三種負(fù)采樣方式,每種負(fù)采樣方式選取16個(gè)樣本,最終的batch size為48,epoch為15。同時(shí),使用了Adam優(yōu)化器并采用了學(xué)習(xí)率衰減策略,從1e-5衰減到0。
團(tuán)隊(duì)分別評(píng)測(cè)了NDCG @100、NDCG @500、NDCG @1000、NDCG @2000的結(jié)果,最終效果如下表所示,其中Baseline為T(mén)FIDF模型、Recall為召回階段、Re-ranker為針對(duì)召回的結(jié)果重新排序的結(jié)果。從表中可以看出基于預(yù)訓(xùn)練模型的方法對(duì)比Baseline有著很大的提升,同時(shí)重排也有著顯著的提升,同時(shí)從排行榜中可以看出DeepBlueAI團(tuán)隊(duì)的模型對(duì)比他人也有著較大的領(lǐng)先。
Table 1 The final results compared with different models
參考文獻(xiàn)
[1] Clark P, Cowhey I, Etzioni O, et al. Think you have solved question answering? try arc, the ai2 reasoning challenge[J]. arXiv preprint arXiv:1803.05457, 2018.
[2] Xie Z, Thiem S, Martin J, et al. Worldtree v2: A corpus of science-domain structured explanations and inference patterns supporting multi-h(huán)op inference[C]//Proceedings of The 12th Language Resources and Evaluation Conference. 2020: 5456-5473.
[3] Huang, Po-Sen, et al. "Learning deep structured semantic models for web search using clickthrough data." *Proceedings of the 22nd ACM international conference on Information & Knowledge Management*. 2013.
[4] Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." *Proceedings of the IEEE conference on computer vision and pattern recognition*. 2015.
[5] Liu Y, Ott M, Goyal N, et al. Roberta: A robustly optimized bert pretraining approach[J]. arXiv preprint arXiv:1907.11692, 2019.
[6] Sun Y, Wang S, Li Y, et al. Ernie 2.0: A continual pre-training framework for language understanding[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2020, 34(05): 8968-8975.

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市
- 7 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 張勇等人退出阿里合伙人
- 10 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人