NLP ——從0開(kāi)始快速上手百度 ERNIE
在解壓出的文件夾“task_data/chnsenticorp”中, 包含了三個(gè)文件“train.tsv”、“dev.tsv”、“test.tsv”,分別對(duì)應(yīng)ChnSentiCorp 數(shù)據(jù)的訓(xùn)練集、驗(yàn)證集和測(cè)試集,該任務(wù)是一個(gè)單句分類(lèi)任務(wù),數(shù)據(jù)包含兩個(gè)字段為“l(fā)abel”和“seg_a”,以“TAB”進(jìn)行分隔,示例如下:
seg_a label選擇珠江花園的原因就是方便,有電動(dòng)扶梯直接到達(dá)海邊,周?chē)宛^、食廊、商場(chǎng)、超市、攤位一應(yīng)俱全。酒店裝修一般,但還算整潔。泳池在大堂的屋頂,因此很小,不過(guò)女兒倒是喜歡。包的早餐是西式的,還算豐富。服務(wù)嗎,一般 115.4寸筆記本的鍵盤(pán)確實(shí)爽,基本跟臺(tái)式機(jī)差不多了,蠻喜歡數(shù)字小鍵盤(pán),輸數(shù)字特方便,樣子也很美觀,做工也相當(dāng)不錯(cuò) 1房間太小。其他的都一般。。。。。。。。。01.接電源沒(méi)有幾分鐘,電源適配器熱的不行. 2.?dāng)z像頭用不起來(lái). 3.機(jī)蓋的鋼琴漆,手不能摸,一摸一個(gè)。 4.硬盤(pán)分區(qū)不好辦. 0今天才知道這書(shū)還有第6卷,真有點(diǎn)郁悶:為什么同一套書(shū)有兩種版本呢?當(dāng)當(dāng)網(wǎng)是不是該跟出版社商量商量,單獨(dú)出個(gè)第6卷,讓我們的孩子不會(huì)有所遺憾。1機(jī)器背面似乎被撕了張什么標(biāo)簽,殘膠還在。但是又看不出是什么標(biāo)簽不見(jiàn)了,該有的都在,怪 0呵呵,雖然表皮看上去不錯(cuò)很精致,但是我還是能看得出來(lái)是盜的。但是里面的內(nèi)容真的不錯(cuò),我媽愛(ài)看,我自己也學(xué)著找一些穴位。0這本書(shū)實(shí)在是太爛了,以前聽(tīng)浙大的老師說(shuō)這本書(shū)怎么怎么不對(duì),哪些地方都是誤導(dǎo)的還不相信,終于買(mǎi)了一本看一下,發(fā)現(xiàn)真是~~~無(wú)語(yǔ),這種書(shū)都寫(xiě)得出來(lái) 0地理位置佳,在市中心。酒店服務(wù)好、早餐品種豐富。我住的商務(wù)數(shù)碼房電腦寬帶速度滿意,房間還算干凈,離湖南路小吃街近。12. 運(yùn)行Fine-tuning
運(yùn)行該腳本即可執(zhí)行Fine-tuning, 腳本會(huì)根據(jù)你指定的from_pretrained參數(shù)下載預(yù)訓(xùn)練模型,運(yùn)行最大步長(zhǎng)max_steps由樣本數(shù) * epoch數(shù) / 批大小算出。
!export CUDA_VISIBLE_DEVICES=0 !PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py --from_pretrained ernie-1.0 --data_dir ./chnsenticorp/ --epoch 10 --lr 5e-5 --bsz 32 --max_steps $((9600*10/32)) --save_dir ./tuned_model
執(zhí)行結(jié)束后輸出如下的在驗(yàn)證集和測(cè)試集上面的測(cè)試結(jié)果:
training: 250it [01:39, 2.96it/s]2020-05-15 17:52:21,377-DEBUG: train loss 0.00880 lr 3.585e-05training: 260it [01:43, 3.00it/s]2020-05-15 17:52:24,743-DEBUG: train loss 0.05025 lr 3.568e-05training: 270it [01:46, 3.00it/s]2020-05-15 17:52:28,108-DEBUG: train loss 0.06813 lr 3.552e-05training: 280it [01:49, 3.00it/s]2020-05-15 17:52:31,474-DEBUG: train loss 0.12881 lr 3.535e-05training: 290it [01:53, 3.00it/s]2020-05-15 17:52:34,840-DEBUG: train loss 0.06156 lr 3.518e-052020-05-15 17:52:42,877-DEBUG: acc 0.93250training: 10it [00:08, 1.88it/s]2020-05-15 17:52:46,317-DEBUG: train loss 0.00679 lr 3.485e-05training: 20it [00:11, 2.84it/s]2020-05-15 17:52:49,817-DEBUG: train loss 0.13993 lr 3.468e-05training: 30it [00:15, 2.89it/s]2020-05-15 17:52:53,297-DEBUG: train loss 0.02414 lr 3.452e-05
可以看到準(zhǔn)確率(acc)達(dá)到了0.95左右,與表1中的測(cè)評(píng)準(zhǔn)確率非常接近,說(shuō)明訓(xùn)練效果達(dá)到了良好水平。
3. 執(zhí)行推理
Fine-tuning 結(jié)束后,如果用戶希望使用模型運(yùn)行推理,可以修改上述命令行,并加入?yún)?shù)--eval進(jìn)入推理模式,從而利用保存在某個(gè)checkpoint (由--save_dir指定)的模型執(zhí)行推理。
!head ./chnsenticorp/dev/part.0|awk -F" " '{print $1}'| PYTHONPATH=./ERNIE python ./ERNIE/ernie/finetune_sementic_analysis_dygraph.py --from_pretrained ernie-1.0 --data_dir ./chnsenticorp/ --epoch 10 --lr 5e-5 --bsz 32 --eval --max_steps $((9600*10/32)) --save_dir ./tuned_model
輸入的預(yù)測(cè)數(shù)據(jù)由標(biāo)準(zhǔn)輸入管道灌入程序。修改完成后請(qǐng)?jiān)俅芜\(yùn)行腳本執(zhí)行推理。該命令指向的“chnsenticorp/dev/part.0”文件里的前10句話,程序?qū)?duì)這10句話進(jìn)行推理:
這間酒店環(huán)境和服務(wù)態(tài)度亦算不錯(cuò),但房間空間太小,不宣容納太大件行李,且房間格調(diào)還可以,中餐廳的廣東點(diǎn)心不太好吃,要改善之。但算價(jià)錢(qián)平宜,可接受。西餐廳格調(diào)都很好,但吃的味道一般且令人等得太耐了,要改善之。
<薦書(shū)> 推薦所有喜歡<紅樓>的紅迷們一定要收藏這本書(shū),要知道當(dāng)年我聽(tīng)說(shuō)這本書(shū)的時(shí)候花很長(zhǎng)時(shí)間去圖書(shū)館找和借都沒(méi)能如愿,所以這次一看到當(dāng)當(dāng)有,馬上買(mǎi)了,紅迷們也要記得備貨哦!
商品的不足暫時(shí)還沒(méi)發(fā)現(xiàn),京東的訂單處理速度實(shí)在……周二就打包完成,周五才發(fā)貨...
2001年來(lái)福州就住在這里,這次感覺(jué)房間就了點(diǎn),溫泉水還是有的.總的來(lái)說(shuō)很滿意.早餐簡(jiǎn)單了些。
不錯(cuò)的上網(wǎng)本,外形很漂亮,操作系統(tǒng)應(yīng)該是個(gè)很大的 賣(mài)點(diǎn),電池還可以。整體上講,作為一個(gè)上網(wǎng)本的定位,還是不錯(cuò)的。
房間地毯太臟,臨近火車(chē)站十分吵鬧,還好是雙層玻璃。服務(wù)一般,酒店門(mén)口的TAXI講是酒店的長(zhǎng)期合作關(guān)系,每月要交費(fèi)給酒店。從酒店到機(jī)場(chǎng)講得是打表147元,到了后非要200元,可能被小宰30-40元。
本來(lái)想沒(méi)事的時(shí)候翻翻,可惜看不下去,還是和張沒(méi)法比,他的書(shū)能暢銷(xiāo)大部分還是受張的影響,對(duì)這個(gè)男人實(shí)在是沒(méi)好感,不知道怎么買(mǎi)的,后悔。
這臺(tái)機(jī)外觀十分好,本人喜歡,性能不錯(cuò),是LED顯示屏,無(wú)線網(wǎng)卡是: 5100AGN 無(wú)線網(wǎng)卡,如果裝的是一條2G 800MHZ的內(nèi)存就無(wú)敵了,本本發(fā)熱很小,總體來(lái)說(shuō)是十分值得買(mǎi)的,前提是這臺(tái)機(jī)是4299買(mǎi)的。
全鍵盤(pán)帶數(shù)字鍵的 顯卡足夠強(qiáng)大.N卡相對(duì)A卡,個(gè)人偏向N卡 GHOST XP很容易.除了指紋識(shí)別外.所有驅(qū)動(dòng)都能裝齊全了,指紋識(shí)別,非要在XP下使用的朋友,可以用替代驅(qū)動(dòng).貢獻(xiàn)下驅(qū)動(dòng)地址: http://dlsvr01.a(chǎn)sus.com/pub/ASUS/nb/F9Dc/Fingerprints_XP_080530.zip (華碩官方地址,放心下吧)。
做工很漂亮,老婆很喜歡。T4200足夠了,性價(jià)比不錯(cuò)的機(jī)器。測(cè)試了一下很安逸。今天晚上準(zhǔn)備TWOW溜達(dá)圈,再看看整機(jī)表現(xiàn)如何!
其它分類(lèi)任務(wù)的運(yùn)行方式類(lèi)似。同時(shí) ERNIE 還支持閱讀理解、語(yǔ)義匹配、序列標(biāo)注等任務(wù),運(yùn)行方式可以參考 README 中 Fine-tuning 章節(jié)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市
- 8 “AI六小虎”到了下一個(gè)賽點(diǎn)
- 9 張勇等人退出阿里合伙人
- 10 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人