先锋ady69xfplay色资源网站 ,男人格久久,日本在线一区二区三区欧美

機(jī)器也能看圖說(shuō)話(huà)

2020-06-22 10:48

基于 Image Captioning 的 VQA（視覺(jué)問(wèn)答）

Image Captioning是實(shí)現(xiàn)視覺(jué)認(rèn)知的一個(gè)重要方面，現(xiàn)在基于上文提及的谷歌提出的Image Captioning模型來(lái)構(gòu)造對(duì)場(chǎng)景的理解，并進(jìn)行問(wèn)答。

問(wèn)題：地面上覆蓋著什么？

模型回答：積雪

問(wèn)題：地面上覆蓋著什么？模型回答：積雪情況變得不那么樂(lè)觀了

深度學(xué)習(xí)系統(tǒng)，例如用于VQA的系統(tǒng)，可能會(huì)發(fā)展出類(lèi)似的“作弊”方法，表面上似乎“解決了”任務(wù)，而無(wú)需學(xué)習(xí)潛在的推理過(guò)程。例如，模型可以正確回答“地面覆蓋著什么？”這個(gè)問(wèn)題，不是因?yàn)樗斫饬藞?chǎng)景，而是因?yàn)橛衅畹臄?shù)據(jù)集經(jīng)常在積雪時(shí)提出有關(guān)地面的問(wèn)題。我們?cè)鯓硬拍艽_定一個(gè)系統(tǒng)是否能夠進(jìn)行復(fù)雜的推理而不僅僅是利用數(shù)據(jù)的偏差？模型即使給出了正確的回答，我們?nèi)匀灰鞔_重要一點(diǎn)：這個(gè)正確答案是模型真正通過(guò)一步一步推理得到的，還是通過(guò)對(duì)圖像和問(wèn)題的膚淺理解，利用數(shù)據(jù)集偏差，得到的統(tǒng)計(jì)結(jié)果。因此就需要在圖像感知基礎(chǔ)上進(jìn)行理解、推理、認(rèn)知，并構(gòu)建數(shù)據(jù)集。

Visual Genome（視覺(jué)基因組）

這是斯坦福李飛飛團(tuán)隊(duì)構(gòu)建的數(shù)據(jù)集，它就是嘗試解決這樣的問(wèn)題。

現(xiàn)有模型能夠檢測(cè)照片中的離散對(duì)象（人或物）；但無(wú)法解釋它們之間的交互（interactions）或它們之間的關(guān)系；大多數(shù)模型停留在感知智能階段；對(duì)視覺(jué)世界的推理與認(rèn)知理解要求計(jì)算機(jī)不僅具有檢測(cè)對(duì)象的能力，還要具有描述這些對(duì)象的能力，并理解它們?cè)趫?chǎng)景中的相互作用。

采用自然語(yǔ)言對(duì)圖像內(nèi)容進(jìn)行描述，加進(jìn)去人類(lèi)的認(rèn)知理解構(gòu)造訓(xùn)練集。進(jìn)一步通過(guò)知識(shí)圖譜工程（關(guān)系抽取、實(shí)體鏈接等等），標(biāo)注出對(duì)象（Objects）、屬性（Attribute）和關(guān)系（Relationships）。構(gòu)造視覺(jué)概念到語(yǔ)義層面的數(shù)據(jù)集：提供目標(biāo)對(duì)象的交互和屬性的詳細(xì)標(biāo)注；對(duì)人、事、物、關(guān)系進(jìn)一步密集標(biāo)注；將注釋詞匯映射到WordNet中實(shí)現(xiàn)規(guī)范化；對(duì)每個(gè)區(qū)域構(gòu)建一個(gè)組織關(guān)系圖；聯(lián)結(jié)一張圖片上的所有區(qū)域圖，構(gòu)成一個(gè)完整的場(chǎng)景圖。

然而，上述數(shù)據(jù)集構(gòu)造人力成本大，下面介紹生成式推理數(shù)據(jù)集CLEVR。

生成式推理數(shù)據(jù)集CLEVR

CLEVR是一個(gè)診斷數(shù)據(jù)集，用于構(gòu)成語(yǔ)言和基本視覺(jué)推理的場(chǎng)景，由斯坦福李飛飛團(tuán)隊(duì)和Facebook AI研究所合作研發(fā)。 CLEVR 數(shù)據(jù)集包含：

10萬(wàn)幅渲染圖像；

100萬(wàn)條自動(dòng)生成的問(wèn)題，其中85．3萬(wàn)條獨(dú)一無(wú)二的問(wèn)題。

它具有挑戰(zhàn)性的圖像和問(wèn)題對(duì)，可以測(cè)試視覺(jué)推理能力，如計(jì)數(shù)、比較、邏輯推理和在記憶中存儲(chǔ)信息。下面是來(lái)自CLEVR的示例圖像和問(wèn)題，問(wèn)題測(cè)試視覺(jué)推理的方面，例如屬性識(shí)別、計(jì)數(shù)、比較、多重注意和邏輯操作。

問(wèn)：大型物體和金屬球體的數(shù)量是否相等？問(wèn)：大球體左邊的棕色金屬物體的左邊的圓柱體是什么尺寸的？問(wèn)：有一個(gè)和金屬立方體大小相同的球體，它是由和小紅球相同的材料制成的嗎？問(wèn)：有多少物體是小圓柱體還是紅色的？
CLEVR數(shù)據(jù)集優(yōu)于其他數(shù)據(jù)集的兩點(diǎn)：

（1）CLEVR最大限度地減少了先前VQA數(shù)據(jù)集的偏差，避免學(xué)習(xí)系統(tǒng)在沒(méi)有視覺(jué)推理的情況下就可以正確回答問(wèn)題的情況；（2）CLEVR的合成性質(zhì)和詳細(xì)注釋有助于深入分析現(xiàn)有數(shù)據(jù)集無(wú)法實(shí)現(xiàn)的推理能力。下圖可以直觀呈現(xiàn)出CLEVR數(shù)據(jù)集是如何生成的。

CLEVR中的每個(gè)問(wèn)題都與一個(gè)可以在圖像的場(chǎng)景圖（Scene Graph）上執(zhí)行的功能程序（Functional Program）相關(guān)聯(lián)，從而得到問(wèn)題的答案。 CLEVR中的每個(gè)問(wèn)題都以自然語(yǔ)言和功能性程序表示。功能程序表示精確確定回答每個(gè)問(wèn)題所需的推理技能。

我們使用問(wèn)題族的方法，以最小化問(wèn)題條件偏差的方式將功能程序轉(zhuǎn)換為自然語(yǔ)言。 CLEVR包含總共90個(gè)問(wèn)題族，每個(gè)族都有一個(gè)程序模板和平均四個(gè)文本模板；文本模板是通過(guò)為每個(gè)族手動(dòng)編寫(xiě)一個(gè)或兩個(gè)模板然后眾包問(wèn)題重寫(xiě)生成的；為了進(jìn)一步增加語(yǔ)言多樣性，我們對(duì)每種形狀，顏色和材料使用一組同義詞；每個(gè)模板最多有19個(gè)參數(shù)，少數(shù)族可以生成大量獨(dú)特的問(wèn)題；右圖顯示了CLEVR中近一百萬(wàn)個(gè)問(wèn)題，超過(guò)85．3萬(wàn)個(gè)是獨(dú)一無(wú)二的。通過(guò)添加新的問(wèn)題族可以輕松擴(kuò)展CLEVR。 CLEVR數(shù)據(jù)集上六種VQA方法：在每個(gè)問(wèn)題類(lèi)型的準(zhǔn)確度（越高越好）

Q－typemode：該Baseline 對(duì)于每個(gè)問(wèn)題類(lèi)型預(yù)測(cè)最常見(jiàn)的訓(xùn)練集答案。

LSTM：?jiǎn)栴}是用學(xué)習(xí)得到的單詞嵌入和單詞級(jí)LSTM進(jìn)行處理的。最終的LSTM隱藏狀態(tài)被傳遞給多層感知器（MLP），以預(yù)測(cè)可能答案的分布。此方法不使用圖像信息，因此它只能建模了（學(xué)習(xí)了）問(wèn)題條件偏差。

CNN＋ BoW：BoW（ Bag of Words，詞袋），問(wèn)題中的每個(gè)單詞的詞向量求平均來(lái)編碼該問(wèn)題，并且使用卷積網(wǎng)絡(luò)（CNN）提取的圖像特征對(duì)圖像進(jìn)行編碼。問(wèn)題和圖像特征被級(jí)聯(lián)然后傳遞給多層感知器（MLP），MLP預(yù)測(cè)可能答案的分布。我們使用在Google－News語(yǔ)料庫(kù)中訓(xùn)練的詞向量；這些在訓(xùn)練期間沒(méi)有經(jīng)過(guò)微調(diào)。

CNN＋LSTM：圖像和問(wèn)題分別使用CNN特征和LSTM的最終隱藏狀態(tài)進(jìn)行編碼，這些特征被級(jí)聯(lián)并傳遞給MLP以預(yù)測(cè)答案分布。

<上一頁(yè) 1 2 3 下一頁(yè)>

深蘭科學(xué)院智慧交通協(xié)管員視覺(jué)理解認(rèn)知推理自然語(yǔ)言生成