[發(fā)明專利]基于層次多任務(wù)學(xué)習(xí)的示意圖問答方法有效
| 申請(qǐng)?zhí)枺?/td> | 202110892487.9 | 申請(qǐng)日: | 2021-08-04 |
| 公開(公告)號(hào): | CN113869349B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 袁召全;彭瀟;吳曉 | 申請(qǐng)(專利權(quán))人: | 西南交通大學(xué) |
| 主分類號(hào): | G06V10/774 | 分類號(hào): | G06V10/774;G06V10/46;G06V10/82;G06F40/35;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京中政聯(lián)科專利代理事務(wù)所(普通合伙) 11489 | 代理人: | 沈蒙 |
| 地址: | 610000*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 層次 任務(wù) 學(xué)習(xí) 示意圖 問答 方法 | ||
本發(fā)明涉及圖像問答技術(shù)領(lǐng)域,尤其涉及基于層次多任務(wù)學(xué)習(xí)的示意圖問答方法,包括如下步驟:S1、對(duì)訓(xùn)練圖像,預(yù)訓(xùn)練目標(biāo)檢測器檢測圖像成分,進(jìn)行位置編碼和視覺特征提取;S2、對(duì)訓(xùn)練集圖像,區(qū)域特征序列作為圖解析模塊的輸入,預(yù)測成分和成分之間的關(guān)系;S3、對(duì)訓(xùn)練集問題和備選答案,組成陳述句后進(jìn)行詞例化處理并提取語言特征,得到備選答案和問題組成的語言序列;S4、對(duì)訓(xùn)練集,將圖解析模塊的輸出與語言序列拼接輸入問答模塊,訓(xùn)練網(wǎng)絡(luò)參數(shù);S5、對(duì)測試集圖像,將圖與問題、備選答案編碼組成區(qū)域特征序列和語言序列。本發(fā)明將圖解析模塊和問答模塊聯(lián)合在一起,利用多層次的任務(wù)來訓(xùn)練,實(shí)現(xiàn)了基于解析和問答兩個(gè)層次的多任務(wù)學(xué)習(xí)框架。
技術(shù)領(lǐng)域
本發(fā)明涉及圖像問答技術(shù)領(lǐng)域,尤其涉及基于層次多任務(wù)學(xué)習(xí)的示意圖問答方法。
背景技術(shù)
近年來,隨著深度學(xué)習(xí)和計(jì)算機(jī)視覺領(lǐng)域的不斷發(fā)展,計(jì)算機(jī)對(duì)自然圖像的理解能力已經(jīng)有了極大的進(jìn)展,比如在視覺問答領(lǐng)域,目前的方法已經(jīng)能夠達(dá)到比較高的精度。然而計(jì)算機(jī)對(duì)于示意圖的語義理解,比如在示意圖問答任務(wù)上,卻難以達(dá)到比較好的效果。示意圖問答任務(wù)要求計(jì)算機(jī)理解示意圖中的語義知識(shí),并根據(jù)這些知識(shí)從多個(gè)候選答案中推斷出正確答案。示意圖問答可以被認(rèn)為是對(duì)圖示語義的智能推理的一種評(píng)價(jià)任務(wù),非常具有挑戰(zhàn)性。首先示意圖是一種用于說明的重要媒體形式,在教科書、幻燈片、文檔等中被廣泛使用。而自然圖像很難起到相同的作用。與自然圖像不同,示意圖具有高度結(jié)構(gòu)化的語義信息,比如箭頭表示著某種聯(lián)系。其次視覺上相似的結(jié)構(gòu)在不同示意圖中可能具有差別極大的語義。這些導(dǎo)致應(yīng)用于自然圖像的問答方法難以應(yīng)用于示意圖。
為了回答和示意圖相關(guān)的問題,現(xiàn)有的方法一般將問答分為兩個(gè)獨(dú)立的階段,解析圖模塊先識(shí)別成分,然后再對(duì)成分兩兩配對(duì)分類生成結(jié)構(gòu)圖。問答模塊根據(jù)結(jié)構(gòu)圖生成事實(shí)和問題、備選項(xiàng)選擇出可能性最大選項(xiàng)。這類方法在生成圖和問題推理之間沒有反饋,解析的結(jié)構(gòu)圖的精度只依賴于訓(xùn)練集的圖像信息,而問答模塊則根據(jù)生成的結(jié)構(gòu)圖,選擇出正確答案。在訓(xùn)練時(shí),結(jié)構(gòu)解析的錯(cuò)誤會(huì)導(dǎo)致問答模塊的誤差十分大,但這個(gè)誤差僅用于優(yōu)化問答模塊,并不反向傳播到解析模塊。這樣的兩階段模塊無法相互反饋,自然也無法保證找到問題的全局最優(yōu)解。示意圖常常出現(xiàn)在資料、文檔中,包含豐富的知識(shí)和結(jié)構(gòu)化信息,比自然圖像更加復(fù)雜,所以普通的視覺問答方法難以應(yīng)用于示意圖問答。并且,相似的示意圖可能包含完全不同的語義信息,這也使得示意圖問答十分具有挑戰(zhàn)性。
發(fā)明內(nèi)容
本發(fā)明目的是針對(duì)背景技術(shù)中存在的問題,提出基于層次多任務(wù)學(xué)習(xí)的示意圖問答方法,包括如下步驟:
S1、對(duì)訓(xùn)練圖像,預(yù)訓(xùn)練目標(biāo)檢測器檢測圖像成分,進(jìn)行位置編碼和視覺特征提取,然后編碼組成區(qū)域特征序列;
S2、對(duì)訓(xùn)練集圖像,區(qū)域特征序列作為圖解析模塊的輸入,預(yù)測成分和成分之間的關(guān)系,訓(xùn)練網(wǎng)絡(luò)參數(shù);
S3、對(duì)訓(xùn)練集問題和備選答案,組成陳述句后進(jìn)行詞例化處理并提取語言特征,得到備選答案和問題組成的語言序列;
S4、對(duì)訓(xùn)練集,將圖解析模塊的輸出與語言序列拼接輸入問答模塊,預(yù)測問題的正確選項(xiàng),訓(xùn)練網(wǎng)絡(luò)參數(shù);
S5、對(duì)測試集圖像,將圖與問題、備選答案編碼組成區(qū)域特征序列和語言序列,輸入深度網(wǎng)絡(luò),預(yù)測問題的正確選項(xiàng)。
優(yōu)選的,S2和S4使用多任務(wù)學(xué)習(xí)框架,通過圖解析任務(wù)和問答任務(wù)這兩個(gè)學(xué)習(xí)任務(wù)來解決問答任務(wù)。
優(yōu)選的,S4中聯(lián)合訓(xùn)練圖解析模塊和問答模塊,使得問答的訓(xùn)練損失能夠正確反饋到圖解析模塊和問答模塊。
優(yōu)選的,先進(jìn)行圖解析任務(wù),再利用圖解析任務(wù)中的輸出進(jìn)行問答任務(wù),構(gòu)建層次多任務(wù)框架。
優(yōu)選的,S1中,預(yù)訓(xùn)練目標(biāo)檢測器為基于COCO數(shù)據(jù)集和示意圖問答圖像數(shù)據(jù)集預(yù)訓(xùn)練的YOLO v3目標(biāo)檢測器;檢測的示意圖成分包括文字、物體區(qū)域、箭頭頭部、箭頭尾部四種類別;區(qū)域特征序列編碼可以分為以下兩個(gè)子步驟:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西南交通大學(xué),未經(jīng)西南交通大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110892487.9/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 任務(wù)協(xié)作裝置及方法
- 用于量化任務(wù)價(jià)值的任務(wù)管理方法及裝置
- 用于運(yùn)行任務(wù)的系統(tǒng)、方法和裝置
- 一種分布式任務(wù)調(diào)度系統(tǒng)及方法
- 任務(wù)信息處理方法
- 一種同步任務(wù)異步執(zhí)行的方法和調(diào)度系統(tǒng)
- 數(shù)據(jù)處理方法、裝置、電子設(shè)備及計(jì)算機(jī)可讀介質(zhì)
- 一種自動(dòng)分配和推送的任務(wù)管理平臺(tái)及方法
- 程序執(zhí)行控制的裝置及方法、終端和存儲(chǔ)介質(zhì)
- 基于會(huì)話的任務(wù)待辦方法、系統(tǒng)、電子設(shè)備及存儲(chǔ)介質(zhì)
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





