[發(fā)明專利]基于層次多任務學習的示意圖問答方法有效
| 申請?zhí)枺?/td> | 202110892487.9 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113869349B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設計)人: | 袁召全;彭瀟;吳曉 | 申請(專利權)人: | 西南交通大學 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/46;G06V10/82;G06F40/35;G06F40/284;G06N3/04;G06N3/08 |
| 代理公司: | 北京中政聯(lián)科專利代理事務所(普通合伙) 11489 | 代理人: | 沈蒙 |
| 地址: | 610000*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 層次 任務 學習 示意圖 問答 方法 | ||
1.基于層次多任務學習的示意圖問答方法,其特征在于,包括如下步驟:
S1、對訓練圖像,預訓練目標檢測器檢測圖像成分,進行位置編碼和視覺特征提取,然后編碼組成區(qū)域特征序列;
S2、對訓練集圖像,區(qū)域特征序列作為圖解析模塊的輸入,預測成分和成分之間的關系,訓練網(wǎng)絡參數(shù);
S3、對訓練集問題和備選答案,組成陳述句后進行詞例化處理并提取語言特征,得到備選答案和問題組成的語言序列;
S4、對訓練集,將圖解析模塊的輸出與語言序列拼接輸入問答模塊,預測問題的正確選項,訓練網(wǎng)絡參數(shù);
S5、對測試集圖像,將圖與問題、備選答案編碼組成區(qū)域特征序列和語言序列,輸入深度網(wǎng)絡,預測問題的正確選項;
S1中,預訓練目標檢測器為基于COCO數(shù)據(jù)集和示意圖問答圖像數(shù)據(jù)集預訓練的YOLOv3目標檢測器;檢測的示意圖成分包括文字、物體區(qū)域、箭頭頭部、箭頭尾部四種類別;區(qū)域特征序列編碼可以分為以下兩個子步驟:
S1.1、對于示意圖I,檢測到的成分為O={o1,o2,...,om},通過深度網(wǎng)絡特征提取模塊ResNet101得到維度為2048的視覺特征序列[z1,z2,...,zm],然后將整張圖像也通過相同特征提取器得到的z0放在序列的第一位作為全局信息,構成[z0,...,zm],每個檢測到的成分的左上坐標(xmin,ymin)和右下坐標(xmax,ymax)按照(xmin,ymin,xmax,ymax),寬度,高度,區(qū)域面積組成7維位置特征序列[q0,q1,...,qm];
S1.2、視覺特征序列[z0,...,zm]和位置特征通過視覺特征和位置特征融合模塊得到1024維的區(qū)域特征序列
S2中,模塊由多層Transformer和一層GRU組成,將區(qū)域特征序列Hin輸入Transfomer編碼器,得到1024維的輸出將區(qū)域兩兩組成一對,預測兩個區(qū)域之間是否存在關系,關系候選對<oi,oj>的特征由qi,qj拼接得到,其中i,j=1,2,...,m并且i≠j,將特征組成的序列輸入GRU,預測每對<oi,oj>是否存在關系,然后根據(jù)下式計算損失:
其中,N為關系候選對數(shù)量,yn為第n對關系的真值,為模型對第n對關系的預測值;
S3中,詞例化和編碼處理利用RoBERTa,對于圖像I的一個問題q,問題包含K個候選答案{ak|k=1,...,K},將問題q和ak由空格連接組成陳述句sk,輸入RoBERTa進行分詞和編碼得到sk的語言特征其中n為句子的最大詞數(shù)量;
S4中,問答模塊由多層Transformer模塊TBdqa和一層全連接層組成,區(qū)域特征序列拼接語言序列組成,通過TBdqa得到取第0個和第m+1個向量做對應元素相乘后輸入全連接層和softmax層得到ak候選項的分數(shù)然后選擇分數(shù)最高的為預測值,根據(jù)下式計算問答損失:
其中,tcorrect表示當前問題的正確答案標簽,In表示如果k和tcorrect相同則為1,否則為0;
全局損失為L=αLsp+βLdqa,其中α,β為可調整的超參數(shù),用于平衡問答模塊和模塊的學習,通過后向傳播算法進行全局參數(shù)調整,以最小化全局損失函數(shù)為目標優(yōu)化網(wǎng)絡參數(shù),直到該函數(shù)值不再下降。
2.根據(jù)權利要求1所述的基于層次多任務學習的示意圖問答方法,其特征在于,S2和S4使用多任務學習框架,通過圖解析任務和問答任務這兩個學習任務來解決問答任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西南交通大學,未經(jīng)西南交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110892487.9/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。





