[發明專利]一種用于視覺問答模型訓練的增量型數據增強方法及應用有效
| 申請號: | 202010563289.3 | 申請日: | 2020-06-19 |
| 公開(公告)號: | CN111967487B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 王瀚漓;龍宇 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/216;G06F16/332;G06N3/04 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 翁惠瑜 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 視覺 問答 模型 訓練 增量 數據 增強 方法 應用 | ||
1.一種用于視覺問答模型訓練的增量型數據增強方法,其特征在于,該方法包括:
獲取原始訓練數據集,該數據集中的訓練樣本的形式為圖像、文本、答案,所述文本由自然語言序列形成;
獲取所述原始訓練數據集中的自然語言序列的句長分布和每個單詞的詞頻分布,基于所述句長分布確定最小句子長度閾值和最大句子長度閾值;
根據所述最小句子長度閾值、最大句子長度閾值和詞頻分布對訓練樣本中的自然語言序列進行擴充,實現數據增強;
針對每一訓練樣本的自然語言序列,判斷句子長度是否小于所述最大句子長度閾值,若是,則對該自然語言序列進行擴充,擴充后的句子長度位于最小句子長度閾值和最大句子長度閾值所組成的長度閾值范圍之內,若否,則不進行擴充;
通過詞頻分布選取中間1/3部分的詞頻作為單詞候選加強相應的權重,隨后通過權重隨機的方式選定自然語言序列中的某個單詞,以緊隨原單詞之后重復原單詞的方法進行擴充,所述權重隨機指:某單詞被選中的概率為“當前單詞權重/當前句子所有單詞權重之和”。
2.根據權利要求1所述的用于視覺問答模型訓練的增量型數據增強方法,其特征在于,抓取所有句子的長度分布,該長度分布呈現正態分布,采用50%和99%確定所述最小句子長度閾值和最大句子長度閾值。
3.根據權利要求1所述的用于視覺問答模型訓練的增量型數據增強方法,其特征在于,隨機選定自然語言序列中的某個單詞,以緊隨原單詞之后重復原單詞的方法進行擴充。
4.一種視覺問答模型的訓練方法,其特征在于,該方法包括:
模型初始化;
以權利要求1-3任一所述的增量型數據增強方法對原始訓練數據集進行擴充,獲取擴充訓練數據集;
對擴充訓練數據集中的訓練樣本進行特征抽取,獲得文本特征和圖像特征;
對所述圖像特征和文本特征進行特征融合,生成融合特征,基于所述融合特征生成輸出答案;
基于所述輸出答案與訓練樣本中的初始答案計算答案誤差;
基于所述答案誤差對所述視覺問答模型進行參數迭代調整。
5.根據權利要求4所述的視覺問答模型的訓練方法,其特征在于,所述文本特征的提取具體為:
基于時序神經網絡的最大長度限制對自然語言序列進行最大長度裁剪,將裁剪后的自然語言序列送入時序神經網絡提取文本特征;
所述時序神經網絡包括循環神經網絡模組,自然語言序列逐步輸入所述循環神經網絡模組中,以最后時間步的隱層特征或所有時間步的隱層特征的融合作為所述文本特征。
6.根據權利要求4所述的視覺問答模型的訓練方法,其特征在于,將訓練樣本中的圖像送入卷積神經網絡中抽取相應的卷積層和全連接層特征,以最后一個卷積層的特征、倒數第二個全連接層的特征置信度或者最高的36個目標的特征作為圖像特征。
7.根據權利要求4所述的視覺問答模型的訓練方法,其特征在于,所述特征融合具體為:
對所述圖像特征和文本特征分別通過全連接層進行特征轉換,生成兩個同尺寸的隱層特征,對兩個隱層特征進行點乘獲得融合特征;或者
對所述圖像特征和文本特征分別通過全連接層進行特征轉換,生成兩個不同尺寸的隱層特征,通過復制擴展將兩個隱層特征的尺寸調整至相同,將調整后的兩個隱層特征進行點乘生成融合隱層特征,以一個全連接層對所述融合隱層特征進行特征轉換,并通過另一個全連接層生成注意力特征,將所述注意力特征與圖像特征進行點乘融合生成最終的融合特征。
8.根據權利要求4所述的視覺問答模型的訓練方法,其特征在于,所述參數迭代調整采用的迭代方法包括二階動量優化方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010563289.3/1.html,轉載請聲明來源鉆瓜專利網。





