[發明專利]基于語義嵌入的零樣本視覺問答方法有效
| 申請號: | 202011390333.1 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112651403B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 周泓;楊誠;羅本燕;彭國平 | 申請(專利權)人: | 浙江大學;浙江大學醫學院附屬第一醫院 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V30/18;G06V30/19;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 司曉蕾 |
| 地址: | 310012 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 嵌入 樣本 視覺 問答 方法 | ||
本發明公開了一種基于語義嵌入的零樣本視覺問答方法,包含以下步驟:收集若干詞匯構成詞匯集合;對收集到的詞匯集合中的詞匯進行編碼得到每個詞匯的詞向量并構建詞向量庫S,詞向量庫S包含每個詞匯以及其對應的詞向量;提取待識別圖像的視覺特征R;提取和待識別圖像相對應的問題的語言特征E;將視覺特征R和語言特征E進行關系建模并輸出預測詞向量C;通過計算獲得詞向量庫S中與預測詞向量C相匹配的詞匯。本發明的基于語義嵌入的零樣本視覺問答方法,提供一種新的視覺問答技術,在不擴大訓練數據集規模的前提下,在現實場景中應用時,可以給出不存在于訓練數據集中的答案。
技術領域
本發明涉及一種基于語義嵌入的零樣本視覺問答方法。
背景技術
視覺問答(Visual Question Answering,VQA)技術指的是設計一個模型,在給定一張 圖片的情況下,該模型可以自動回答和圖片內容相關的問題。例如給定一張內容是一張桌子 上放了三個蘋果的圖片以及一個問題“桌子上有幾個蘋果”,程序需要根據圖片和問題給出答 案3。這個技術有很廣的應用場景,例如用于幫助弱勢群體(盲人)獲取信息,改進人機交 互,提高小孩子的認知教育。
現有的方法都將視覺問答視為一個分類的問題。具體的來說,建立一個包含大量圖片和 對應問題-答案對的數據集,將數據集中出現過的答案作為候選類別。設計深度神經模型,使 用構建好的數據集進行訓練。給定圖片和對應的問題,訓練好的模型會輸出所有候選類別的 概率,將概率較大的幾個類別作為問題的答案。
現有技術的缺陷在于:現有的方法的候選類別非常有限,依賴于所構建的數據集的大小。 由于模型僅僅能在候選類別中選擇可能性最大的類別,脫離數據集,在現實場景中應用時就 存在較大的局限性。為了提高模型在現實場景中的可用性,就需要擴大候選類別,構建更大 的數據集,但是這會帶來很大的花銷,因為要使用當前主流的方法,除了擴充候選類別,還 需要找到大量與類別對應的圖片和問題,用于模型訓練。
發明內容
本發明提供了一種基于語義嵌入的零樣本視覺問答方法,采用如下的技術方案:
一種基于語義嵌入的零樣本視覺問答方法,包含以下步驟:
收集若干詞匯構成詞匯集合;
對收集到的詞匯集合中的詞匯進行編碼得到每個詞匯的詞向量并構建詞向量庫S,詞向 量庫S包含每個詞匯以及其對應的詞向量;
提取待識別圖像的視覺特征R;
提取和待識別圖像相對應的問題的語言特征E;
將視覺特征R和語言特征E進行關系建模并輸出預測詞向量C;
通過計算獲得詞向量庫S中與預測詞向量C相匹配的詞匯。
進一步地,對收集到的詞匯集合中的詞匯進行編碼得到每個詞匯的詞向量并構建詞向量 庫S的具體方法為:
通過詞匯嵌入算法將詞匯集合中的每個詞匯編碼成300維的詞向量;
將詞匯和其對應的詞向量以鍵-值對的形式保存為字典以構成詞向量庫S。
進一步地,字典為CSV格式。
進一步地,提取待識別圖像的視覺特征R的具體方法為:
將待識別圖像的分辨率設置為224*224;
使用經過預訓練的提取網絡提取待識別圖像的視覺特征R,視覺特征R為一個2048維的 向量。
進一步地,提取網絡為ResNet-50網絡。
進一步地,提取和待識別圖像相對應的問題的語言特征E的具體方法為:
對問題的語句采用字符串檢索的方式進行檢測并去除標點符號;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學;浙江大學醫學院附屬第一醫院,未經浙江大學;浙江大學醫學院附屬第一醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011390333.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于市政給排水的防堵塞裝置及其使用方法
- 下一篇:轉爐少渣冶煉方法





