[發明專利]基于語義嵌入的零樣本視覺問答方法有效
| 申請號: | 202011390333.1 | 申請日: | 2020-12-02 |
| 公開(公告)號: | CN112651403B | 公開(公告)日: | 2022-09-06 |
| 發明(設計)人: | 周泓;楊誠;羅本燕;彭國平 | 申請(專利權)人: | 浙江大學;浙江大學醫學院附屬第一醫院 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06V30/18;G06V30/19;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 司曉蕾 |
| 地址: | 310012 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 語義 嵌入 樣本 視覺 問答 方法 | ||
1.一種基于語義嵌入的零樣本視覺問答方法,其特征在于,包含以下步驟:
收集若干詞匯構成詞匯集合;
對收集到的所述詞匯集合中的詞匯進行編碼得到每個詞匯的詞向量并構建詞向量庫S,所述詞向量庫S包含每個詞匯以及其對應的詞向量;
提取待識別圖像的視覺特征R;
提取和所述待識別圖像相對應的問題的語言特征E;
將所述視覺特征R和所述語言特征E進行關系建模并輸出預測詞向量C;
通過計算獲得所述詞向量庫S中與所述預測詞向量C相匹配的詞匯;
所述將所述視覺特征R和所述語言特征E進行關系建模并輸出預測詞向量C的具體方法為:
使用非線性仿射變換將所述視覺特征R變換為1024維的視覺向量R′;
使用非線性仿射變換將所述語言特征E變換為14個1024維的語言向量E′;
采用夾角余弦計算所述視覺向量R′和所述語言向量E′的相似度得到14個取值在0至1之間的相似度值,并將計算結果保存為一個14維的注意力向量A;
通過下述公式計算問題特征向量
再通過下述公式計算融合向量G:
對所述融合向量G做非線性仿射變換得到所述預測詞向量C。
2.根據權利要求1所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
所述對收集到的所述詞匯集合中的詞匯進行編碼得到每個詞匯的詞向量并構建詞向量庫S的具體方法為:
通過詞匯嵌入算法將所述詞匯集合中的每個詞匯編碼成300維的詞向量;
將詞匯和其對應的詞向量以鍵-值對的形式保存為字典以構成所述詞向量庫S。
3.根據權利要求2所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
所述字典為CSV格式。
4.根據權利要求2所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
所述提取待識別圖像的視覺特征R的具體方法為:
將待識別圖像的分辨率設置為224*224;
使用經過預訓練的提取網絡提取所述待識別圖像的所述視覺特征R,所述視覺特征R為一個2048維的向量。
5.根據權利要求4所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
所述提取網絡為ResNet-50網絡。
6.根據權利要求4所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
所述提取和所述待識別圖像相對應的問題的語言特征E的具體方法為:
對所述問題的語句采用字符串檢索的方式進行檢測并去除標點符號;
將語句的長度處理為14;
通過所述詞匯嵌入算法將所述語句中的所有詞匯編碼為300維的詞向量;
通過LSTM提取所述語句的所述語言特征E,所述語言特征E為一個14*1024的矩陣。
7.根據權利要求6所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
所述詞匯嵌入算法為GloVe算法。
8.根據權利要求6所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
所述通過計算獲得所述詞向量庫S中與所述預測詞向量C相匹配的詞匯的具體方法為:
分別計算所述預測詞向量C和所述詞向量庫S中所有詞向量的歐式距離,將所述詞向量庫S中與所述預測詞向量C的歐式距離最小的詞向量所對應的詞匯作為最終輸出的詞匯。
9.根據權利要求1所述的基于語義嵌入的零樣本視覺問答方法,其特征在于,
在所述收集若干詞匯構成詞匯集合中:
所述詞匯包含名詞、數字1到10、是和否。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學;浙江大學醫學院附屬第一醫院,未經浙江大學;浙江大學醫學院附屬第一醫院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011390333.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于市政給排水的防堵塞裝置及其使用方法
- 下一篇:轉爐少渣冶煉方法





