[發明專利]圖片問答方法及裝置有效
| 申請號: | 201711308733.1 | 申請日: | 2017-12-11 |
| 公開(公告)號: | CN108021897B | 公開(公告)日: | 2021-06-15 |
| 發明(設計)人: | 楊松 | 申請(專利權)人: | 北京小米移動軟件有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京英創嘉友知識產權代理事務所(普通合伙) 11447 | 代理人: | 曾堯 |
| 地址: | 100085 北京市海淀區清河*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖片 問答 方法 裝置 | ||
1.一種圖片問答方法,其特征在于,包括:
接收圖片和與所述圖片相關的問題;
通過卷積神經網絡CNN提取所述圖片的圖像特征向量;
通過第一循環神經網絡RNN提取所述問題的編碼特征向量;
將所述圖像特征向量和所述編碼特征向量進行拼接,得到聯合特征向量;
通過解碼神經網絡對所述聯合特征向量進行解碼,生成所述問題的答案;
其中,所述CNN、第一RNN和解碼神經網絡是在三者作為整體網絡的情況下,以端到端的方式訓練得到的神經網絡;
所述解碼神經網絡為多層神經網絡MLP,通過解碼神經網絡對所述聯合特征向量進行解碼,生成所述問題的答案,包括:
將所述聯合特征向量輸入MLP網絡,得到特征集;
使用分類器對所述特征集進行分類,得到所述特征集的類別;
將所述特征集的類別,確定為所述問題的答案。
2.根據權利要求1所述的圖片問答方法,其特征在于,通過CNN提取所述圖片的圖像特征向量,包括:
將接收到的圖片縮放到固定尺寸,得到標準圖像;
將所述標準圖像輸入CNN中;
將所述CNN的輸出結果,確定為所述圖片的圖像特征向量。
3.根據權利要求1所述的圖片問答 方法,其特征在于,通過第一RNN提取所述問題的編碼特征向量,包括:
將所述問題進行分詞,得到所述問題對應的詞嵌入序列;
將所述詞嵌入序列輸入所述第一RNN中;
將所述第一RNN的輸出結果,確定為所述問題的編碼特征向量。
4.一種圖片問答裝置,其特征在于,包括:
接收模塊,用于接收圖片和與所述圖片相關的問題;
第一提取模塊,用于通過卷積神經網絡CNN提取所述圖片的圖像特征向量;
第二提取模塊,用于通過第一循環神經網絡RNN提取所述問題的編碼特征向量;
拼接模塊,用于將所述圖像特征向量和所述編碼特征向量進行拼接,得到聯合特征向量;
生成模塊,用于通過解碼神經網絡對所述聯合特征向量進行解碼,生成所述問題的答案;
所述解碼神經網絡為多層神經網絡MLP,所述生成模塊包括:
第一向量輸入子模塊,用于將所述聯合特征向量輸入MLP網絡,得到特征集;
分類子模塊,用于使用分類器對所述特征集進行分類,得到所述特征集的類別;
第三確定子模塊,用于將所述特征集的類別,確定為所述問題的答案;
其中,所述CNN、第一RNN和解碼神經網絡是在三者作為整體網絡的情況下,以端到端的方式訓練得到的神經網絡。
5.根據權利要求4所述的圖片問答裝置,其特征在于,所述第一提取模塊包括:
縮放子模塊,用于將接收到的圖片縮放到固定尺寸,得到標準圖像;
圖像輸入子模塊,用于將所述標準圖像輸入CNN中;
第一確定子模塊,用于將所述CNN的輸出結果,確定為所述圖片的圖像特征向量。
6.根據權利要求4所述的圖片問答 裝置,其特征在于,所述第二提取模塊包括:
分詞子模塊,用于將所述問題進行分詞,得到所述問題對應的詞嵌入序列;
序列輸入子模塊,用于將所述詞嵌入序列輸入所述第一RNN中;
第二確定子模塊,用于將所述第一RNN的輸出結果,確定為所述問題的編碼特征向量。
7.一種圖片問答裝置,其特征在于,包括:
處理器;
用于存儲處理器可執行指令的存儲器;
其中,所述處理器被配置為執行如權利要求1至3中任一項所述的方法。
8.一種非臨時性計算機可讀存儲介質,當所述存儲介質中的指令由處理器執行時實現權利要求1至3中任一項所述的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京小米移動軟件有限公司,未經北京小米移動軟件有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711308733.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種溫室葡萄延遲栽培方法
- 下一篇:一種簡化的控制硬盤指示燈的系統及方法





