[發明專利]一種圖說生成方法及裝置在審
| 申請號: | 201710283733.4 | 申請日: | 2017-04-26 |
| 公開(公告)號: | CN108805260A | 公開(公告)日: | 2018-11-13 |
| 發明(設計)人: | 黃歡;趙剛 | 申請(專利權)人: | 上海荊虹電子科技有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F17/27;G06F17/30;G06K9/62 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩 |
| 地址: | 201203 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 遞歸神經網絡 語句 全局特征 目標圖像 訓練集 卷積神經網絡 圖文數據庫 損失函數 圖像 提取目標圖像 特征輸入 語句形式 語言模型 可變的 構建 輸出 優化 | ||
1.一種圖說生成方法,其特征在于,包括:
采用預先訓練的卷積神經網絡提取圖文數據庫中訓練集的圖像的全局特征;
對所述圖文數據庫中訓練集的圖像對應的描述語句進行編碼得到描述語句特征;
將所述訓練集的圖像的全局特征以及所述描述語句特征輸入至遞歸神經網絡,對所述遞歸神經網絡進行訓練;
根據所述遞歸神經網絡的輸出構建損失函數,根據所述損失函數對所述遞歸神經網絡的參數進行優化;
采用所述預先訓練的卷積神經網絡提取目標圖像的全局特征,將所述目標圖像的全局特征輸入至所述遞歸神經網絡,生成與所述目標圖像對應的描述語句。
2.根據權利要求1所述的方法,其特征在于,所述采用預先訓練的卷積神經網絡提取圖文數據庫中訓練集的圖像的全局特征,包括:
根據如下公式提取圖文數據庫中訓練集的圖像的全局特征:
v=WI·[Fc(I)]+bI
其中,v表示圖像I的全局特征;WI表示權重矩陣,bI表示偏置;Fc(I)表示所述卷積神經網絡對所述圖像I處理后全連接層的輸出。
3.根據權利要求1所述的方法,其特征在于,對所述圖文數據庫中訓練集的圖像對應的描述語句進行編碼得到描述語句特征,包括:
根據如下公式獲取描述語句特征:
st=Ws·wt,t∈{1,2,…,T}
其中,st表示圖像I的描述語句特征;Ws表示權重矩陣;所述圖像I的描述語句S=(w1,w2,…,wT),T為描述語句中單詞的個數;表示該描述語句的第i個單詞,N0為所述圖文數據庫中的單詞總數;wi為單詞one-hot向量。
4.根據權利要求1所述的方法,其特征在于,所述遞歸神經網絡為門控遞歸神經網絡GRU。
5.根據權利要求1所述的方法,其特征在于,所述根據所述遞歸神經網絡的輸出構建損失函數,包括:
對所述遞歸神經網絡的輸出進行歸一操作;
根據歸一操作結果構建損失函數;
所述損失函數的公式為:
其中,C(S,I;θ)表示通過參數為θ的遞歸神經網絡針對圖像I產生描述語句S的條件概率,λθ||θ||2是對所述遞歸神經網絡所有參數θ的正則約束;N表示所述圖文數據庫中訓練集的圖像的個數;Ti表示所述訓練集中的第i幅圖像對應的描述語句的長度;pt,i表示所述訓練集中的第i幅圖像在t時刻產生單詞的概率。
6.根據權利要求1所述的方法,其特征在于,根據所述損失函數對所述遞歸神經網絡的參數進行優化,包括:
根據所述損失函數采用反時傳播BPTT算法對所述遞歸神經網絡的參數進行優化。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
獲取生成的目標圖像對應的描述語句與參考描述語句的相關性。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海荊虹電子科技有限公司,未經上海荊虹電子科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710283733.4/1.html,轉載請聲明來源鉆瓜專利網。





