[發明專利]一種基于編碼器-解碼器框架的圖像描述方法在審
| 申請號: | 202011218343.7 | 申請日: | 2020-11-04 |
| 公開(公告)號: | CN112200268A | 公開(公告)日: | 2021-01-08 |
| 發明(設計)人: | 廖祥文;丘永旺;陳志豪;陳俊杰;吳君毅 | 申請(專利權)人: | 福州大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/08;G06N3/04 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 錢莉;蔡學俊 |
| 地址: | 350108 福建省福州市*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 編碼器 解碼器 框架 圖像 描述 方法 | ||
1.一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,包括以下步驟:
采用編碼器組件,對文本特征和圖像特征進行提取;
采用解碼器組件,學習圖像特征和文本特征,并生成圖像描述語句。
2.根據權利要求1所述的一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,所述采用編碼器組件,對文本特征和圖像特征進行提取具體為:檢測輸入圖像中的對象坐標,對圖像中的對象進行特征提取,生成圖像特征向量;對輸入的文本進行處理,形成句子中各個詞的初步特征向量表示,得到文本特征向量。
3.根據權利要求2所述的一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,所述檢測輸入圖像中的對象坐標具體為:采用Faster-RCNN網絡,檢測圖像中每個對象的坐標。
4.根據權利要求2所述的一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,所述對圖像中的對象進行特征提取,生成圖像特征向量具體為:根據檢測出的對象坐標,對對象區域使用Inception-v4網絡進行特征提取并生成圖像特征向量。
5.根據權利要求2所述的一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,所述對輸入的文本進行處理,形成句子中各個詞的初步特征向量表示,得到文本特征向量具體為:
刪除文本數據中的HTML鏈接,留下可見的文本;
使用單詞標記器將句子分割成單獨的標記;
刪除數據集中的非單詞;
使用詞干分析器對標記進行詞干處理,減少上下文的可變性;
加載訓練好的詞嵌入矩陣,得到每個單詞對應的單詞向量,將其作為文本特征向量。
6.根據權利要求1所述的一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,所述采用解碼器組件,學習圖像特征和文本特征,并生成圖像描述語句具體為:學習圖像特征向量以及文本特征向量生成圖像語義特征,根據圖像語義特征輸出每一時刻的預測單詞,進而生成圖像描述語句。
7.根據權利要求6所述的一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,所述學習圖像特征向量以及文本特征向量生成圖像語義特征具體為:
將文本特征與圖像特征的平均特征送入一LSTM層中進行學習,并輸出初步預測特征;
采用注意力層將初步預測特征與圖像特征進行注意力加權,決定每一時刻對圖像不同區域的關注度并得到加權之后的圖像特征;
將初步預測特征與加權之后的圖像特征一同送入一并行LSTM層中進行學習,輸出多個二次預測向量;
最后再使用一層LSTM層對多個二次預測向量進行學習,輸出最后的預測向量,將其作為圖像語義特征。
8.根據權利要求6所述的一種基于編碼器-解碼器框架的圖像描述方法,其特征在于,所述根據圖像語義特征輸出每一時刻的預測單詞,進而生成圖像描述語句具體為:
采用softmax層,對圖像語義特征進行處理,得到每一時刻單詞預測概率的分布,選擇概率最大的詞作為下一時刻的輸入文本,最終得到圖像的描述語句。
9.一種基于編碼器-解碼器框架的圖像描述系統,其特征在于,包括存儲器、處理器以及存儲于存儲器上并能夠被處理器運行的計算機程序指令,當處理器運行該計算機程序指令時,能夠實現如權利要求1-8任一項所述的方法步驟。
10.一種計算機可讀存儲介質,其特征在于,其上存儲有能夠被處理器運行的計算機程序指令,當處理器運行該計算機程序指令時,能夠實現如權利要求1-8任一項所述的方法步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福州大學,未經福州大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011218343.7/1.html,轉載請聲明來源鉆瓜專利網。





