[發明專利]基于神經網絡的圖像詩句描述生成方法、裝置和設備有效
| 申請號: | 202110386114.4 | 申請日: | 2021-04-12 |
| 公開(公告)號: | CN112801234B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 謝毓湘;閆潔;宮銓志;張家輝;欒悉道;馮素茹;魏迎梅;蔣杰;康來 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 長沙國科天河知識產權代理有限公司 43225 | 代理人: | 邱軼 |
| 地址: | 410073 湖*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經網絡 圖像 詩句 描述 生成 方法 裝置 設備 | ||
本申請涉及基于神經網絡的圖像詩句描述生成方法、裝置和設備,方法包括:獲取輸入圖像的圖片特征向量以及多個對輸入圖像的白話描述的詞向量;圖片特征向量與各詞向量的維度相同;將各詞向量聚類為k類,分別確定k個聚類中心對應的詞向量以及距離k個聚類中心最近的前s?1個詞向量,得到關鍵詞個數為k個的s組關鍵詞;將s組關鍵詞分別輸入charRNN神經網絡,生成s組關鍵詞對應的s個詩句并將各詩句轉換成對應的詩向量;各詩向量與詞向量的維度相同;將圖片特征向量和任一詞向量輸入seq2seq模型對各詩向量進行預測,根據預測確定的一個詩向量生成對輸入圖像描述的詩句。提高了計算機對圖像的詩句描述生成效率。
技術領域
本申請涉及多媒體信息處理技術領域,特別是涉及一種基于神經網絡的圖像詩句描述生成方法、裝置和設備。
背景技術
圖像描述生成技術,有時稱為“圖像自動注釋”、“圖像標記”或“圖像字幕生成”技術,是指讓計算機根據一幅圖像自動生成一段完整而流暢的文字描述聲明。隨著多媒體信息處理技術的發展,對于計算機來說,具備“看圖說話”的能力卻是一項十分艱巨的任務。理解一幅圖像很大程度上取決于獲取圖像的特征,用于此目的的技術可分為兩大類:其一是傳統的基于機器學習的技術,另一類則是深度學習的技術。傳統的基于機器學習的圖像描述方法利用了傳統的特征提取手段,由于這些手工制作的特征是基于特定任務的,所以用這種方法從大量多樣的數據中提取特征是不可行的。
此外,真實世界的數據,如圖像和視頻是復雜的,有不同的語義解釋。隨著卷積神經網絡(CNN)被廣泛用于特征學習,基于深度學習的圖像描述生成方法隨之流行起來。深度學習是一個端到端的學習過程,可以從訓練數據中自動學習特征,因而利用這種方法可以處理大量多樣的圖像和視頻。然而,在實現本發明過程中,發明人發現目前對于圖像描述生成研究的關注點還是集中在“生成圖像的白話描述”上,主要包括提高對圖像進行描述的語言的準確性、通俗性和靈活性等方面,仍存在著對圖像的詩句描述效率不高的問題。
發明內容
基于此,有必要針對上述技術問題,提供一種基于神經網絡的圖像詩句描述生成方法、一種基于神經網絡的圖像詩句描述生成裝置、一種計算機設備以及一種計算機可讀存儲介質。
為了實現上述目的,本發明實施例采用以下技術方案:
一方面,本發明實施例提供一種基于神經網絡的圖像詩句描述生成方法,包括步驟:
獲取輸入圖像的圖片特征向量以及多個對輸入圖像的白話描述的詞向量;圖片特征向量與各詞向量的維度相同;
將各詞向量聚類為k類,分別確定k個聚類中心對應的詞向量以及距離k個聚類中心最近的前s-1個詞向量,得到關鍵詞個數為k個的s組關鍵詞;詞向量與關鍵詞一一對應,k和s均為大于或等于2的正整數;
將s組關鍵詞分別輸入charRNN神經網絡,生成s組關鍵詞對應的s個詩句并將各詩句轉換成對應的詩向量;各詩向量與詞向量的維度相同;
將圖片特征向量和任一詞向量輸入seq2seq模型對各詩向量進行預測,根據預測確定的一個詩向量生成對輸入圖像描述的詩句。
在其中一個實施例中,獲取輸入圖像的圖片特征向量的過程,包括:
將輸入圖像的尺寸進行標準化處理,轉換成尺寸為(224,224,3)的標準圖像;
將標準圖像輸入ResNet卷積神經網絡進行圖像特征提取,得到標準圖像的特征向量;
通過一個全連接層將特征向量轉換成256維的圖片特征向量。
在其中一個實施例中,獲取多個對輸入圖像的白話描述的詞向量的過程,包括:
通過charRNN神經網絡的詞嵌入層,分別將多個白話描述轉換成對應的多個詞向量;各詞向量的維度均為256維。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110386114.4/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





