[發明專利]一種基于神經網絡的圖像描述方法、系統、設備以及介質在審
| 申請號: | 202010057651.X | 申請日: | 2020-01-19 |
| 公開(公告)號: | CN111291788A | 公開(公告)日: | 2020-06-16 |
| 發明(設計)人: | 李磊 | 申請(專利權)人: | 蘇州浪潮智能科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/04 |
| 代理公司: | 北京連和連知識產權代理有限公司 11278 | 代理人: | 張濤 |
| 地址: | 215100 江蘇省蘇州市吳*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 圖像 描述 方法 系統 設備 以及 介質 | ||
本發明公開了一種基于神經網絡的圖像描述方法,包括以下步驟:獲取待描述的圖像;利用第一卷積神經網絡和第二卷積神經網絡分別提取所述圖像中的物體的名稱信息以及所述物體之間的關系特征;確定所述關系特征和所述名稱信息之間的關系權重;利用所述關系權重以及所述名稱信息得到向量表達式;對所述向量表達式進行解碼處理以得到所述圖像的文字描述。本發明還公開了一種系統、計算機設備以及可讀存儲介質。本發明提出的方案通過兩個神經網絡分別提取物體的名稱信息以及物體之間的關系特征,這樣可以采用并行計算加速技術,相比于現有的方案,能夠通過擴展AI服務器訓練集群的規模來縮短模型開發周期,對于工業領域的落地具有很大的實用性。
技術領域
本發明涉及圖像識別領域,具體涉及一種基于神經網絡的圖像描述方法、系統、設備以及存儲介質。
背景技術
在計算機視覺領域,圖像場景描述是指,給計算機輸入一張圖片,它能夠根據圖片中的信息,自動生成文本來描述圖片中展示的場景內容。計算機不但要正確識別圖片中的物體,而且要根據它們之間的相互關系,與自然語言處理相結合,是一項非常有挑戰性的任務。
近年來,隨著深度學習技術在圖像識別和自然語言處理領域取得的突破,為上述任務的解決提供了可行的技術方案。CNN模型能夠對圖像中的物體進行有效識別,而RNN網絡模型在自然語言處理領域達到了較高的準確度。因此,目前有很多結合CNN和RNN實現圖像內容描述的方案。具體來講,通過將圖片輸入給CNN,計算生成圖像特征的矩陣序列,然后將該序列輸入RNN,生成文字描述。
但是以上方案在進行模型訓練時存在效率低的問題,這是由于上述模型中RNN的結構特點所導致的,無法充分發揮并行計算技術的能力,導致訓練速度很慢。
由于現有技術方案采用了循環神經網絡,而循環神經網絡計算過程在時間尺度上具有依賴關系,即T時刻計算所需的變量,有一部分來自于T-1時刻,T-1時刻的輸入又有一部分來自于T-2時刻,層層依賴,形成時間序列依賴關系,導致無法對整個模型運用并行加速技術。因此訓練這種類型的神經網絡模型會非常耗時。
發明內容
有鑒于此,為了克服上述問題的至少一個方面,本發明實施例提出一種基于神經網絡的圖像描述方法,包括以下步驟:
獲取待描述的圖像;
利用第一卷積神經網絡和第二卷積神經網絡分別提取所述圖像中的物體的名稱信息以及所述物體之間的關系特征;
確定所述關系特征和所述名稱信息之間的關系權重;
利用所述關系權重以及所述名稱信息得到向量表達式;
對所述向量表達式進行解碼處理以得到所述圖像的文字描述。
在一些實施例中,利用所述關系權重以及所述名稱信息得到向量表達式,進一步包括:
根據所述關系權重生成所述物體之間的關系向量,并對所述名稱信息進行詞嵌入處理,以得到對象向量;
將所述關系向量和所述對象向量進行乘積運算后得到所述向量表達式。
在一些實施例中,對所述名稱信息進行詞嵌入處理,以得到對象向量,進一步包括:
將每一個所述物體的名稱信息按照標簽詞典編碼為One-Hot值;
利用全連接層將所述One-Hot值映射成長度為512的所述對象向量。
在一些實施例中,對所述向量表達式進行解碼處理以得到所述圖像的文字描述,進一步包括:
對所述向量表達式進行預設次數的多頭注意力和正則化處理;
將經過處理后的所述向量表達式映射為目標單詞的概率分布;
將概率值最大的目標單詞確定為輸出值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于蘇州浪潮智能科技有限公司,未經蘇州浪潮智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010057651.X/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





