[發明專利]一種基于神經網絡及圖像關注點的圖像描述生成方法有效
| 申請號: | 201611169242.9 | 申請日: | 2016-12-16 |
| 公開(公告)號: | CN106777125B | 公開(公告)日: | 2020-10-23 |
| 發明(設計)人: | 胡海峰;楊梁;王騰;張俊軒;王偉軒 | 申請(專利權)人: | 廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 528300 廣東省佛山市順德區大良*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 圖像 關注點 描述 生成 方法 | ||
本發明提供一種基于神經網絡及圖像關注點的圖像描述生成方法,該方法采用兩層字嵌入結構,而不是原先的一層嵌入結構,這樣更有效的學習字表達;圖像的特征表達是直接作為m?RNN模型的輸入的,這樣能充分利用循環層的容量,允許使用小維度的循環層;借助決策軟關注機制,本發明將圖像顯著區域的關注度體現出來,并作為多模態層的一個輸入。通過這個方式,有效地利用了目標或場景間的輕重關系,針對性地描繪圖像的語義特性。
技術領域
本發明涉及計算機視覺領域,更具體地,涉及一種基于神經網絡及圖像關注點的圖像描述生成方法。
背景技術
獲得文本級別的圖像描述已經成為當前計算機視覺領域一個重要的研究課題,而在現實生活中,它有很多應用場景。比如早期的兒童教育,圖像檢索和盲人導航等。隨著計算機視覺和自然語言處理技術的飛速發展,大量關于此課題的有效工作出現,其中很多是將它視為一個檢索問題。研究者們通過學習一個節點嵌入層將文本句子和圖像的特征投影至一個相同的語義空間中。這些方法通過從文本句子數據集中檢索相似描述來生成圖像描述,但是其缺乏能夠產生有效結合目標和場景兩者聯系的圖像描述。
而在圖像描述的工作中,至今有很多方法的提出,但總結起來主要有三種思想:①借助字段與圖像的目標或屬性之間的聯系,通過條件隨機場或Markov隨機場,例如Mitchell等人從語法上將句子描述拆分成幾部分,每一部分和圖像中的某個目標或屬性相關。②在大數據集的支持下,檢索相似的標準已標注圖片,通過歸納和重組檢索的標注來生成新的描述。例如Kuznetsova等人做的工作。③將文本描述和圖像兩個不一樣的模態結合在一起,形成一個多模態空間,在此基礎上學習一個關于文本句子和圖像關系的概率密度,例如SrivastavaSalakhutdinov提出的Deep Boltzmann Machines。
而今好的成功案例,大都依靠循環神經網絡(Recurrent Neural Networks,RNNs)來實現的,而這被證明有很強的上下文語義信息,循環神經網絡已經在眾多自然語言處理(Natural Language Processing,NLP)中取得了巨大成功以及廣泛應用。RNNs引入了定向循環,能夠處理那些輸入之間前后關聯的問題。這使得其很適合用于自然語言處理領域。而RNNs依賴于好的語義表達輸入,對于圖像理解領域,圖像目標或屬性間的關注度沒法通過RNNs體現,且對于神經網絡來說,是屬于高維度的信息處理,計算復雜度高。
發明內容
本發明提供一種基于神經網絡及圖像關注點的圖像描述生成方法,該方法有效地利用了目標或場景間的輕重關系,針對性地描繪圖像的語義特性。
為了達到上述技術效果,本發明的技術方案如下:
一種基于神經網絡及圖像關注點的圖像描述生成方法,包括以下步驟:
S1:構建每一時刻幀t的圖像的多模態模型:
1)訓練集中已標注圖像的文本描述信息分成單個字集,用one-hot向量表示對應字,作為模型的文本模塊的輸入,并經過兩個嵌入層投影至一個稠密字表達空間,成為具有語義的字表達向量Wt;
2)字表達向量用于循環卷積神經網絡RNN某時刻幀t的輸入進行循環卷積神經網絡RNN計算,該時刻幀t的循環層激活Rt是由當前時刻幀的字表達向量和之前時刻幀t-1的循環層Rt-1共同決定的;
3)已標注圖像經過一個卷積神經網絡CNN,并提取圖像的L個顯著特征;
4)圖像的特征作為LSTM的輸入,LSTM中的隱藏層信息采取一種決策‘soft’關注機制可以獲得指定區域特征在全局圖像的重要程度,其重要程度和其特征通過求期望可以算出包含區域關注信息的上下文向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學,未經廣東順德中山大學卡內基梅隆大學國際聯合研究院;中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611169242.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語義認知方法、裝置及系統
- 下一篇:一種支持異構時序數據庫的數據在線遷移方法
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





