[發明專利]一種基于LSTM的二維圖像的目標類別判識方法有效
| 申請號: | 201711071551.7 | 申請日: | 2017-11-03 |
| 公開(公告)號: | CN107748899B | 公開(公告)日: | 2020-09-11 |
| 發明(設計)人: | 徐勇;吳帥 | 申請(專利權)人: | 哈爾濱工業大學深圳研究生院 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市添源知識產權代理事務所(普通合伙) 44451 | 代理人: | 羅志偉 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 lstm 二維 圖像 目標 類別 方法 | ||
本發明提供了一種基于LSTM的二維圖像的目標類別判識方法,包括以下步驟:S1、依照從外至內的環狀串聯的方式將二維圖像轉化為一維矢量,依照行序串聯的方式將二維圖像轉化為一維矢量,依照從列序串聯的方式將二維圖像轉化為一維矢量;S2、將上述三種轉化方式所得到的一維矢量全部送入LSTM網絡進行訓練或者判識,然后輸出三種結果;S3、將LSTM網絡輸出的三種結果進行融合,并基于最終的融合結果進行目標判識。本發明的有益效果是:對二維圖像使用不同的方式得到一維向量可以充分利用二維圖像在空間上的組織關系,明顯提高判別的正確率,且具有很好的可解釋性。
技術領域
本發明涉及圖像識別,尤其涉及一種基于LSTM的二維圖像的目標類別判識方法。
背景技術
LSTM(長短時記憶)深度網絡在目標類別判識中具有重要的應用,但是其僅限于目標表達為一維數據的情形。LSTM網絡的主要優勢在于能夠比較充分利用到序列在時序上的關聯信息。圖1給出了LSTM整體結構示意圖,為了解決傳統RNN網絡存在的梯度消失問題,即后面時間節點對于前面時間節點的感知力下降。LSTM設計了獨具特色的Cell結構來實現記憶功能,保持后續時間節點對于之前時間節點的感知能力,同LSTM還設計了“遺忘門”(Forget Gate)來選擇性的對之前的信息進行遺忘,以過濾掉不必要的冗余信息。
一個序列中的各數據段按照先后順序依次送入到LSTM網絡中進行處理。數據段劃分的示意圖見圖2。假如當前時刻處理的序列中的數據段由序列中的字母I,T,W,H,V,A,S,E,N組成,則下一時刻處理的序列中的數據段由序列中的字母T,W,H,V,A,S,E,N,D組成,下下時刻處理的序列中的數據段由序列中的字母W,H,V,A,S,E,N,D,G組成,以此類推。此處數據段劃分的步長為1。此處理方式運行序列中的信息得到充分應用。
LSTM的直接適用對象為一維數據,不能應用于二維圖像。由于二維圖像是應用中廣泛使用的數據,所以研究者想到了將其轉化為一維矢量后再利用LSTM網絡。
LSTM能夠充分利用到序列的時序間關聯信息。若將其應用到圖像數據,那么在圖像數據轉化為一維向量后,LSTM會充分利用到一維向量所表示圖像的空間組織信息。目前,通常針對圖像的處理方式是將圖像矩陣按照逐行或逐列連接的單一方式進行轉化,得到一維向量。如此單一的轉化方式得到的一維向量無法充分反應出圖像像素的空間組織關系,即此方式忽略了矩陣數據轉化為一維數據時的其他可選方式;且使得圖像數據的二維拓撲結構(不同像素在二維空間上的遠近關系)得不到充分的體現,導致判別的正確率較低。
發明內容
為了解決現有技術中的問題,本發明提供了一種判別的正確率較高的基于LSTM的二維圖像的目標類別判識方法。
本發明提供了一種基于LSTM的二維圖像的目標類別判識方法,包括以下步驟:
S1、依照從外至內的環狀串聯的方式將二維圖像轉化為一維矢量,依照行序串聯的方式將二維圖像轉化為一維矢量,依照從列序串聯的方式將二維圖像轉化為一維矢量;
S2、將上述三種轉化方式所得到的一維矢量全部送入LSTM網絡進行訓練或者判識,然后輸出三種結果;
S3、將LSTM網絡輸出的三種結果進行融合,并基于最終的融合結果進行目標判識。
作為本發明的進一步改進,在步驟S1中,行序串聯是將一個圖像矩陣的第一行、第二行一直到最后一行對應的矢量依次首尾相連結合為一個一維項量。
作為本發明的進一步改進,在步驟S1中,列序串聯是將一個圖像矩陣的第一列、第二列一直到最后一列依次首尾相連結合為一個一維矢量,圖像矩陣最左邊的列稱為第一列,圖像矩陣最右邊的列稱為最后一列。
作為本發明的進一步改進,在步驟S1中,環狀串聯是將一個圖像矩陣以由外至內的方式進行串聯得到一維向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工業大學深圳研究生院,未經哈爾濱工業大學深圳研究生院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711071551.7/2.html,轉載請聲明來源鉆瓜專利網。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





