[發明專利]一種基于卷積神經網絡的圖像像素分類方法在審
| 申請號: | 201710025737.2 | 申請日: | 2017-01-13 |
| 公開(公告)號: | CN106651887A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 夏春秋 | 申請(專利權)人: | 深圳市唯特視科技有限公司 |
| 主分類號: | G06T7/11 | 分類號: | G06T7/11;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518057 廣東省深圳市高新技術產業園*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 圖像 像素 分類 方法 | ||
技術領域
本發明涉及圖像分割領域,尤其是涉及了一種基于卷積神經網絡的圖像像素分類方法。
背景技術
隨著卷積網絡架構的日益完善,卷積神經網絡已經被廣泛地用于圖像分割,在沒有任何人為干預的情況下,從圖像提取信息并且能夠以高精度識別圖像中的對象。然而,這樣的一個網絡架構需要在一個巨大的數據集上訓練,而且通常沒有足夠的訓練數據用于特定任務,導致了在執行分割任務時前期訓練時間漫長,整體性能差的問題。而如果采用基于卷積神經網絡的圖像像素分類方法,則可以通過使用預訓練模型和轉移學習解決上述問題,還可以應用于人臉識別、指紋識別、交通控制系統、行人檢測、醫學影像等領域。
本發明提出了一種基于卷積神經網絡的圖像像素分類方法,采用核心抽樣框架對圖像進行自動分割,它包含兩階段:輸入圖像首先被疊加在一起并調整為統一大小后被輸入到預訓練的VGG-16模型,獲取對應每個圖像的每一像素生成的中間映射,同一像素對應的多個中間映射形成皮層柱;接下來,從皮層柱的集合中隨機抽取樣本,并將得到的核心樣本反饋到第二階段的深度置信網絡;然后網絡對核心樣本進行像素預測;最后,根據當前任務的不同輸出不同的結果,執行分類任務得到圖像分割后的結果,而執行回歸任務則得到圖像著色后的結果。本發明在圖像分割方面,與現有的技術相比,它有助于產生細粒度分割;使用預訓練的VGG-16模型,提高了整體性能,加快訓練速度,另一個優點是避免使用巨大的數據集;它還使用核心樣本作為第二階段深度置信網絡的輸入,實現了像素級別的圖像分割,提高基于已學習知識的可分性。
發明內容
針對圖像分割過程耗時和分割效果不夠精細的問題,本發明的目的在于提供一種基于卷積神經網絡的圖像像素分類方法。
為解決上述問題,本發明提供一種基于卷積神經網絡的圖像像素分類方法,其主要內容包括:
(一)數據輸入;
(二)預處理;
(三)核心抽樣;
(四)像素預測;
(五)輸出結果。
其中,一種基于卷積神經網絡的圖像像素分類方法,包括核心抽樣框架,創建一個表示,結合來自測試數據的特征和從預訓練網絡的響應中獲得的上下文知識,處理它并將其反饋到單獨的深度置信網絡;使用這種表示法從圖像中在像素級上提取更多的信息,從而獲得對整個圖像的理解;使用這些映射響應,它從幾個作為特征的層到另一個神經網絡轉移學習提供對輸入圖像的理解。
其中,所述的數據輸入,采用由40個易于識別的動物對象類的圖片組成的動物數據集,這40個對象類包含狗、貓、貓頭鷹、海豹等;該數據集中的圖像是單通道圖像且大小不一致。
其中,所述的預處理,在地面真實圖像集中較小的圖片周圍添加填充,使所有輸入圖像的大小都為224×224;在提取映射響應之前,從該數據集較大的圖像中,通過使用224×224大小的滑動窗口和更小的步幅大小來創建同樣大小的圖片;通過改變對比度生成更多訓練數據,單獨地歸一化用作特征的映射響應,并且在測試期間將相同的歸一化參數用于相應的特征。
進一步地,所述的映射響應,將圖像輸入VGG-16模型后得到的來自卷積神經網絡各層的響應,代表該圖像各像素點的特征,可以被視為在圖像不同位置處觀看到圖像的金字塔形狀的不同水平;神經網絡的第一層學習與Gabor特征或顏色塊相似的特征,更深層的映射響應提取到越來越多的抽象特征,用于區分對象和對象的部分信息,同時失去空間和局部信息。
其中,所述的核心抽樣,使用預訓練模型提取映射時,首先從R,G和B值中減去常數來對圖像進行歸一化,接著從網絡的每個層獲取圖像的映射響應,最后使用雙線性插值法獲得皮層柱;定義輸入圖像的每一個像素對應的皮層柱的集合為一個核心,從該核心隨機抽取樣本作為深度置信網絡的輸入。
進一步地,所述的皮層柱,在測試階段期間,將圖像疊加在一起并調整為統一大小后輸入到VGG-16模型,對應每個像素的中間映射形成皮層柱;對應輸入圖像上的一個像素的皮層柱是一個有k列的向量,其中k是在VGG-16模型的中間映射的數量,向量的每一個成分都是一個映射;皮層柱不保留組成映射之間的任何空間相關性,是深度置信網絡的訓練數據。
其中,所述的像素預測,將核心抽樣后得到的核心樣本反饋到深度置信網絡中,根據當前的任務,使用兩種不同類型的輸出層:執行線性回歸并使用均方誤差作為損失函數的回歸層,以及可以使用負對數似然作為損失函數來對像素進行分類的logistic回歸層。
進一步地,所述的線性回歸層和logistic回歸層,通常用于回歸問題的損失函數是均方誤差:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市唯特視科技有限公司,未經深圳市唯特視科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710025737.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種燃煤鍋爐空預器多道復合密封裝置
- 下一篇:油封機構及包括其的豆漿機
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設備、圖像形成系統和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





