[發明專利]基于卷積神經網絡的快速目標檢測方法有效
| 申請號: | 201510061852.6 | 申請日: | 2015-02-06 |
| 公開(公告)號: | CN104573731B | 公開(公告)日: | 2018-03-23 |
| 發明(設計)人: | 王菡子;郭冠軍;嚴嚴 | 申請(專利權)人: | 廈門大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 廈門南強之路專利事務所(普通合伙)35200 | 代理人: | 馬應森 |
| 地址: | 361005 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 卷積 神經網絡 快速 目標 檢測 方法 | ||
技術領域
本發明涉及計算機視覺技術,具體是涉及一種基于卷積神經網絡的快速目標檢測方法。
背景技術
人類感知世界的一個重要來源就是通過圖像信息,研究表明,人類獲取外界信息中大約有80%~90%的信息來自于人類眼睛獲取的圖像信息。人類對外界圖像信息感知能力很高,可以快速定位目標和分析目標。計算機要具有強大的視覺感知和理解能力,就應該具備類似人類強大的目標檢測和識別能力。目標檢測是視覺感知和目標理解的一個很重要的前提工作,目標獲取的效率和精度決定著視覺感知的速度和效果。一旦計算機具備類似人類強大的目標檢測盒感知能力,就可以更好的在各行業替代人力工作,大大節約生產成本。另外它對日常智能服務行業也提供了強大的支撐。因此,對計算機視覺中的目標檢測技術進行深入研究,不斷提高檢測的準確率,具有重要的現實意義。
目前學術界中解決這兩個問題的發展趨勢是從使用啟發式方法到使用機器學習的方法。所用特征也從手工特征轉向基于任務自適應提取的特征。目標檢測和識別的模型也開始出現從單一特定目標檢測和識別到多目標檢測和識別同時進行的功能轉變。最典型的例子就是深度學習模的出現,解決了傳統目標檢測和識別的模型只針對有限任務的目標檢測和識別任務有效的問題。比如,在2001年,Viola-Jone提出的正面人臉檢測框架基于Harr特征對人臉檢測相當有效,但是對于側臉人臉以及行人檢測效果不是太好。直到2005年,Dalal等人提出HOG特征并且使用SVM對每個平滑窗對應的HOG(Histogram of Gradient)特征進行分類的策略后,垂直行人檢測效果才有了一個質的突破。然而,HOG這一手工特征,對于圖像分類和識別以及任意姿態的行人、動物、植物等目標的檢測效果并不令人滿意。接著形變模型(Deformable Part Models:DPM)應運而生解決有形變的目標檢測問題。形變模型雖然試著解決因形變導致目標檢測不到的問題,但是其模型中需要的形變部件現實中很難理想的捕獲到,原因就沒有一個好的模型和好的特征來識別部件,因此它在多類目標檢測數據集(PASCAL VOC,ImageNet)上效果并不是太好。最近的一個突破性工作是深度學習模型的出現。在最大的圖像分類和目標檢測數據集ImageNet上,基于深度學習模型之一卷積神經網絡(CNN)做的目標檢測和識別精度的提高更是超過以往最高精度一倍之多。最近兩年ImageNet數據集分類和檢測性能出眾的算法幾乎全部采用卷積神經網絡,不同的它們的網絡結構不同。目前ImageNet數據集上圖像分類和目標檢測最高的精度分別為95%和55%。
盡管基于卷積神經網絡的方法在目標檢測和識別上提高了很高的精度,但是由于卷積神經網絡網絡復雜且計算量大,應用在目標檢測上效率并不是很高,目前很多方法都是基于GPU來對目標檢測程序進行加速。給定一張目標圖像,使用平滑窗策略做目標檢測,即使采用GPU加速,其算法復雜度仍然很大,效率極低。為了解決卷積神經網絡在目標檢測上的效率問題,目前學術界主流的解決方案可以分為三類。第一類是基于圖割的方法,先對給定圖像進行圖像分割,通過分割塊得到一些潛在的目標區域。然后用卷積神經網絡對這些目標區域進行特征提取和分類,最終得到目標的位置。這種方法的缺點就是很依賴于圖像分割的好壞。第二類是通過卷積神經網絡對原始圖像提取特征,然后在特征圖上用平滑窗策略做目標位置的回歸和目標的分類。這種方法在利用卷積神經網絡對大圖提取特征時,會丟失一些對分類和回歸有用的特征信息,因此最后的模型的性能無法達到最優。第三類方法則是用卷積神經網絡分類的優勢來尋找部件,進而構建形變模型,采用形變模型的思想對目標做檢測。但是這種把卷積神經網絡的分類和形變模型中的目標檢測分開執行的做法,使得整體框架的檢測效果不是很出眾,另外這種模型的效率也不是很高。
發明內容
本發明的目的在于提出一種基于卷積神經網絡的快速目標檢測方法。
本發明包括以下步驟:
A)準備訓練樣本集(xi,yi),i=1,……,N,N為訓練樣本數,N為自然數,xi表示訓練樣本對應的固定大小的圖像,包含目標且目標充滿畫幅的圖像是正樣本,其他圖像是負樣本;yi表示樣本類別向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門大學,未經廈門大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510061852.6/2.html,轉載請聲明來源鉆瓜專利網。





