[發明專利]一種基于卷積神經網絡的特定視頻檢測方法在審
| 申請號: | 201610045369.3 | 申請日: | 2016-01-22 |
| 公開(公告)號: | CN105718890A | 公開(公告)日: | 2016-06-29 |
| 發明(設計)人: | 彭宇新;何相騰 | 申請(專利權)人: | 北京大學 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙) 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 卷積 神經網絡 特定 視頻 檢測 方法 | ||
技術領域
本發明涉及視頻識別與檢索技術領域,具體涉及一種基于卷積神經網絡的特定視頻檢測方法。
背景技術
近年來,隨著互聯網技術與多媒體技術的迅速發展,網絡上出現了海量的視頻內容,而各種敏感內容的出現已經嚴重危害國家安全和人民群眾的正常生活,因此如何利用計算機來進行有效地監管,迅速準確地檢測特定視頻,成為了一個急待解決的關鍵問題。傳統的特定視頻檢測的方法一般是基于各種視覺特征,如詞袋(BagofWords,BoW)特征。然而人工設計的這種特征沒有充分利用大數據的優勢,對于視頻信息的表示具有一定的局限性。而深度神經網絡,尤其是卷積神經網絡(ConvolutionalNeuralNetwork,CNN)作為一種有效的分類模型已經在計算機視覺的多個領域取得了很大成功。因此,基于卷積神經網絡的特定視頻檢測方法受到了了研究者的廣泛關注,其充分利用大數據的優勢,在海量視頻數據中自動學習視頻的視覺語義特征,極大地提高了特定視頻檢測的準確率。
典型的特定視頻檢測方法主要包括三個階段:第一階段,對于視頻關鍵幀提取特征,特征提取的方式有兩種:一種是密集型的特征提取,一種是針對興趣點進行特征提取。第二階段,將這些提取的特征聚合在一起,形成一個固定大小的特征向量用于表示視頻的每一幀。一種普遍使用的方法是利用學習得到的詞典對特征進行量化,并得到表示視頻關鍵幀的直方圖向量,即BoW特征。第三階段,基于BoW特征訓練得到一個能夠進行特定視頻檢測的分類器,如支持向量機(SupportVectorMachine,SVM)。該方法對特定視頻進行檢測的效果優劣主要取決于視頻特征的優劣。該特征通常依賴于研究者的先驗知識,對視頻信息的表示具有一定的局限性。除了特征表示的局限性以外,該方法的三個階段是分別學習或設計的,而對三個階段之間的相互作用沒有很好地進行探索研究。
近年來,深度神經網絡在計算機視覺的多個領域均有突出表現,例如圖像分類、目標識別、人臉識別等。深度神經網絡算法是一種端到端的學習算法,其由原始的像素值直接映射到分類輸出,解決了傳統特定視頻檢測方法存在的問題。深度神經網絡可以充分利用海量視頻數據自動進行特征的學習,相比于手工設計的特征能夠更好地對視頻概念進行表示。其次,深度神經網絡這種端到端的學習過程將特征表示和分類器訓練兩個階段有機地結合在一起,不僅簡化了學習過程,同時考慮了二者之間的相互關系,有效地提升了特定視頻的檢測準確率。
發明內容
針對現有技術的不足,本發明提出了一種基于卷積神經網絡的特定視頻檢測方法,能夠從大規模視頻數據中自動學習視頻的特征表示,考慮了特征學習與分類學習兩個任務的相互作用關系,將二者有機地結合在一起,極大提高了特定視頻檢測的準確率。
為達到以上目的,本發明采用的技術方案如下:
一種基于卷積神經網絡的特定視頻檢測方法,用于分析理解視頻內容并判斷是否為特定視頻,包括以下步驟:
(1)訓練卷積神經網絡模型:利用標注的正樣本和負樣本對預先使用大規模數據集訓練得到的卷積神經網絡模型進行精細調整,從而得到適用于特定視頻檢測的卷積神經網絡模型;
(2)特定視頻檢測:利用步驟(1)中訓練得到的卷積神經網絡模型對待識別的視頻關鍵幀直接計算出特征,并進行預測來判斷是否為特定視頻。
進一步,上述一種基于卷積神經網絡的特定視頻檢測方法,所述步驟(1)中,訓練卷積神經網絡模型的第一步是預訓練(pre-training)卷積神經網絡。利用大規模的數據集訓練得到卷積神經網絡模型,在訓練過程中僅使用圖像級別的標注信息。
進一步,上述一種基于卷積神經網絡的特定視頻檢測方法,所述步驟(1)中,訓練卷積神經網絡模型的第二步是精細調整(fine-tuning)卷積神經網絡模型。根據目標任務,利用已標注的視頻信息對卷積神經網絡模型的參數進行調整,使其能夠更好地適用于目標任務。
進一步,上述一種基于卷積神經網絡的特定視頻檢測方法,所述步驟(2)中,將待識別的視頻抽取關鍵幀,將視頻關鍵幀作為步驟(1)中訓練得到的卷積神經網絡模型的輸入,根據卷積神經網絡模型的輸出計算得到視頻關鍵幀的預測得分,以此來判斷是否為特定視頻。
本發明的效果在于:與現有方法相比,本發明能夠充分利用大量的視頻數據來自動學習特征,學習得到視頻的高層特征表示,使得特定視頻檢測的效果有較大幅度的提升。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京大學,未經北京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610045369.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可增強對比度的服務器機柜室
- 下一篇:障礙物預警方法和障礙物預警裝置





