[發(fā)明專(zhuān)利]一種短視頻分類(lèi)方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910540170.1 | 申請(qǐng)日: | 2019-06-20 |
| 公開(kāi)(公告)號(hào): | CN110647903A | 公開(kāi)(公告)日: | 2020-01-03 |
| 發(fā)明(設(shè)計(jì))人: | 魏陳超;范俊 | 申請(qǐng)(專(zhuān)利權(quán))人: | 杭州趣維科技有限公司 |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06K9/00;G06F16/75 |
| 代理公司: | 33283 杭州天昊專(zhuān)利代理事務(wù)所(特殊普通合伙) | 代理人: | 董世博 |
| 地址: | 310007 浙江省杭州市西湖*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 預(yù)測(cè) 截取 融合 視頻 視頻分類(lèi) 視頻截取 輸入視頻 隨機(jī)采樣 圖片輸入 圖像處理 網(wǎng)絡(luò)測(cè)試 網(wǎng)絡(luò)訓(xùn)練 預(yù)測(cè)結(jié)果 等間隔 幀數(shù) 取出 分類(lèi) | ||
本發(fā)明公開(kāi)了一種短視頻分類(lèi)方法,包括以下步驟:網(wǎng)絡(luò)訓(xùn)練;網(wǎng)絡(luò)測(cè)試,包括對(duì)待分類(lèi)的短視頻進(jìn)行等間隔截幀,每個(gè)視頻截取一定幀數(shù);對(duì)截取的幀,通過(guò)圖像處理,取出一定大小的圖片輸入模型進(jìn)行預(yù)測(cè),在Softmax之前融合截取的幀和不同流的預(yù)測(cè)分?jǐn)?shù),最終得出結(jié)果,所述模型通過(guò)如下方式得到:一個(gè)輸入視頻被分為K段,一個(gè)片段從它對(duì)應(yīng)的段中隨機(jī)采樣得到,不同片段的類(lèi)別得分采用段共識(shí)函數(shù)進(jìn)行融合來(lái)產(chǎn)生段共識(shí),得到一個(gè)視頻級(jí)的預(yù)測(cè),然后對(duì)所有模式的預(yù)測(cè)融合產(chǎn)生最終的預(yù)測(cè)結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域,具體涉及一種短視頻分類(lèi)方法。
背景技術(shù)
現(xiàn)有技術(shù)中視頻分類(lèi)訓(xùn)練有基于Two-Stream及其衍生系列的,基本原理是訓(xùn)練兩個(gè)卷積網(wǎng)絡(luò),分別對(duì)視頻幀圖像(spatial)和密集光流(temporal)進(jìn)行建模,兩個(gè)網(wǎng)絡(luò)的結(jié)構(gòu)是一樣的,都是二維卷積(2D ConvNets),如圖1所示。兩個(gè)stream的網(wǎng)絡(luò)分別對(duì)視頻的類(lèi)別進(jìn)行判斷,得到類(lèi)別分?jǐn)?shù)(class score),然后進(jìn)行分?jǐn)?shù)的融合,得到最終的分類(lèi)結(jié)果。使用以上方法進(jìn)行視頻分類(lèi)訓(xùn)練存在以下問(wèn)題:(1)提前計(jì)算光流需要額外占用GPU計(jì)算時(shí)間和存儲(chǔ)空間,已經(jīng)成為two-stream算法的瓶頸;(2)傳統(tǒng)的光流計(jì)算方法完全獨(dú)立于two-stream 框架,不是端到端訓(xùn)練,提前的運(yùn)動(dòng)信息不是最優(yōu)的;(3)無(wú)法解決長(zhǎng)時(shí)序問(wèn)題。
另一種是基于3D卷積及其衍生系列,現(xiàn)有技術(shù)中2D的卷積操作是將卷積核在輸入圖像或特征圖上進(jìn)行滑窗,得到下一層的特征圖。例如,在一個(gè)單通道的圖像上做卷積在一個(gè)多通道的圖像上做卷積(這里的多通道圖像可以指同一張圖片的3個(gè)顏色通道,也指多張堆疊在一起的幀,即一小段視頻),最終的輸出都是一張二維的特征圖,也就是說(shuō),多通道的信息被完全壓縮了。而在3D 卷積中,為了保留時(shí)序的信息,對(duì)卷積核進(jìn)行了調(diào)整,增加了一維時(shí)域深度。 3D卷積的輸出仍是一個(gè)三維的特征圖。因此通過(guò)3D卷積,C3D(深度3維卷積網(wǎng)絡(luò),3D ConvNets)可以直接處理視頻,同時(shí)利用表觀(guān)特征和時(shí)序特征。使用以上方法進(jìn)行視頻分類(lèi)訓(xùn)練存在以下問(wèn)題:參數(shù)量巨大,訓(xùn)練時(shí)間長(zhǎng),容易過(guò)擬合,在各個(gè)公開(kāi)數(shù)據(jù)集上表現(xiàn)一般計(jì)算量大,不能實(shí)時(shí)應(yīng)用。
發(fā)明內(nèi)容
鑒于以上存在的技術(shù)問(wèn)題,本發(fā)明用于提供一種短視頻分類(lèi)方法,用于解決長(zhǎng)時(shí)序問(wèn)題,可以實(shí)現(xiàn)3D CNN的性能,但保持2D復(fù)雜性。
為解決上述技術(shù)問(wèn)題,本發(fā)明采用如下的技術(shù)方案:
一種短視頻分類(lèi)方法,包括以下步驟:
網(wǎng)絡(luò)訓(xùn)練,包括選擇BN-Inception構(gòu)建模塊;在學(xué)習(xí)過(guò)程中,BatchNormalization將估計(jì)每個(gè)batch內(nèi)的激活均值和方差,并使用它們將這些激活值轉(zhuǎn)換為標(biāo)準(zhǔn)高斯分布;在用預(yù)訓(xùn)練模型初始化后,凍結(jié)所有Batch Normalization層的均值和方差參數(shù),但第一個(gè)標(biāo)準(zhǔn)化層除外;在BN-Inception 的全局pooling層后添加一個(gè)額外的dropout層;使用小批量隨機(jī)梯度下降算法來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù);用在ImageNet上預(yù)訓(xùn)練的模型對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行初始化;
網(wǎng)絡(luò)測(cè)試,包括對(duì)待分類(lèi)的短視頻進(jìn)行等間隔截幀,每個(gè)視頻截取一定幀數(shù);對(duì)截取的幀,通過(guò)圖像處理,取出一定大小的圖片輸入模型進(jìn)行預(yù)測(cè),在 Softmax之前融合截取的幀和不同流的預(yù)測(cè)分?jǐn)?shù),最終得出結(jié)果,所述模型通過(guò)如下方式得到:一個(gè)輸入視頻被分為K段,一個(gè)片段從它對(duì)應(yīng)的段中隨機(jī)采樣得到,不同片段的類(lèi)別得分采用段共識(shí)函數(shù)進(jìn)行融合來(lái)產(chǎn)生段共識(shí),得到一個(gè)視頻級(jí)的預(yù)測(cè),然后對(duì)所有模式的預(yù)測(cè)融合產(chǎn)生最終的預(yù)測(cè)結(jié)果。
優(yōu)選地,dropout層的dropout比例設(shè)置:空間流卷積網(wǎng)絡(luò)設(shè)置為0.8,時(shí)間流卷積網(wǎng)絡(luò)設(shè)置為0.7。
優(yōu)選地,所述一個(gè)輸入視頻被分為K段,一個(gè)片段從它對(duì)應(yīng)的段中隨機(jī)采樣得到,不同片段的類(lèi)別得分采用段共識(shí)函數(shù)進(jìn)行融合來(lái)產(chǎn)生段共識(shí),得到一個(gè)視頻級(jí)的預(yù)測(cè),然后對(duì)所有模式的預(yù)測(cè)融合產(chǎn)生最終的預(yù)測(cè)結(jié)果具體包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于杭州趣維科技有限公司,未經(jīng)杭州趣維科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910540170.1/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類(lèi)預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





