[發(fā)明專利]一種短視頻分類方法在審
| 申請(qǐng)?zhí)枺?/td> | 201910540170.1 | 申請(qǐng)日: | 2019-06-20 |
| 公開(公告)號(hào): | CN110647903A | 公開(公告)日: | 2020-01-03 |
| 發(fā)明(設(shè)計(jì))人: | 魏陳超;范俊 | 申請(qǐng)(專利權(quán))人: | 杭州趣維科技有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06K9/00;G06F16/75 |
| 代理公司: | 33283 杭州天昊專利代理事務(wù)所(特殊普通合伙) | 代理人: | 董世博 |
| 地址: | 310007 浙江省杭州市西湖*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 預(yù)測(cè) 截取 融合 視頻 視頻分類 視頻截取 輸入視頻 隨機(jī)采樣 圖片輸入 圖像處理 網(wǎng)絡(luò)測(cè)試 網(wǎng)絡(luò)訓(xùn)練 預(yù)測(cè)結(jié)果 等間隔 幀數(shù) 取出 分類 | ||
1.一種短視頻分類方法,其特征在于,包括以下步驟:
網(wǎng)絡(luò)訓(xùn)練,包括選擇BN-Inception構(gòu)建模塊;在學(xué)習(xí)過(guò)程中,Batch Normalization將估計(jì)每個(gè)bach內(nèi)的激活均值和方差,并使用它們將這些激活值轉(zhuǎn)換為標(biāo)準(zhǔn)高斯分布;在用預(yù)訓(xùn)練模型初始化后,凍結(jié)所有Batch Normalization層的均值和方差參數(shù),但第一個(gè)標(biāo)準(zhǔn)化層除外;在BN-Inception的全局pooling層后添加一個(gè)額外的dropout層;使用小批量隨機(jī)梯度下降算法來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù);用在ImageNet上預(yù)訓(xùn)練的模型對(duì)網(wǎng)絡(luò)權(quán)重進(jìn)行初始化;
網(wǎng)絡(luò)測(cè)試,包括對(duì)待分類的短視頻進(jìn)行等間隔截幀,每個(gè)視頻截取一定幀數(shù);對(duì)截取的幀,通過(guò)圖像處理,取出一定大小的圖片輸入模型進(jìn)行預(yù)測(cè),在Softmax之前融合截取的幀和不同流的預(yù)測(cè)分?jǐn)?shù),最終得出結(jié)果,所述模型通過(guò)如下方式得到:一個(gè)輸入視頻被分為K段,一個(gè)片段從它對(duì)應(yīng)的段中隨機(jī)采樣得到,不同片段的類別得分采用段共識(shí)函數(shù)進(jìn)行融合來(lái)產(chǎn)生段共識(shí),得到一個(gè)視頻級(jí)的預(yù)測(cè),然后對(duì)所有模式的預(yù)測(cè)融合產(chǎn)生最終的預(yù)測(cè)結(jié)果。
2.如權(quán)利要求1所述的短視頻分類方法,其特征在于,dropout層的dropout比例設(shè)置:空間流卷積網(wǎng)絡(luò)設(shè)置為0.8,時(shí)間流卷積網(wǎng)絡(luò)設(shè)置為0.7。
3.如權(quán)利要求1所述的短視頻分類方法,其特征在于,所述一個(gè)輸入視頻被分為K段,一個(gè)片段從它對(duì)應(yīng)的段中隨機(jī)采樣得到,不同片段的類別得分采用段共識(shí)函數(shù)進(jìn)行融合來(lái)產(chǎn)生段共識(shí),得到一個(gè)視頻級(jí)的預(yù)測(cè),然后對(duì)所有模式的預(yù)測(cè)融合產(chǎn)生最終的預(yù)測(cè)結(jié)果具體包括:
給定一段視頻V,把它按相等間隔分為K段{S1,S2,S3,.......,SK},接著,TSN按如下方式對(duì)一系列片段進(jìn)行建模:
TSN(T1,T2,......,TK)=H(G(F(T1;W),F(xiàn)(T2;W),......,F(xiàn)(TK;W)))
其中:(T1,T2,......,TK)代表片段序列,每個(gè)片段TK從它對(duì)應(yīng)的段Sk中隨機(jī)采樣得到;F(Tk;W)函數(shù)代表采用W作為參數(shù)的卷積網(wǎng)絡(luò)作用于短片段Tk,函數(shù)返回Tk相對(duì)于所有類別的得分;段共識(shí)函數(shù)G結(jié)合多個(gè)短片段的類別得分輸出以獲得他們之間關(guān)于類別假設(shè)的共識(shí);基于這個(gè)共識(shí),預(yù)測(cè)函數(shù)H預(yù)測(cè)整段視頻屬于每個(gè)行為類別的概率;結(jié)合標(biāo)準(zhǔn)分類交叉熵?fù)p失,關(guān)于部分共識(shí)的最終損失函數(shù)G的形式為:
其中,C是行為總類別數(shù),yi是類別i的標(biāo)定好的真實(shí)數(shù)據(jù),Gi=g(Fi(T1),...,F(xiàn)i(TK)),采用聚合函數(shù)g從所有片段中相同類別的得分中推斷出某個(gè)類別分?jǐn)?shù)Gi,聚合函數(shù)g采用均勻平均法來(lái)表示最終識(shí)別精度。
4.如權(quán)利要求3所述的短視頻分類方法,其特征在于,用標(biāo)準(zhǔn)反向傳播算法,利用多個(gè)片段來(lái)聯(lián)合優(yōu)化模型參數(shù)W,在反向傳播過(guò)程中,模型參數(shù)W關(guān)于損失值L的梯度為:
其中,K是TSN使用的段數(shù),TSN從整個(gè)視頻中學(xué)習(xí)模型參數(shù)而不是一個(gè)短的片段,通過(guò)對(duì)所有視頻固定K。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州趣維科技有限公司,未經(jīng)杭州趣維科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910540170.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法、程序以及記錄介質(zhì)
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 基于時(shí)間序列預(yù)測(cè)模型適用性量化的預(yù)測(cè)模型選擇方法
- 圖像編碼裝置、圖像編碼方法、圖像譯碼裝置、圖像譯碼方法
- 分類預(yù)測(cè)方法及裝置、預(yù)測(cè)模型訓(xùn)練方法及裝置
- 幀內(nèi)預(yù)測(cè)的方法及裝置
- 圖像預(yù)測(cè)方法及裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 文本預(yù)測(cè)方法、裝置以及電子設(shè)備
- 模型融合方法、預(yù)測(cè)方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





