[發(fā)明專利]一種視頻標簽生成方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202010102731.2 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111368140B | 公開(公告)日: | 2023-07-04 |
| 發(fā)明(設(shè)計)人: | 孔杰 | 申請(專利權(quán))人: | 新華智云科技有限公司 |
| 主分類號: | G06F16/78 | 分類號: | G06F16/78;G06F16/75;G06N3/0464;G06N3/08 |
| 代理公司: | 杭州裕陽聯(lián)合專利代理有限公司 33289 | 代理人: | 田金霞 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 視頻 標簽 生成 方法 系統(tǒng) | ||
本發(fā)明披露一種視頻標簽生成方法及系統(tǒng),包括構(gòu)建視頻標簽庫;根據(jù)視頻標簽庫內(nèi)標簽訓(xùn)練多標簽的圖像分類模型;對待標注的視頻抽取關(guān)鍵幀,獲取每一關(guān)鍵幀對應(yīng)時間戳,將關(guān)鍵幀送入訓(xùn)練好的圖像分類模型,得到關(guān)鍵幀的標簽向量;對得到的關(guān)鍵幀的標簽向量進行整合,輸出視頻標簽和標簽對應(yīng)的時間戳。本發(fā)明是一種帶時間戳的多標簽的視頻標簽生成方法和系統(tǒng),能夠?qū)σ欢屋斎胍曨l自動打上視頻標簽,并輸出每個視頻標簽對應(yīng)的在視頻中的時間戳,從而得到完整精細的視頻標簽。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種自動視頻標簽生產(chǎn)方法及系統(tǒng)。
背景技術(shù)
視頻標簽是指用于描述視頻特征的特定短語,給視頻打上標簽可以幫助用戶對視頻內(nèi)容進行快速而高效的檢索。目前視頻標簽的生成方法主要是靠人工打標,對于在線的視頻標簽生成方法,主要基于對圖像、視頻或語音文本理解等方面入手。從圖像角度出發(fā),主要是從視頻中提取幀,得到圖片,然后對圖片進行打標,最后將視頻的圖像標簽進行整合,得到視頻標簽。從視頻角度出發(fā),主要是運用視頻理解的方法得到視頻標簽。從語音文本角度出發(fā),主要是先提取視頻的語音或字幕等信息,運用對語音文本的分析方法得到視頻標簽。
現(xiàn)有技術(shù)的主要缺陷有:(1)人工視頻標簽標注耗費大量的人力,效率極低;(2)現(xiàn)有的在線視頻標簽生成方法通常是對整段視頻的描述,不能精確到視頻的具體時間點,不包含時間信息,不夠精細;(3)基于圖像的視頻標簽生成方法,通常訓(xùn)練的是單標簽的分類模型,對抽取的視頻幀圖像進行分類得到單標簽的分類結(jié)果,但實際上視頻幀圖像可能對應(yīng)多個標簽,這樣生成的視頻標簽不完整,不能充分描述視頻特征。
發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中的缺點,提供了一種帶時間戳的多標簽的視頻標簽生成方法和系統(tǒng)。
為了解決上述技術(shù)問題,本發(fā)明通過下述技術(shù)方案得以解決:
一種視頻標簽生成方法,包括
構(gòu)建視頻標簽庫;
根據(jù)視頻標簽庫內(nèi)標簽訓(xùn)練多標簽的圖像分類模型;
對待標注的視頻抽取關(guān)鍵幀,獲取每一關(guān)鍵幀對應(yīng)時間戳,將關(guān)鍵幀送入訓(xùn)練好的圖像分類模型,得到關(guān)鍵幀的標簽向量;
對得到的關(guān)鍵幀的標簽向量進行整合,輸出視頻標簽和標簽對應(yīng)的時間戳。
其中,每一關(guān)鍵幀對應(yīng)所述標簽向量維度為1*N,抽取M組關(guān)鍵幀,將所有關(guān)鍵幀標簽向量按行拼接,得到標簽矩陣i為關(guān)鍵幀編號,j為標簽編號,*表示乘號;
對于標簽Tj(j=0,1,…,N-1),若存在關(guān)鍵幀F(xiàn)i(i=0,1,…,M-1),使得Gij=1,則輸出視頻標簽Tj,此時,對所有關(guān)鍵幀F(xiàn)i(i=0,1,…,M-1),若Gij=1,則輸出視頻標簽Tj對應(yīng)的時間戳為ti。
可選的,訓(xùn)練多標簽的圖像分類模型步驟包括:
收集和整理與標簽庫內(nèi)標簽類別對應(yīng)的圖像,打上相應(yīng)的類別標簽;
將卷積神經(jīng)網(wǎng)絡(luò)最后一層設(shè)置為N個全連接層,每個全連接層的輸出通道為2,共2N個輸出通道;
訓(xùn)練時對每一張輸入圖像的真值表示為長度為2N的向量;
計算每個batch的損失函數(shù);
訓(xùn)練模型迭代至指定迭代次數(shù)或損失函數(shù)收斂至指定值;
使用訓(xùn)練好的圖像分類模型進行預(yù)測,得到標簽向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于新華智云科技有限公司,未經(jīng)新華智云科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010102731.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





