[發(fā)明專利]一種基于自適應(yīng)權(quán)重的雙路協(xié)同學(xué)習(xí)的視頻分類方法有效
| 申請?zhí)枺?/td> | 201710379016.1 | 申請日: | 2017-05-25 |
| 公開(公告)號: | CN107220616B | 公開(公告)日: | 2021-01-19 |
| 發(fā)明(設(shè)計(jì))人: | 彭宇新;趙韞禛 | 申請(專利權(quán))人: | 北京大學(xué) |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/08 |
| 代理公司: | 北京君尚知識產(chǎn)權(quán)代理有限公司 11200 | 代理人: | 邱曉鋒 |
| 地址: | 100871 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 自適應(yīng) 權(quán)重 協(xié)同 學(xué)習(xí) 視頻 分類 方法 | ||
本發(fā)明提出一種基于自適應(yīng)權(quán)重的雙路協(xié)同學(xué)習(xí)的視頻分類方法,包括以下步驟:利用視頻訓(xùn)練樣本,對預(yù)先使用大規(guī)模圖像數(shù)據(jù)集訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行精細(xì)調(diào)整,得到適用于視頻特征學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型;利用訓(xùn)練得到的卷積神經(jīng)網(wǎng)絡(luò)模型,提取視頻的運(yùn)動(dòng)和靜態(tài)特征,并通過運(yùn)動(dòng)?靜態(tài)協(xié)同學(xué)習(xí)優(yōu)化這兩種特征的表示,最終輸出與運(yùn)動(dòng)和靜態(tài)特征對應(yīng)的兩種預(yù)測得分;利用兩種預(yù)測得分,對于每個(gè)類別自適應(yīng)地學(xué)習(xí)融合權(quán)重,并根據(jù)得到的權(quán)重預(yù)測視頻所屬的語義類別。本發(fā)明通過協(xié)同學(xué)習(xí)和自適應(yīng)權(quán)重學(xué)習(xí)提高了視頻分類的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻分類技術(shù)領(lǐng)域,具體涉及一種基于自適應(yīng)權(quán)重的雙路協(xié)同學(xué)習(xí)的視頻分類方法。
背景技術(shù)
隨著網(wǎng)絡(luò)和多媒體技術(shù)的迅速普及與發(fā)展,互聯(lián)網(wǎng)上的視頻內(nèi)容呈現(xiàn)快速增長的趨勢。有研究報(bào)告指出,YouTube視頻網(wǎng)站每分鐘上傳視頻總長超過300小時(shí)。視頻分類是指通過分析視頻的內(nèi)容給出其具體的類別信息,是視頻與知識進(jìn)行關(guān)聯(lián)的關(guān)鍵步驟,在智能監(jiān)控、人機(jī)交互、老年人護(hù)理等方面都發(fā)揮著重要作用。
近年來,視頻分類受到了研究人員的廣泛關(guān)注。該問題主要面臨著來自以下幾方面的挑戰(zhàn):其一,對于相當(dāng)一部分類別,視頻中會(huì)出現(xiàn)復(fù)雜多變的物體,容易對視頻分類造成干擾。例如,對于“生日宴會(huì)”這個(gè)類別的視頻,其中可能出現(xiàn)鮮花、蛋糕、小刀等復(fù)雜的物體;其二,屬于同種類別的視頻也可能具有相當(dāng)大的差異。例如,對于“婚禮”這個(gè)類別的視頻,婚禮可能在宴會(huì)廳中舉辦,也可能在草坪上舉辦;其三,屬于不同類別的視頻,其差異可能相對較小。例如,對于“顛球”和“罰點(diǎn)球”這兩個(gè)類別的視頻,它們都包含綠茵草坪、人、足球等物體;其四,相對于圖片,受限于拍攝器械、存儲(chǔ)空間等的約束,視頻往往不清晰,而數(shù)據(jù)量可能會(huì)很大(一個(gè)視頻往往由成百上千個(gè)幀組成),因此,對于視頻的特征提取及處理會(huì)更加困難。
傳統(tǒng)方法使用手工特征進(jìn)行視頻分類,但是隨著視頻數(shù)量的飛速增長、視頻語義類別的擴(kuò)充,需要更加強(qiáng)大的特征來支持視頻分類。得益于深度學(xué)習(xí)技術(shù)的突破性進(jìn)展,深度學(xué)習(xí)在大規(guī)模圖像分類、語音識別等領(lǐng)域都取得了良好的效果。在視頻分類上,研究人員也利用深度網(wǎng)絡(luò)建模視頻的運(yùn)動(dòng)和靜態(tài)特征,取得了超越傳統(tǒng)手工特征的效果。基于深度學(xué)習(xí)的視頻分類方法一般采用兩路網(wǎng)絡(luò)來建模視頻中的運(yùn)動(dòng)和靜態(tài)信息。現(xiàn)有方法把視頻的幀和光流分別作為兩路網(wǎng)絡(luò)的輸入,其中視頻幀一路用來提取視頻中的靜態(tài)特征,光流一路則用來提取視頻中的運(yùn)動(dòng)特征。之后采用平均融合的方式對兩路信息進(jìn)行處理,取得最終的結(jié)果。然而,這些方法一方面忽略了運(yùn)動(dòng)和靜態(tài)特征之間的聯(lián)系,因此特征表達(dá)能力不足;另一方面,平均融合的方式忽略了不同類別視頻對于運(yùn)動(dòng)和靜態(tài)兩路特征側(cè)重的不同,難以取得較好的分類效果。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)的不足,本發(fā)明提出一種基于自適應(yīng)權(quán)重的雙路協(xié)同學(xué)習(xí)的視頻分類方法,能夠協(xié)同優(yōu)化視頻中運(yùn)動(dòng)和靜態(tài)兩種特征,并為不同類別的視頻自適應(yīng)地學(xué)習(xí)不同的融合權(quán)重,將二者有機(jī)地結(jié)合在一起,提高了視頻分類的準(zhǔn)確率。
為達(dá)到以上目的,本發(fā)明采用的技術(shù)方案如下:
一種基于自適應(yīng)權(quán)重的雙路協(xié)同學(xué)習(xí)的視頻分類方法,用于根據(jù)視頻內(nèi)容自動(dòng)判斷所屬的語義類別,包括以下步驟:
(1)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型:利用視頻訓(xùn)練樣本,對預(yù)先使用大規(guī)模圖像數(shù)據(jù)集訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行精細(xì)調(diào)整,從而得到適用于視頻特征學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型,并提取視頻的運(yùn)動(dòng)和靜態(tài)兩種特征;
(2)構(gòu)建并訓(xùn)練運(yùn)動(dòng)-靜態(tài)協(xié)同學(xué)習(xí)模型:設(shè)計(jì)協(xié)同學(xué)習(xí)層以構(gòu)建運(yùn)動(dòng)-靜態(tài)協(xié)同學(xué)習(xí)模型,利用步驟(1)中得到的視頻的運(yùn)動(dòng)和靜態(tài)特征作為輸入,通過協(xié)同學(xué)習(xí)優(yōu)化各自特征的表示,并最終輸出視頻的運(yùn)動(dòng)和靜態(tài)特征對應(yīng)的預(yù)測得分;
(3)自適應(yīng)視頻分類:利用步驟(2)中得到的兩種預(yù)測得分,對于每個(gè)語義類別自適應(yīng)學(xué)習(xí)不同的融合權(quán)重,得到運(yùn)動(dòng)和靜態(tài)特征對于不同語義類別所起到作用的權(quán)值,并根據(jù)得到的權(quán)值預(yù)測視頻所屬的語義類別。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京大學(xué),未經(jīng)北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710379016.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 使用后向自適應(yīng)規(guī)則進(jìn)行整數(shù)數(shù)據(jù)的無損自適應(yīng)Golomb/Rice編碼和解碼
- 一種自適應(yīng)軟件UML建模及其形式化驗(yàn)證方法
- 媒體自適應(yīng)參數(shù)的調(diào)整方法、系統(tǒng)及相關(guān)設(shè)備
- 五自由度自適應(yīng)位姿調(diào)整平臺(tái)
- 采用自適應(yīng)機(jī)匣和自適應(yīng)風(fēng)扇的智能發(fā)動(dòng)機(jī)
- 一種自適應(yīng)樹木自動(dòng)涂白裝置
- 一種基于微服務(wù)的多層次自適應(yīng)方法
- 一種天然氣發(fā)動(dòng)機(jī)燃?xì)庾赃m應(yīng)控制方法及系統(tǒng)
- 一種中心自適應(yīng)的焊接跟蹤機(jī)頭
- 一種有砟軌道沉降自適應(yīng)式軌道系統(tǒng)
- 權(quán)重調(diào)整模塊與權(quán)重調(diào)整方法
- 網(wǎng)頁主題的分類方法及裝置
- 接收裝置
- 基于權(quán)重濾波的視頻去噪裝置及方法
- 權(quán)重?cái)?shù)據(jù)存儲(chǔ)方法和基于該方法的神經(jīng)網(wǎng)絡(luò)處理器
- 危害因素的權(quán)重因子的確定方法、裝置及存儲(chǔ)介質(zhì)
- 用于優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法
- 處理器
- 用于對深度神經(jīng)網(wǎng)絡(luò)的權(quán)重進(jìn)行轉(zhuǎn)換的方法和系統(tǒng)
- 神經(jīng)網(wǎng)絡(luò)的量化方法、裝置、服務(wù)器和存儲(chǔ)介質(zhì)
- 移動(dòng)通信終端的協(xié)同方法及其界面系統(tǒng)
- 業(yè)務(wù)協(xié)同流程配置、業(yè)務(wù)協(xié)同方法及裝置
- 一種基于健康檔案共享平臺(tái)的跨醫(yī)院協(xié)同檢查信息系統(tǒng)
- 一種協(xié)同控制方法、協(xié)同控制系統(tǒng)及變頻器
- 基于協(xié)同網(wǎng)關(guān)的跨域協(xié)同交互方法
- 一種生產(chǎn)協(xié)同管理方法及系統(tǒng)
- 云邊協(xié)同方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種智能辦公協(xié)同操作方法及系統(tǒng)
- 一種用于無人裝備的時(shí)間協(xié)同航跡規(guī)劃方法
- 基于大數(shù)據(jù)的智慧辦公協(xié)同方法及系統(tǒng)





