[發(fā)明專利]視頻人物識別方法、裝置、存儲介質(zhì)與電子設(shè)備在審
| 申請?zhí)枺?/td> | 201911029707.4 | 申請日: | 2019-10-28 |
| 公開(公告)號: | CN110909613A | 公開(公告)日: | 2020-03-24 |
| 發(fā)明(設(shè)計)人: | 彭冬煒 | 申請(專利權(quán))人: | OPPO廣東移動通信有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G10L17/04;G06K9/62 |
| 代理公司: | 深圳市隆天聯(lián)鼎知識產(chǎn)權(quán)代理有限公司 44232 | 代理人: | 劉抗美 |
| 地址: | 523860 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 視頻 人物 識別 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
本公開提供了一種視頻人物識別方法、視頻人物識別裝置、存儲介質(zhì)與電子設(shè)備,涉及人工智能技術(shù)領(lǐng)域。該方法包括:從目標視頻中獲取關(guān)鍵幀圖像;從所述關(guān)鍵幀圖像中提取人物外觀特征;根據(jù)所述關(guān)鍵幀圖像在所述目標視頻中的時間,從所述目標視頻的音頻中截取所述關(guān)鍵幀圖像對應(yīng)的子音頻,從所述子音頻中提取聲紋特征;利用預(yù)先訓(xùn)練的融合模型對所述人物外觀特征和所述聲紋特征進行處理,得到所述目標視頻的人物識別結(jié)果。本公開可以融合視頻中的多模態(tài)特征,實現(xiàn)較高的人物識別準確度,并適用于視頻中人臉圖像清晰度不高或被遮擋等情況,具有較高的魯棒性。
技術(shù)領(lǐng)域
本公開涉及人工智能技術(shù)領(lǐng)域,尤其涉及一種視頻人物識別方法、視頻人物識別裝置、計算機可讀存儲介質(zhì)與電子設(shè)備。
背景技術(shù)
視頻人物識別是指識別出視頻中的人物身份,以對視頻進行分類或者添加人物標簽等,在安防、視頻分類、視頻內(nèi)容審核、智能相冊等場景中有著重要的應(yīng)用。
相關(guān)技術(shù)中,視頻人物識別主要是基于視頻圖像中的人臉識別而實現(xiàn)的,從視頻中檢測出包含人臉的圖像,再對圖像中的人臉進一步精確識別,以確定人物身份。該方法對人臉圖像的清晰度有較高要求,當人臉圖像不夠清晰,或者被遮擋時,識別結(jié)果的準確度較低。
因此,有必要提出一種新的視頻人物識別方法,以解決上述技術(shù)問題。
需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
發(fā)明內(nèi)容
本公開提供一種視頻人物識別方法、視頻人物識別裝置、計算機可讀存儲介質(zhì)與電子設(shè)備,進而至少在一定程度上提高視頻人物識別的準確度。
本公開的其他特性和優(yōu)點將通過下面的詳細描述變得顯然,或部分地通過本公開的實踐而習(xí)得。
根據(jù)本公開的第一方面,提供一種視頻人物識別方法,包括:從目標視頻中獲取關(guān)鍵幀圖像;從所述關(guān)鍵幀圖像中提取人物外觀特征;根據(jù)所述關(guān)鍵幀圖像在所述目標視頻中的時間,從所述目標視頻的音頻中截取所述關(guān)鍵幀圖像對應(yīng)的子音頻,從所述子音頻中提取聲紋特征;利用預(yù)先訓(xùn)練的融合模型對所述人物外觀特征和所述聲紋特征進行處理,得到所述目標視頻的人物識別結(jié)果。
根據(jù)本公開的第二方面,提供一種視頻人物識別裝置,包括:圖像獲取模塊,用于從目標視頻中獲取關(guān)鍵幀圖像;第一提取模塊,用于從所述關(guān)鍵幀圖像中提取人物外觀特征;第二提取模塊,用于根據(jù)所述關(guān)鍵幀圖像在所述目標視頻中的時間,從所述目標視頻的音頻中截取所述關(guān)鍵幀圖像對應(yīng)的子音頻,從所述子音頻中提取聲紋特征;特征處理模塊,用于利用預(yù)先訓(xùn)練的融合模型對所述人物外觀特征和所述聲紋特征進行處理,得到所述目標視頻的人物識別結(jié)果。
根據(jù)本公開的第三方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述視頻人物識別方法。
根據(jù)本公開的第四方面,提供一種電子設(shè)備,包括:處理器;以及存儲器,用于存儲所述處理器的可執(zhí)行指令;其中,所述處理器配置為經(jīng)由執(zhí)行所述可執(zhí)行指令來執(zhí)行上述視頻人物識別方法。
本公開的技術(shù)方案具有以下有益效果:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于OPPO廣東移動通信有限公司,未經(jīng)OPPO廣東移動通信有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911029707.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標記或含有代碼標記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合





