[發(fā)明專利]一種基于圖像集合的快速多模態(tài)視頻人臉識(shí)別方法有效
| 申請(qǐng)?zhí)枺?/td> | 202111242020.6 | 申請(qǐng)日: | 2021-10-25 |
| 公開(公告)號(hào): | CN113887509B | 公開(公告)日: | 2022-06-03 |
| 發(fā)明(設(shè)計(jì))人: | 高希占;牛四杰;董吉文 | 申請(qǐng)(專利權(quán))人: | 濟(jì)南大學(xué) |
| 主分類號(hào): | G06V20/40 | 分類號(hào): | G06V20/40;G06V40/16;G06V10/764;G06V10/80;G06K9/62;G06T5/40;G06T7/38 |
| 代理公司: | 濟(jì)南領(lǐng)升專利代理事務(wù)所(普通合伙) 37246 | 代理人: | 王吉勇 |
| 地址: | 250022 山東省濟(jì)*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 圖像 集合 快速 多模態(tài) 視頻 識(shí)別 方法 | ||
本發(fā)明公開了一種基于圖像集合的快速多模態(tài)視頻人臉識(shí)別方法,所述方法的實(shí)現(xiàn)包括:輸入多模態(tài)人臉視頻序列視頻數(shù)據(jù),對(duì)所述多模態(tài)人臉視頻序列視頻數(shù)據(jù)進(jìn)行預(yù)處理操作,以獲得圖像集數(shù)據(jù);對(duì)獲得的所述圖像集數(shù)據(jù)進(jìn)行建模表示,生成每個(gè)圖像集的矩陣協(xié)方差;將所述矩陣協(xié)方差做為特征圖像,輸入到雙向二維分?jǐn)?shù)階協(xié)方差相關(guān)分析中,優(yōu)化求解后得到最優(yōu)的投影方向,得到每個(gè)視頻序列的特征圖像,將所述特征圖像投影到低維共享子空間,并進(jìn)行信息融合;信息融合后,使用最近鄰分類器進(jìn)行分類。通過采用本發(fā)明的技術(shù)方案,能夠有效減少視頻識(shí)別時(shí)間,提高視頻識(shí)別精度。
技術(shù)領(lǐng)域
本發(fā)明涉及視頻人臉識(shí)別技術(shù)領(lǐng)域,具體提供一種基于圖像集合的快速多模態(tài)視頻人臉識(shí)別方法。
背景技術(shù)
視覺是人類接收信息的主要方式,在人類感知外界的過程中起著十分重要的作用。隨著社會(huì)的發(fā)展,“電子眼”逐漸代替人眼來觀察記錄世間萬物,導(dǎo)致每天產(chǎn)生海量的圖像、視頻數(shù)據(jù)。網(wǎng)絡(luò)直播、短視頻等平臺(tái)的普及則進(jìn)一步加速了數(shù)據(jù)規(guī)模的增長(zhǎng)。隨著人工智能技術(shù)的發(fā)展,目前基于單幅圖像的人臉識(shí)別方法已經(jīng)較為成熟,但基于視頻的人臉識(shí)別方法仍有待進(jìn)一步研究,近年來受到了研究人員的廣泛關(guān)注。與單幅圖像相比,關(guān)于某人的視頻人臉序列可以提供更加豐富的描述信息,例如不同的表情信息、不同的姿勢(shì)信息、不同的光照信息等。然而如何充分利用、挖掘這些視頻中含有的有用信息,則給研究者帶來了很大的挑戰(zhàn),主要包括:如何針對(duì)視頻內(nèi)容進(jìn)行緊致、有效的建模,以及如何針對(duì)該模型設(shè)計(jì)合理的度量準(zhǔn)則。
作為一種新興的模式識(shí)別方法,基于集合的視頻人臉識(shí)別,即圖像集分類近年來引起了研究者越來越多的關(guān)注,并取得了一些的研究成果。圖像集分類的關(guān)鍵在于兩點(diǎn):集合的建模表示以及集合間距離的度量,而距離度量通常依賴于建模表示方法,因此從集合建模角度出發(fā),圖像集分類方法可以分為兩類:即參數(shù)表示法和非參數(shù)表示法,其中:
參數(shù)表示法使用參數(shù)分布函數(shù)表示每個(gè)圖像集,然后使用K-L散度來度量?jī)蓚€(gè)分布函數(shù)之間的相似性。但參數(shù)表示法具有明顯的局限性,即如果訓(xùn)練圖像集與測(cè)試圖像集之間的統(tǒng)計(jì)相關(guān)性較弱,其性能會(huì)受到較大的影響。
非參數(shù)表示法則是使用一些更靈活的方式表示圖像集,例如使用凸包(ConvexHull)、仿射包(Affine Hull)、子空間(Subspace)、圖模型(Graph)、矩陣協(xié)方差(Covariance Matrix)、聚合特征向量等等。在這其中,矩陣協(xié)方差建模因其簡(jiǎn)潔有效性,被應(yīng)用到了多種方法中。但目前存在的基于矩陣協(xié)方差建模的方法都是基于單模態(tài)特征構(gòu)建的,最終的分類結(jié)果有待進(jìn)一步提升,而且其無法有效處理多模態(tài)圖像集分類問題。其次,基于矩陣協(xié)方差的方法在建模之后,通常會(huì)使用傳統(tǒng)特征提取算法如LDA,PLS等進(jìn)行度量學(xué)習(xí),而這些算法計(jì)算復(fù)雜度通常較高,尤其是當(dāng)樣本維度比較大時(shí)。再者,建模方法中使用的矩陣協(xié)方差都是基于訓(xùn)練數(shù)據(jù)估算得到的,而這種估計(jì)有可能會(huì)偏離數(shù)據(jù)的真實(shí)分布。
發(fā)明內(nèi)容
本發(fā)明的技術(shù)任務(wù)是針對(duì)上述存在的問題,提供一種基于圖像集合的快速多模態(tài)視頻人臉識(shí)別方法,其能夠提高圖像集分類的效率和準(zhǔn)確率。
為實(shí)現(xiàn)上述目的,本發(fā)明一方面提供了如下技術(shù)方案:
一種基于圖像集合的快速多模態(tài)視頻人臉識(shí)別方法,其特征在于,所述方法的實(shí)現(xiàn)包括步驟如下:
步驟1,輸入多模態(tài)人臉視頻序列數(shù)據(jù),所述人臉視頻序列是指經(jīng)過鏡頭分割之后的視頻片段,所述視頻片段內(nèi)部只包括特定人員;
步驟2,對(duì)步驟1中的所述多模態(tài)人臉視頻序列數(shù)據(jù)進(jìn)行預(yù)處理操作,以獲得圖像集數(shù)據(jù);
步驟3,對(duì)步驟2獲得的所述圖像集數(shù)據(jù)進(jìn)行建模表示,生成每個(gè)圖像集的矩陣協(xié)方差;
步驟4,將步驟3獲得的所述矩陣協(xié)方差作為特征圖像,輸入到雙向二維分?jǐn)?shù)階協(xié)方差相關(guān)分析中,優(yōu)化求解后得到最優(yōu)的投影方向,進(jìn)而得到每個(gè)視頻序列的特征圖像;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于濟(jì)南大學(xué),未經(jīng)濟(jì)南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111242020.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 彩色圖像和單色圖像的圖像處理
- 圖像編碼/圖像解碼方法以及圖像編碼/圖像解碼裝置
- 圖像處理裝置、圖像形成裝置、圖像讀取裝置、圖像處理方法
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像解密方法、圖像加密方法、圖像解密裝置、圖像加密裝置、圖像解密程序以及圖像加密程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序以及圖像解碼程序
- 圖像編碼方法、圖像解碼方法、圖像編碼裝置、圖像解碼裝置、圖像編碼程序、以及圖像解碼程序
- 圖像形成設(shè)備、圖像形成系統(tǒng)和圖像形成方法
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序
- 圖像編碼裝置、圖像編碼方法、圖像編碼程序、圖像解碼裝置、圖像解碼方法及圖像解碼程序





