[發(fā)明專利]多模態(tài)活體檢測方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202111145165.4 | 申請日: | 2021-09-28 |
| 公開(公告)號: | CN113869212A | 公開(公告)日: | 2021-12-31 |
| 發(fā)明(設(shè)計(jì))人: | 羅劍;王健宗 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;G10L17/24;G10L25/24;G10L25/51 |
| 代理公司: | 深圳國新南方知識產(chǎn)權(quán)代理有限公司 44374 | 代理人: | 周雷 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 多模態(tài) 活體 檢測 方法 裝置 計(jì)算機(jī) 設(shè)備 存儲 介質(zhì) | ||
1.一種多模態(tài)活體檢測方法,其特征在于,包括:
采集活體檢測視頻流中的語音幀以及所述語音幀對應(yīng)的幀圖像;
將所述語音幀以及所述幀圖像輸入至活體檢測模型中進(jìn)行活體檢測,所述活體檢測模型包括嘴部定位模塊、語音特征提取模塊以及活體檢測模塊;
通過所述嘴部定位模塊定位所述幀圖像中的口型圖像;以及,通過所述語音特征提取模塊提取所述語音幀對應(yīng)的語音特征;其中,所述口型圖像對應(yīng)一口型圖像特征;
通過所述活體檢測模塊基于所述多模態(tài)特征進(jìn)行活體檢測,得到活體檢測結(jié)果;其中,所述多模態(tài)特征包括所述口型圖像特征與所述語音特征。
2.如權(quán)利要求1所述多模態(tài)活體檢測方法,其特征在于,所述活體檢測模型包括組合編碼模塊;在所述通過所述活體檢測模塊基于所述多模態(tài)特征進(jìn)行活體檢測之前,所述多模態(tài)活體檢測方法還包括:
通過所述組合編碼模塊對多模態(tài)特征進(jìn)行組合編碼,得到組合編碼特征;
所述通過所述活體檢測模塊基于所述多模態(tài)特征進(jìn)行活體檢測,得到活體檢測結(jié)果包括:
通過所述活體檢測模塊基于所述組合編碼特征進(jìn)行活體檢測,得到活體檢測結(jié)果。
3.如權(quán)利要求2所述多模態(tài)活體檢測方法,其特征在于,通過所述組合編碼模塊對多模態(tài)特征進(jìn)行組合編碼,得到組合編碼特征,包括:
對所述多模態(tài)特征進(jìn)行線性變換,得到第一編碼特征;
對所述多模態(tài)特征進(jìn)行位置編碼,得到第二編碼特征;
將所述第一編碼特征與所述第二編碼特征相加,得到所述組合編碼特征。
4.如權(quán)利要求1所述多模態(tài)活體檢測方法,其特征在于,在所述采集活體檢測視頻流中的語音幀以及所述語音幀對應(yīng)的幀圖像之前,所述多模態(tài)活體檢測方法還包括:
爬取已公開的對話視頻,并將所述對話視頻作為模型訓(xùn)練的正樣本;
對所述正樣本進(jìn)行增噪處理,得到負(fù)樣本;
根據(jù)正負(fù)樣本訓(xùn)練所述活體檢測模型。
5.如權(quán)利要求4所述多模態(tài)活體檢測方法,其特征在于,所述增噪處理包括語音幀與幀圖像的錯位處理、語音幀增噪處理以及幀圖像增噪處理中的一個或多個。
6.如權(quán)利要求1所述多模態(tài)活體檢測方法,其特征在于,所述通過所述語音特征提取模塊提取所述語音幀對應(yīng)的語音特征,包括:
對所述語音幀進(jìn)行預(yù)加重和加窗處理,得到加窗后的語音幀;
對所述加窗后的語音幀進(jìn)行頻域轉(zhuǎn)換,得到頻譜特征;
通過梅爾濾波器組對所述頻譜特征進(jìn)行濾波,輸出濾波后的頻譜特征;
對所述濾波后的頻譜特征進(jìn)行離散余弦變換,得到倒譜系數(shù);
對所述倒譜系數(shù)進(jìn)行多階差分計(jì)算,得到所述語音特征。
7.如權(quán)利要求2所述多模態(tài)活體檢測方法,其特征在于,所述活體檢測模塊包括特征編碼模塊以及分類器;所述特征編碼模塊包括多個級聯(lián)的編碼單元;每一所述編碼單元均包括第一歸一化層、多頭注意力機(jī)制層、第二歸一化層以及全連接層;
所述通過所述活體檢測模塊基于所述組合編碼特征進(jìn)行活體檢測,得到活體檢測結(jié)果,包括:
將所述組合編碼特征輸入至所述第一歸一化層進(jìn)行歸一化處理,得到所述第一歸一化層的第一輸出;
將所述第一輸出輸入至所述多頭注意力機(jī)制層進(jìn)行注意力計(jì)算,得到所述多頭注意力機(jī)制層輸出的注意力向量;
將所述注意力向量輸入至所述第二歸一化層進(jìn)行歸一化處理,得到所述第一歸一化層的第二輸出;
將所述第二輸出輸入至所述全連接層,得到所述編碼單元的輸出;
將所述編碼單元的輸出輸入至下一級聯(lián)的編碼單元,以使所述下一級聯(lián)的編碼單元將所述編碼單元的輸出輸入至所述第一歸一化層進(jìn)行歸一化處理,得到所述第一歸一化層的第一輸出;
重復(fù)執(zhí)行所述將所述第一輸出輸入至所述多頭注意力機(jī)制層進(jìn)行注意力計(jì)算,得到所述多頭注意力機(jī)制層輸出的注意力向量的步驟,直至得到最后一個編碼單元的輸出作為所述特征編碼模塊的輸出;
通過所述分類器對所述特征編碼模塊的輸出進(jìn)行分類,得到所述活體檢測結(jié)果。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111145165.4/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 用于智能機(jī)器人系統(tǒng)多模態(tài)輸出的方法及裝置
- 一種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像識別方法及裝置
- 一種基于多模態(tài)生成式對抗網(wǎng)絡(luò)的云圖分類方法
- 一種基于多模態(tài)信息的食道功能性疾病診斷系統(tǒng)
- 一種有監(jiān)督的快速離散多模態(tài)哈希檢索方法和系統(tǒng)
- 一種多模態(tài)數(shù)據(jù)處理方法及系統(tǒng)
- 一種基于多模態(tài)學(xué)習(xí)的電力攻擊識別方法
- 多源多模態(tài)數(shù)據(jù)的處理系統(tǒng)及應(yīng)用該系統(tǒng)的方法
- 一種基于門機(jī)制多模態(tài)融合的情感分析方法
- 面向?qū)捰蝻w行的多模態(tài)精確劃分方法





