[發(fā)明專利]一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的身份驗證方法及裝置在審
| 申請?zhí)枺?/td> | 201711340710.9 | 申請日: | 2017-12-14 |
| 公開(公告)號: | CN108074575A | 公開(公告)日: | 2018-05-25 |
| 發(fā)明(設(shè)計)人: | 陳書東 | 申請(專利權(quán))人: | 廣州勢必可贏網(wǎng)絡(luò)科技有限公司 |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G10L25/24 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 44285 | 代理人: | 王仲凱 |
| 地址: | 510000 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 驗證 特征向量 語音幀 匹配 循環(huán)神經(jīng)網(wǎng)絡(luò) 身份驗證 語音 預(yù)置 注冊語音 用戶端 發(fā)送 技術(shù)融合 聲紋識別 相對獨立 比對 分幀 逐幀 統(tǒng)一 | ||
本發(fā)明提供了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的身份驗證方法及裝置,解決了基于i?vector的聲紋識別技術(shù)的每個模塊相對獨立,沒有統(tǒng)一在一起,導(dǎo)致的與其他技術(shù)融合不方便的技術(shù)問題,其中方法包括:接收由用戶端發(fā)送的驗證語音;將驗證語音進行分幀處理,得到驗證語音幀;逐幀提取驗證語音幀中的MFCC特征值;將驗證語音幀中的MFCC特征值逐一輸入至預(yù)置循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,逐一得到驗證語音幀的特征向量;將所有驗證語音幀的特征向量的平均作為驗證語音的特征向量;獲取注冊語音的特征向量,并將注冊語音的特征向量與驗證語音的特征向量進行比對,得到匹配值;判斷匹配值是否高于預(yù)置匹配閾值,當確定匹配值高于預(yù)置匹配閾值后,發(fā)送身份驗證通過信息至用戶端。
技術(shù)領(lǐng)域
本發(fā)明涉及聲紋識別技術(shù)領(lǐng)域,尤其涉及一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的身份驗證方法及裝置。
背景技術(shù)
聲紋識別裝置是根據(jù)人聲的特質(zhì)來自動識別說話人身份的裝置。聲紋識別技術(shù)屬于生物驗證技術(shù)的一種,采用語音對說話人身份進行驗證。這種技術(shù)具有較好的便捷性、穩(wěn)定性、可測量性和安全性等特點。作為一種非接觸式的采集、識別技術(shù),聲紋的獲取成本較低、獲取方便、使用簡單,在銀行、社保、公安、智能家居、移動支付等領(lǐng)域都有巨大應(yīng)用前景。循環(huán)神經(jīng)網(wǎng)絡(luò)是專門用于處理序列數(shù)據(jù)的深度學習模型,適合捕捉和利用數(shù)據(jù)的順序,并且能處理變長的數(shù)據(jù),因此特別適用于長短不一的語音數(shù)據(jù)處理。
在目前主流的基于i-vector的聲紋識別技術(shù)中,裝置通常由語音特征提取、說話人語音特征量統(tǒng)計與聲紋建模和后端分類器三部分構(gòu)成?;趇-vector的聲紋識別技術(shù)的每個模塊相對獨立,沒有統(tǒng)一在一起,導(dǎo)致了與其他技術(shù)融合不方便的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明提供了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的身份驗證方法及裝置,解決了基于i-vector的聲紋識別技術(shù)的每個模塊相對獨立,沒有統(tǒng)一在一起,導(dǎo)致的與其他技術(shù)融合不方便的技術(shù)問題。
本發(fā)明提供了一種基于循環(huán)神經(jīng)網(wǎng)絡(luò)的身份驗證方法,包括:
接收由用戶端發(fā)送的驗證語音;
將驗證語音進行分幀處理,得到驗證語音幀;
逐幀提取驗證語音幀中的MFCC特征值;
將驗證語音幀中的MFCC特征值逐一輸入至預(yù)置循環(huán)神經(jīng)網(wǎng)絡(luò)模型中,逐一得到驗證語音幀的特征向量;
將所有驗證語音幀的特征向量的平均作為驗證語音的特征向量;
獲取注冊語音的特征向量,并將注冊語音的特征向量與驗證語音的特征向量進行比對,得到匹配值;
判斷匹配值是否高于預(yù)置匹配閾值,當確定匹配值高于預(yù)置匹配閾值后,發(fā)送身份驗證通過信息至用戶端。
作為優(yōu)選,接收由用戶端發(fā)送的驗證語音之前還包括:
獲取帶有標簽的訓(xùn)練樣本語音;
提取訓(xùn)練樣本語音的MFCC特征值,并輸入至雙向長短時記憶神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練,得到雙向長短時記憶神經(jīng)網(wǎng)絡(luò)中代價函數(shù)的loss值;
判斷代價函數(shù)的loss值是否低于預(yù)置閾值,若是,則確定訓(xùn)練后的雙向長短時記憶神經(jīng)網(wǎng)絡(luò)收斂,保存訓(xùn)練后的雙向長短時記憶神經(jīng)網(wǎng)絡(luò)作為預(yù)置循環(huán)神經(jīng)網(wǎng)絡(luò)模型,若否,則返回獲取帶有標簽的訓(xùn)練樣本語音步驟,進入迭代。
作為優(yōu)選,接收由用戶端發(fā)送的驗證語音之前還包括:
接收用戶端發(fā)送的至少兩個注冊語音;
將每個注冊語音進行分幀處理,得到注冊語音幀;
逐幀提取注冊語音幀中的MFCC特征值;
將注冊語音幀中的MFCC特征值逐一輸入至訓(xùn)練后的雙向長短時記憶神經(jīng)網(wǎng)絡(luò)中,得到注冊語音幀的特征向量;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州勢必可贏網(wǎng)絡(luò)科技有限公司,未經(jīng)廣州勢必可贏網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711340710.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





