[發(fā)明專利]一種基于說(shuō)話人聲紋信息的自動(dòng)識(shí)別身份的方法在審
| 申請(qǐng)?zhí)枺?/td> | 202110406400.2 | 申請(qǐng)日: | 2021-04-15 |
| 公開(kāi)(公告)號(hào): | CN113113022A | 公開(kāi)(公告)日: | 2021-07-13 |
| 發(fā)明(設(shè)計(jì))人: | 吳春國(guó);陳亮;呂民軒;陳心悅;李世龍 | 申請(qǐng)(專利權(quán))人: | 吉林大學(xué) |
| 主分類號(hào): | G10L17/00 | 分類號(hào): | G10L17/00;G10L15/04;G10L21/02;G10L21/0208 |
| 代理公司: | 北京遠(yuǎn)大卓悅知識(shí)產(chǎn)權(quán)代理有限公司 11369 | 代理人: | 劉小嬌 |
| 地址: | 130012 吉*** | 國(guó)省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 說(shuō)話 人聲 信息 自動(dòng)識(shí)別 身份 方法 | ||
本發(fā)明公開(kāi)了一種基于說(shuō)話人聲紋信息的自動(dòng)識(shí)別身份的方法和存儲(chǔ)方法,會(huì)議開(kāi)始前,語(yǔ)音降噪模塊錄制一段環(huán)境音作為會(huì)議的背景噪聲;語(yǔ)音分割模塊將連續(xù)的會(huì)議錄音分隔根據(jù)發(fā)言間隔分割為錄音片段;聲紋識(shí)別模塊以所述語(yǔ)音片段作為輸入,輸出一段固定長(zhǎng)度的向量作為該語(yǔ)音片段的聲紋向量;會(huì)議說(shuō)話人識(shí)別模塊將所述聲紋向量和本地聲紋庫(kù)中所有的聲紋向量進(jìn)行比對(duì),選取本地聲紋庫(kù)中相似度最高的一條聲紋,根據(jù)相似度,判斷說(shuō)話人是否為已注冊(cè)人;若兩條聲紋向量的相似度大于閾值0.7,則判斷兩條聲紋屬于同一說(shuō)話人,為已注冊(cè)人;反之則不屬于同一說(shuō)話人,為未注冊(cè)人。
技術(shù)領(lǐng)域
本發(fā)明涉及多媒體技術(shù)領(lǐng)域,更具體的是,本發(fā)明涉及用于說(shuō)話人聲紋信息自動(dòng)識(shí)別身份的方法和存儲(chǔ)方法。
背景技術(shù)
每個(gè)人的聲音都有自己的生物特征。聲紋識(shí)別是一種利用說(shuō)話人的聲音來(lái)識(shí)別說(shuō)話人身份的技術(shù)。聲紋識(shí)別技術(shù)像指紋識(shí)別一樣具有高度的安全性和可靠性,可以在任何場(chǎng)合做身份識(shí)別。如在刑事調(diào)查、銀行、證券、保險(xiǎn)等金融領(lǐng)域。與傳統(tǒng)的識(shí)別技術(shù)相比,聲紋識(shí)別的優(yōu)點(diǎn)是聲紋提取過(guò)程簡(jiǎn)單,成本低,具有獨(dú)特性,不易偽造和造假。
目前常見(jiàn)的會(huì)議記錄軟件專注于錄音與語(yǔ)音識(shí)別,均未做到說(shuō)話人識(shí)別的功能,往往是只進(jìn)行會(huì)議內(nèi)容的記錄,并不進(jìn)行說(shuō)話人的標(biāo)記。在做會(huì)議記錄時(shí),通常需要對(duì)會(huì)議進(jìn)行錄音,由后期的會(huì)議整理人員進(jìn)行手動(dòng)標(biāo)記,這樣的方式費(fèi)時(shí)費(fèi)力,而且容易疏漏。
發(fā)明內(nèi)容
本發(fā)明設(shè)計(jì)開(kāi)發(fā)了一種說(shuō)話基于說(shuō)話人聲紋信息的自動(dòng)識(shí)別身份的方法,自動(dòng)識(shí)別會(huì)議中的發(fā)言人身份。
本發(fā)明的另一個(gè)技術(shù)問(wèn)題是,對(duì)說(shuō)話人的身份進(jìn)行標(biāo)記,并且聲紋識(shí)別陌生人并進(jìn)行存儲(chǔ)。
一種基于說(shuō)話人聲紋信息的自動(dòng)識(shí)別身份的方法,
會(huì)議開(kāi)始前,語(yǔ)音降噪模塊錄制一段環(huán)境音作為會(huì)議的背景噪聲;
語(yǔ)音分割模塊將連續(xù)的會(huì)議錄音分隔根據(jù)發(fā)言間隔分割為錄音片段;
聲紋識(shí)別模塊以所述語(yǔ)音片段作為輸入,輸出一段固定長(zhǎng)度的向量作為該語(yǔ)音片段的聲紋向量;
會(huì)議說(shuō)話人識(shí)別模塊將所述聲紋向量和本地聲紋庫(kù)中所有的聲紋向量進(jìn)行比對(duì),選取本地聲紋庫(kù)中相似度最高的一條聲紋,根據(jù)相似度,判斷說(shuō)話人是否為已注冊(cè)人;
其中,比較兩條聲紋向量a,b的相似度:
若兩條聲紋向量的相似度大于閾值0.7,則判斷兩條聲紋屬于同一說(shuō)話人,為已注冊(cè)人;反之則不屬于同一說(shuō)話人,為未注冊(cè)人。
作為一種優(yōu)選,利用說(shuō)話人發(fā)言的間隙將會(huì)議錄音分割為錄音片段。
作為一種優(yōu)選,會(huì)議過(guò)程中持續(xù)錄音,當(dāng)檢測(cè)到的分貝數(shù)大于背景噪聲分貝數(shù)的1.5倍時(shí),判定當(dāng)前有發(fā)言人正在發(fā)言,當(dāng)檢測(cè)到分貝數(shù)小于背景噪聲分貝數(shù)的1.5倍并且持續(xù)大于200毫秒時(shí),判定說(shuō)話人的間隙,進(jìn)行語(yǔ)音切割。
作為一種優(yōu)選,所述聲紋識(shí)別模塊提取語(yǔ)音片段的MFCC作為語(yǔ)音特征,將語(yǔ)音特征輸入時(shí)延神經(jīng)網(wǎng)絡(luò)的深度神經(jīng)網(wǎng)絡(luò)模型提取第一個(gè)全連接層的輸出作為聲紋向量;
其中,時(shí)延神經(jīng)網(wǎng)絡(luò)包括:第一時(shí)延神經(jīng)網(wǎng)絡(luò)層,跨度[-2,2];第二時(shí)延神經(jīng)網(wǎng)絡(luò)層,跨度[-1,2];第三時(shí)延神經(jīng)網(wǎng)絡(luò)層,跨度[-3,3];第四時(shí)延神經(jīng)網(wǎng)絡(luò)層,跨度[7,2];統(tǒng)計(jì)池化層;全連接層;
輸入?yún)?shù)為長(zhǎng)度為256的23維MFCC語(yǔ)音特征,輸出為第一個(gè)全連接層的輸出,為一個(gè)512維向量作為該語(yǔ)音片段的聲紋向量。
作為一種優(yōu)選,當(dāng)最大相似度小于閾值,認(rèn)為該段錄音片段屬于陌生說(shuō)話人,會(huì)將該錄音片段標(biāo)記為陌生人并編號(hào)后加入本地聲紋庫(kù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學(xué),未經(jīng)吉林大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110406400.2/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于事先知識(shí)的說(shuō)話者檢驗(yàn)及說(shuō)話者識(shí)別系統(tǒng)和方法
- 說(shuō)話人聲音的后臺(tái)學(xué)習(xí)
- 基于模型順序自適應(yīng)技術(shù)的說(shuō)話人確認(rèn)系統(tǒng)創(chuàng)建方法
- 語(yǔ)音合成字典生成裝置和語(yǔ)音合成字典生成方法
- 說(shuō)話人識(shí)別方法和說(shuō)話人識(shí)別設(shè)備
- 語(yǔ)音處理的方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種基于多說(shuō)話人條件下目標(biāo)說(shuō)話人語(yǔ)音提取方法
- 一種語(yǔ)音處理方法、介質(zhì)及系統(tǒng)
- 語(yǔ)音翻譯裝置、語(yǔ)音翻譯方法以及記錄介質(zhì)
- 說(shuō)話人識(shí)別方法、相關(guān)設(shè)備及可讀存儲(chǔ)介質(zhì)
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





