[發(fā)明專利]一種基于RNN聚合方式的聲紋識(shí)別方法與系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 202010326716.6 | 申請(qǐng)日: | 2020-04-23 |
| 公開(公告)號(hào): | CN111354364B | 公開(公告)日: | 2023-05-02 |
| 發(fā)明(設(shè)計(jì))人: | 陳華官;張志齊 | 申請(qǐng)(專利權(quán))人: | 上海依圖網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | G10L17/18 | 分類號(hào): | G10L17/18;G10L17/02 |
| 代理公司: | 上海市匯業(yè)律師事務(wù)所 31325 | 代理人: | 唐嘉偉 |
| 地址: | 200233 上海市徐匯*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 rnn 聚合 方式 聲紋 識(shí)別 方法 系統(tǒng) | ||
本發(fā)明公開了一種基于RNN聚合方式的聲紋識(shí)別方法與系統(tǒng),聲紋識(shí)別方法包括:獲取原始音頻;抽取原始音頻中的原始頻譜特征;從原始頻譜特征中獲得特征層;將特征層輸入RNN中聚合,輸出RNN中的隱藏狀態(tài)特征;將隱藏狀態(tài)特征進(jìn)行說話人分類;聲紋識(shí)別系統(tǒng)包括:音頻采集模塊,用于獲取原始音頻;頻譜特征獲取模塊,用于抽取所述原始音頻中的原始頻譜特征數(shù)據(jù);特征層獲取模塊,用于根據(jù)所述原始頻譜特征數(shù)據(jù)進(jìn)行特征層的抽取;聚合模塊,用于將所述特征層輸入RNN中進(jìn)行聚合并輸出RNN中的隱藏狀態(tài)特征;說話人分類模塊,用于對(duì)所述隱藏狀態(tài)特征進(jìn)行說話人分類。
技術(shù)領(lǐng)域
本發(fā)明涉及聲紋識(shí)別技術(shù)領(lǐng)域,具體涉及一種基于RNN聚合方式的聲紋識(shí)別方法與系統(tǒng)。
背景技術(shù)
隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)的普及,需要用到人的身份識(shí)別的應(yīng)用場(chǎng)合越來越多,傳統(tǒng)的需求方面有各種網(wǎng)上賬戶的需要,在線支付、門禁等等,而隨著互聯(lián)網(wǎng)及人工智能的應(yīng)用推廣,根據(jù)不同的人的習(xí)慣特點(diǎn)需要不同的身份識(shí)別方法與系統(tǒng),比如指紋、人臉、聲紋識(shí)別,其中聲紋識(shí)別是生物識(shí)別技術(shù)的一種,通過對(duì)語音進(jìn)行處理可生成用于指示該語音輸入者身份信息的身份向量,可通過計(jì)算兩端語音的身份向量之間的相似度來確定這兩段語音的輸入者是否為同一用戶,但是語音易受到信道的變性和環(huán)境的變性,會(huì)極大的降低其準(zhǔn)確率,因此需要一種能夠提升最終聲紋識(shí)別的算法準(zhǔn)確率性能的方法與系統(tǒng)。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種基于RNN(Recurrent?Neural?Network,即循環(huán)神經(jīng)網(wǎng)絡(luò))聚合方式的聲紋識(shí)別方法,提取音頻中的特征層并輸入到RNN中進(jìn)行聚合形成聚合層,再進(jìn)行隱藏狀態(tài)特征的提取,提取出的隱藏狀態(tài)特征具有較高的準(zhǔn)確率;
將RNN與特征層進(jìn)行聚合形成聚合層,能夠有效提升聚合層的非線性表達(dá)能力;
由于F×N特征層具有多個(gè)時(shí)間方向維度的特征,能夠提升最終聲紋識(shí)別的算法準(zhǔn)確率性能,用以解決現(xiàn)有技術(shù)導(dǎo)致的缺陷。
本發(fā)明還提供一種基于RNN聚合方式的聲紋識(shí)別系統(tǒng)。
為解決上述技術(shù)問題本發(fā)明提供以下的技術(shù)方案:
第一方面,一種基于RNN聚合方式的聲紋識(shí)別方法,其中,包括以下步驟(各步驟之間的先后順序并不意味著方法必須按其先后次序進(jìn)行,任何本領(lǐng)域技術(shù)人員所知曉的通過改變先后次序達(dá)到相同效果的都應(yīng)是本方法的一種具體實(shí)施方式):
獲取原始音頻;
抽取所述原始音頻中的原始頻譜特征;
從所述原始頻譜特征中獲得特征層;
將所述特征層輸入RNN中聚合,輸出RNN中的隱藏狀態(tài)特征(hidden?state特征);
將所述隱藏狀態(tài)特征進(jìn)行說話人分類。優(yōu)選地,可以輸出最后一個(gè)RNN單元中的隱藏狀態(tài)特征(hidden?state特征)。
上述的一種基于RNN聚合方式的聲紋識(shí)別方法,其中,所述特征層由所述原始頻譜特征經(jīng)過二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN)進(jìn)行抽取。
上述的一種基于RNN聚合方式的聲紋識(shí)別方法,其中,所述特征層為F×N特征層,其中F是頻率方向的維度,N是時(shí)間方向的維度。
上述的一種基于RNN聚合方式的聲紋識(shí)別方法,其中,所述聚合包括以下步驟:
將所述F×N特征層輸入單向RNN中,所述單向RNN中包含一個(gè)或多個(gè)RNN單元,將最后一個(gè)所述RNN單元的所述隱藏狀態(tài)特征輸出。
上述的一種基于RNN聚合方式的聲紋識(shí)別方法,其中,所述聚合包括以下步驟:
將所述F×N特征層輸入雙向RNN中,所述雙向RNN中包含一個(gè)或多個(gè)RNN單元,將最后一個(gè)所述RNN單元的所述隱藏狀態(tài)特征輸出。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海依圖網(wǎng)絡(luò)科技有限公司,未經(jīng)上海依圖網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010326716.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 用于文本到語音的超結(jié)構(gòu)循環(huán)神經(jīng)網(wǎng)絡(luò)
- 基于先進(jìn)的遞歸神經(jīng)網(wǎng)絡(luò)的“字母到聲音”
- 一種基于分層循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型的語音識(shí)別方法
- 模式識(shí)別裝置以及模式識(shí)別方法
- 音頻事件檢測(cè)方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種城市交通流量預(yù)測(cè)方法、系統(tǒng)及電子設(shè)備
- 循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練優(yōu)化方法、設(shè)備、系統(tǒng)及可讀存儲(chǔ)介質(zhì)
- 一種基于RNN的量子計(jì)算方法和裝置
- 用于水質(zhì)參數(shù)預(yù)測(cè)的聯(lián)合神經(jīng)網(wǎng)絡(luò)模型及其訓(xùn)練方法
- 基于RNN的降噪處理方法及系統(tǒng)





