[發(fā)明專利]一種基于殘差神經(jīng)網(wǎng)絡(luò)的遠(yuǎn)場語音說話人識別方法及裝置有效
| 申請?zhí)枺?/td> | 202110231097.7 | 申請日: | 2021-03-02 |
| 公開(公告)號: | CN112992155B | 公開(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 張安妮;馮瑞 | 申請(專利權(quán))人: | 復(fù)旦大學(xué) |
| 主分類號: | G10L17/02 | 分類號: | G10L17/02;G10L17/04;G10L17/18;G10L17/20;G10L15/04;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 上海德昭知識產(chǎn)權(quán)代理有限公司 31204 | 代理人: | 郁旦蓉 |
| 地址: | 200433 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 神經(jīng)網(wǎng)絡(luò) 語音 說話 識別 方法 裝置 | ||
本發(fā)明提供了一種基于殘差神經(jīng)網(wǎng)絡(luò)的遠(yuǎn)場語音說話人識別方法及裝置,用于在嘈雜混響且有多個(gè)說話人的環(huán)境下,對短時(shí)的待測音頻進(jìn)行遠(yuǎn)場語音說話人識別從而確定該待測音頻對應(yīng)的說話人,其特征在于,包括如下步驟:對待測音頻進(jìn)行預(yù)處理得到預(yù)處理短時(shí)語音;利用語音活動(dòng)檢測模型對預(yù)處理短時(shí)語音進(jìn)行語音分割得到分割結(jié)果,并從濾除了噪聲以及靜音的分割結(jié)果中提取得到語音向量特征;基于語音向量特征利用預(yù)先訓(xùn)練好的殘差神經(jīng)網(wǎng)絡(luò)模型進(jìn)行說話人特征提取得到說話人嵌入向量;基于預(yù)定的聲音特征庫對說話人嵌入向量進(jìn)行相似度計(jì)算得到語音相似度值,根據(jù)該語音相似度值確定待測音頻對應(yīng)的說話人。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)識別領(lǐng)域,具體涉及一種基于殘差神經(jīng)網(wǎng)絡(luò)的遠(yuǎn)場語音說話人識別方法及裝置。
背景技術(shù)
近年來,由于機(jī)器學(xué)習(xí)技術(shù)及互聯(lián)網(wǎng)的快速發(fā)展,計(jì)算機(jī)視覺、語音處理和自然語言處理等應(yīng)用領(lǐng)域都有了突破性進(jìn)展。另外,由于人們對保護(hù)與限制信息資源訪問的可靠方法的需求越來越大,因此亟需新的身份驗(yàn)證方法來滿足上述需求。而生物識別成為了該領(lǐng)域的重點(diǎn)研究領(lǐng)域之一,無論是法律政策還是商業(yè)模型,生物識別都因其可靠性成為比較熱門的項(xiàng)目。其中,說話人識別作為計(jì)算機(jī)語音處理和生物識別項(xiàng)目中的一項(xiàng)基礎(chǔ)任務(wù),識別精度也在不斷地被提升。
說話人識別包括說話人辨認(rèn)和說話人確認(rèn),前者用以判斷某段語音是若干人中的哪一個(gè)所說的,而后者用以確認(rèn)某段語音是否是指定的某個(gè)人所說的。當(dāng)前的說話人識別技術(shù)有:模板匹配法、概率模型法以及神經(jīng)網(wǎng)絡(luò)法。
其中,模板匹配法的訓(xùn)練過程為從每個(gè)說話人的訓(xùn)練語句中提取出特征矢量,形成特征矢量序列,選擇方法優(yōu)化,求取一個(gè)特征矢量集合表征特征矢量序列,將此集合作為參考模板。在識別時(shí),利用同樣的方法提取特征矢量序列,按匹配規(guī)則跟所有參考模板比較。然而,實(shí)際應(yīng)用中短語音和跨信道問題普遍存在,該類技術(shù)對語音的長度,文本及信道等方面都有一定的應(yīng)用局限性。
概率模型法是先從某人的一次或多次發(fā)音中提出有效特征矢量,然后根據(jù)統(tǒng)計(jì)特性為其建立相應(yīng)的數(shù)學(xué)模型,使其能夠有效的刻畫出此說話人特征矢量在特征空間的分布規(guī)律。在識別時(shí),將測試語音的特征矢量與表征說話人的數(shù)學(xué)模型進(jìn)行匹配,從概率統(tǒng)計(jì)角度,計(jì)算得到測試語音與模型間的相似度。最常用的概率模型法為高斯混合模型識別,但其對語音數(shù)據(jù)量要求很大,對信道環(huán)境噪聲非常敏感。
神經(jīng)網(wǎng)絡(luò)法是一種類比于生物神經(jīng)系統(tǒng)處理信息的方法,利用大量的簡單處理單元并行連接而構(gòu)成一種獨(dú)具特點(diǎn)的、復(fù)雜的信息處理網(wǎng)絡(luò)。該網(wǎng)絡(luò)具有自組織、自學(xué)習(xí)的能力,可以隨著經(jīng)驗(yàn)的累積而改善自身的性能。人工神經(jīng)網(wǎng)絡(luò)的特性對說話人識別系統(tǒng)的實(shí)現(xiàn)有很大的幫助,可以用于更好的提取語音樣本中所包含的說話人的個(gè)性特征。
近年來,由于智能家居系統(tǒng)與智能設(shè)備中虛擬助手的不斷發(fā)展和日益普及,因此對語音識別提出了更高的要求,對生物識別系統(tǒng)在遠(yuǎn)場條件下的可靠性也提出了更高的要求。而當(dāng)前語音識別與生物識別在遠(yuǎn)場條件下面臨的挑戰(zhàn)有:在嘈雜、混響環(huán)境中,對遠(yuǎn)場說話人識別精度不佳;對短句說話人識別精度不佳。上述三個(gè)方法都無法在不可控、嘈雜、混響的環(huán)境中對短句說話人取得較好的識別精度從而無法應(yīng)用在實(shí)際場景中。
發(fā)明內(nèi)容
為解決上述問題,提供了一種能夠在嘈雜、混響環(huán)境中對短時(shí)說話人有效識別的說話人識別方法及裝置,本發(fā)明采用了如下技術(shù)方案:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于復(fù)旦大學(xué),未經(jīng)復(fù)旦大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110231097.7/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計(jì)算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計(jì)算設(shè)備及計(jì)算機(jī)存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計(jì)算機(jī)設(shè)備
- 一種適應(yīng)目標(biāo)數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 基于事先知識的說話者檢驗(yàn)及說話者識別系統(tǒng)和方法
- 說話人聲音的后臺學(xué)習(xí)
- 基于模型順序自適應(yīng)技術(shù)的說話人確認(rèn)系統(tǒng)創(chuàng)建方法
- 語音合成字典生成裝置和語音合成字典生成方法
- 說話人識別方法和說話人識別設(shè)備
- 語音處理的方法、裝置、系統(tǒng)、設(shè)備和介質(zhì)
- 一種基于多說話人條件下目標(biāo)說話人語音提取方法
- 一種語音處理方法、介質(zhì)及系統(tǒng)
- 語音翻譯裝置、語音翻譯方法以及記錄介質(zhì)
- 說話人識別方法、相關(guān)設(shè)備及可讀存儲介質(zhì)





