[發(fā)明專利]一種基于孿生神經(jīng)網(wǎng)絡的聲紋比對方法有效
| 申請?zhí)枺?/td> | 202010125816.2 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111370003B | 公開(公告)日: | 2023-05-30 |
| 發(fā)明(設計)人: | 羅世操 | 申請(專利權)人: | 杭州雄邁集成電路技術股份有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/18;G10L17/00;G10L17/02;G06N3/045 |
| 代理公司: | 杭州裕陽聯(lián)合專利代理有限公司 33289 | 代理人: | 姚宇吉 |
| 地址: | 311400 浙江省杭州市富陽*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 孿生 神經(jīng)網(wǎng)絡 聲紋 方法 | ||
本發(fā)明公開了一種基于孿生神經(jīng)網(wǎng)絡的聲紋比對方法,涉及聲紋識別技術領域。本發(fā)明利用已經(jīng)標注過說話人身份的語音數(shù)據(jù),進行快速傅里葉變換,得到對應語譜圖作為孿生神經(jīng)網(wǎng)絡輸入;組成樣本對,并給樣本對配上是否來自同一個人的標簽;以對比損失函數(shù)為訓練準則,訓練孿生神經(jīng)網(wǎng)絡聲紋比對模型;在聲紋比對系統(tǒng)中,通過訓練得到的孿生神經(jīng)網(wǎng)絡模型提取表示說話人身份的聲紋特征向量,并和數(shù)據(jù)庫中注冊的人的聲紋特征向量進行相似度量,驗證說話人的身份,降低環(huán)境的影響,提高聲紋識別的準確率。
技術領域
本發(fā)明屬于聲紋識別技術領域,特別是涉及一種基于孿生神經(jīng)網(wǎng)絡的聲紋比對方法。
背景技術
聲紋特征是生物特征的一種,每個人具有固有的特征。聲紋識別技術是僅次于指紋識別、人臉識別和掌紋的生物識別技術,在識別領域具有廣泛的研究和應用。
之前研究者所提出的聲紋特征大多是基于語音的韻律特征和音質(zhì)特征,均為人工設計的特征,系統(tǒng)的魯棒性不高,很容易受到環(huán)境的影響。
現(xiàn)提供一種基于孿生神經(jīng)網(wǎng)絡的聲紋比對方法,提高聲紋識別的準確率。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于孿生神經(jīng)網(wǎng)絡的聲紋比對方法,通過基于孿生神經(jīng)網(wǎng)絡的聲紋比對方法,提高聲紋識別的準確率。
為解決上述技術問題,本發(fā)明是通過以下技術方案實現(xiàn)的:
本發(fā)明為一種基于孿生神經(jīng)網(wǎng)絡的聲紋比對方法,包括以下步驟:
SS01:利用已經(jīng)標注過說話人身份的語音數(shù)據(jù),進行快速傅里葉變換,得到對應語譜圖作為孿生神經(jīng)網(wǎng)絡輸入;
SS02:組成樣本對,并給樣本對配上是否來自同一個人的標簽;
SS03:以對比損失函數(shù)為訓練準則,訓練孿生神經(jīng)網(wǎng)絡聲紋比對模型;
SS04:在聲紋比對系統(tǒng)中,驗證說話人的身份,驗證步驟如下:
S041:采集語音信號;
S042:進行快速傅里葉變換,得到語譜圖;
S043:所述語譜圖輸入訓練完成的孿生神經(jīng)網(wǎng)絡聲紋比對模型中得到對應的聲紋特征;
S044:所述聲紋特征和數(shù)據(jù)庫中注冊的人的聲紋特征向量進行相似度量,驗證說話人的身份。
進一步地,所述孿生神經(jīng)網(wǎng)絡聲紋比對模型的訓練包括如下步驟:
S031:對標注過說話人身份的語音數(shù)據(jù)進行快速傅里葉變換得到語譜圖;
S032:語譜圖組成樣本對(x1,x2,y),并給樣本對配上是否來自同一個人的標簽;其中,y=1表示語譜圖x1和x2來自同一個人,y=0表示語譜圖x1和x2來自不同人;
S033:搭建孿生神經(jīng)網(wǎng)絡聲紋比對模型,并初始化模型各層參數(shù);其中,孿生神經(jīng)網(wǎng)絡為兩個結構相同并共享網(wǎng)絡參數(shù)的神經(jīng)網(wǎng)絡,每個網(wǎng)絡分別接收語譜圖樣本對中的一個樣本;
S034:隨機采樣訓練樣本對并進行前向運算,使用對比損失函數(shù)為損失函數(shù)并計算損失;
S035:采樣隨機梯度下降法誤差反向傳播算法對模型參數(shù)進行更新;
S036:模型收斂后保存訓練好的孿生神經(jīng)網(wǎng)絡聲紋比對模型的參數(shù)。
進一步地,所述步驟S044中聲紋特征和數(shù)據(jù)庫中注冊的人的聲紋特征向量進行相似度量的函數(shù)定義如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州雄邁集成電路技術股份有限公司,未經(jīng)杭州雄邁集成電路技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010125816.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)控機床數(shù)字孿生建模方法
- 一種基于數(shù)字孿生模型的時序類潛在問題識別方法及系統(tǒng)
- 一種礦井數(shù)字孿生模型及其構建方法
- 一種以統(tǒng)一形式樣機模型定義數(shù)字孿生體的方法及裝置
- 基于數(shù)字孿生體的醫(yī)療設備定位方法、系統(tǒng)和存儲介質(zhì)
- 一種基于機器視覺的數(shù)字孿生模型修正方法與系統(tǒng)
- 一種基于數(shù)字孿生的泵機組優(yōu)化運行調(diào)節(jié)系統(tǒng)及方法
- 數(shù)字孿生模型的運行方法、裝置和電子設備
- 一種組件式孿生計算方法及系統(tǒng)
- 一種基于數(shù)字孿生的空間在軌激光加工過程實時監(jiān)測方法
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質(zhì)
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置





