[發明專利]一種基于孿生神經網絡的聲紋比對方法有效
| 申請號: | 202010125816.2 | 申請日: | 2020-02-27 |
| 公開(公告)號: | CN111370003B | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 羅世操 | 申請(專利權)人: | 杭州雄邁集成電路技術股份有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/18;G10L17/00;G10L17/02;G06N3/045 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 姚宇吉 |
| 地址: | 311400 浙江省杭州市富陽*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 孿生 神經網絡 聲紋 方法 | ||
1.一種基于孿生神經網絡的聲紋比對方法,其特征在于,包括以下步驟:
SS01:利用已經標注過說話人身份的語音數據,進行快速傅里葉變換,得到對應語譜圖作為孿生神經網絡輸入;
SS02:組成樣本對,并給樣本對配上是否來自同一個人的標簽;
SS03:以對比損失函數為訓練準則,訓練孿生神經網絡聲紋比對模型;
SS04:在聲紋比對系統中,驗證說話人的身份,驗證步驟如下:
S041:采集語音信號;
S042:進行快速傅里葉變換,得到語譜圖;
S043:所述語譜圖輸入訓練完成的孿生神經網絡聲紋比對模型中得到對應的聲紋特征;
S044:所述聲紋特征和數據庫中注冊的人的聲紋特征向量進行相似度量,驗證說話人的身份;
所述孿生神經網絡聲紋比對模型的訓練包括如下步驟:
S031:對標注過說話人身份的語音數據進行快速傅里葉變換得到語譜圖;
S032:語譜圖組成樣本對(x1,x2,y),并給樣本對配上是否來自同一個人的標簽;其中,y=1表示語譜圖x1和x2來自同一個人,y=0表示語譜圖x1和x2來自不同人;
S033:搭建孿生神經網絡聲紋比對模型,并初始化模型各層參數;其中,孿生神經網絡為兩個結構相同并共享網絡參數的神經網絡,每個網絡分別接收語譜圖樣本對中的一個樣本;
S034:隨機采樣訓練樣本對并進行前向運算,使用對比損失函數為損失函數并計算損失;
S035:采樣隨機梯度下降法誤差反向傳播算法對模型參數進行更新;
S036:模型收斂后保存訓練好的孿生神經網絡聲紋比對模型的參數。
2.根據權利要求1所述的一種基于孿生神經網絡的聲紋比對方法,其特征在于,所述步驟S044中聲紋特征和數據庫中注冊的人的聲紋特征向量進行相似度量的函數定義如下:
Ew=||Gw(x1)-Gw(x2)||;
其中,Ew表示兩個聲紋的歐氏距離相似度,x1表示說話人語音的語譜圖,Gw()表示孿生神經網絡,Gw(x1)表示把x1從語譜圖特征空間映射到孿生神經網絡聲紋特征所在的空間,即Gw(x1)為x1的聲紋特征,Gw(x2)表示x2的聲紋特征。
3.根據權利要求1所述的一種基于孿生神經網絡的聲紋比對方法,其特征在于,若兩個語音段的聲紋特征向量相似度小于閾值T,則說明這兩個語音段來自同一人,聲紋比對成功;反之則說明這兩個語音段來自不同人,聲紋比對失敗。
4.根據權利要求1所述的一種基于孿生神經網絡的聲紋比對方法,其特征在于,所述步驟S034中對比損失函數的定義如下:
其中,Loss為損失函數,Ew,i表示第i對樣本對中兩個聲紋的歐氏距離相似度,Q是一個常量;y是第i對樣本對的標簽。
5.根據權利要求1所述的一種基于孿生神經網絡的聲紋比對方法,其特征在于,所述的聲紋比對方法應用于語言交互終端的聲紋識別系統,語言交互終端的聲紋識別系統用于訓練孿生神經網絡聲紋比對模型和提取聲紋特征,并配置在終端中,語言交互終端包括移動端、個人電腦終端、便攜式終端。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州雄邁集成電路技術股份有限公司,未經杭州雄邁集成電路技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010125816.2/1.html,轉載請聲明來源鉆瓜專利網。





