[發明專利]一種訓練聲紋識別模型的方法及系統有效
| 申請號: | 201710648032.6 | 申請日: | 2017-08-01 |
| 公開(公告)號: | CN107610709B | 公開(公告)日: | 2021-03-19 |
| 發明(設計)人: | 馬嘯空;李超;蔣兵 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G10L17/04 | 分類號: | G10L17/04;G10L17/18;G06N3/08 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 訓練 聲紋 識別 模型 方法 系統 | ||
本申請提供一種訓練聲紋識別模型的方法及系統,所述方法包括,利用第一訓練數據訓練深度神經網絡,生成第一聲紋識別模型;利用第二訓練數據對所述第一聲紋識別模型進行遷移學習,生成第二聲紋識別模型;所述第二聲紋識別模型用于進行聲紋注冊或認證。能夠避免現有技術中為了開發一個特征場景的聲紋認證算法和產品,端到端的聲紋認證算法往往需要錄制大量的數據,才能保證算法的性能,而這需要花費大量的時間成本和經濟成本的問題。可以充分利用全量訓練數據,通過遷移學習,提高了針對特定數據的聲紋識別和認證的性能。
【技術領域】
本申請涉及人工智能領域,尤其涉及一種訓練聲紋模型的方法及系統。
【背景技術】
人工智能(Artificial Intelligence;AI),是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語音識別、圖像識別、自然語言處理和專家系統等。
隨著人工智能的不斷發展,語音交互作為最自然的交互方式日益推廣,人們對于語音識別服務的需求越來越多。根據用戶在交互中的語音,驗證或識別用戶的身份信息,進行智能化地反應,可以大大提高用戶的體驗。
現在的端到端的語音識別技術需要使用針對性的訓練語料,利用DNN/CNN/LSTMmodel來將聲學特征直接映射為說話人特征表示。為了開發一個特征場景的聲紋認證算法和產品,端到端的聲紋認證算法往往需要錄制大量的數據,才能保證算法的性能,而這需要花費大量的時間成本和經濟成本。
【發明內容】
本申請的多個方面提供一種訓練聲紋模型的方法及系統,用以提高聲紋認證的性能。
本申請的一方面,提供一種訓練聲紋模型的方法,其特征在于,包括:
利用第一訓練數據訓練深度神經網絡,生成第一聲紋識別模型;
利用第二訓練數據對所述第一聲紋識別模型進行遷移學習,生成第二聲紋識別模型;所述第二聲紋識別模型用于進行聲紋注冊或認證。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述深度神經網絡的輸出層所包括的輸出單元的數量依據第一訓練數據的基本語音元素的數量確定。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述利用第一訓練數據訓練深度神經網絡,生成第一聲紋識別模型包括:
獲取所述第一訓練數據的聲學特征向量;
將所述第一訓練數據的聲學特征向量作為輸入,第一訓練數據中的語音標識作為輸出,對所述深度神經網絡進行訓練,得到第一聲紋識別模型。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述利用第二訓練數據對所述第一聲紋識別模型進行遷移學習,生成第二聲紋識別模型包括:
對所述第一聲紋識別模型進行微調;
獲取所述第二訓練數據的聲學特征向量;
將所述第二訓練數據的聲學特征向量作為輸入,第二訓練數據中的語音標識作為輸出,對微調后的第一聲紋識別模型進行訓練,得到第二聲紋識別模型。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述對第一聲紋識別模型進行微調包括:
對輸出層進行替換,以使得輸出層所包括的輸出單元的數量與第二訓練數據的基本語音元素的數量相適應;
調低隱層的學習率。
如上所述的方面和任一可能的實現方式,進一步提供一種實現方式,所述第一訓練數據包括中文訓練數據,所述第二訓練數據包括英語訓練數據;或者,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710648032.6/2.html,轉載請聲明來源鉆瓜專利網。





