[發明專利]語音識別和語音模型訓練的方法及存儲介質和電子設備在審
| 申請號: | 202010162942.5 | 申請日: | 2020-03-10 |
| 公開(公告)號: | CN111833849A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 徐海洋;韓堃 | 申請(專利權)人: | 北京嘀嘀無限科技發展有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/02 |
| 代理公司: | 北京睿派知識產權代理事務所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 100193 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 模型 訓練 方法 存儲 介質 電子設備 | ||
公開了一種語音識別和語音模型訓練的方法及存儲介質和電子設備。通過獲取語音訓練集并根據語音訓練集獲取文本訓練集,根據文本訓練集獲取預訓練的文本模型,根據預訓練的文本模型和語音訓練集獲取預訓練的語音模型。由此,使得預訓練的語音模型中融合了文本特征,可以降低語音模型的訓練難度,提高語音識別的準確性。
技術領域
本發明涉及語音識別技術領域,尤其涉及一種語音識別和語音模型訓練的方法及存儲介質和電子設備。
背景技術
隨著人工智能技術的快速發展,智能機器人越來越多的替代人工客服與用戶進行語音交互(IVR,Interactive Voice Response),節省了大量的人力。語音交互的核心主要就是機器如何正確的理解用戶的意圖,從而做出正確的回應來幫助用戶快速,準確的解決問題。
現有技術中對于意圖識別的方法一般分為管道(Pipleline)和端到端(End-to-End)兩種方法。其中,管道的方法是先對語音信息進行語音識別以獲得文本信息,然后用NLP(Natural Language Processing,自然語言處理)的方法對文本信息進行意圖識別。端到端的方法并不需要獲取文本信息,直接將語音信息通過模型進行意圖識別。
由于端到端的方法可以簡化語義理解的過程,提高響應的效率,因而受到越來越大的關注。但是已有的端到端的方法需要大量的標注數據,學習難度較大,而且意圖識別的準確性也較低。
發明內容
有鑒于此,本發明實施例的目的在于提供一種語音識別和語音模型訓練的方法及存儲介質和電子設備,可以降低語音模型的訓練難度,提高語音識別的準確性。
第一方面,本發明實施例提供了一種語音模型的訓練方法,所述方法包括:
獲取語音訓練集,所述語音訓練集包括多個語音信息和對應的意圖標識;
對所述語音信息進行語音識別以獲取文本訓練集,所述文本訓練集包括多個文本信息和對應的意圖標識;
根據所述文本訓練集獲取預訓練的文本模型;以及
根據所述預訓練的文本模型和所述語音訓練集獲取所述預訓練的語音模型。
優選地,所述文本模型包括第一特征提取層和第一意圖識別層;
其中,根據所述文本訓練集獲取預訓練的文本模型包括:
基于預定的分詞算法對所述文本訓練集中各文本信息進行分詞處理以獲取對應的詞序列,所述詞序列包括多個詞;
根據所述詞序列獲取第一嵌入向量;
將所述第一嵌入向量輸入所述第一特征提取層獲取所述文本信息的文本向量;
將所述文本向量輸入到第一意圖識別層獲得輸出;以及
根據所述第一意圖識別層的輸出和對應的意圖對所述第一特征提取層和所述第一意圖識別層進行調整以獲取所述預訓練的文本模型。
優選地,所述語音模型包括第二特征提取層和第二意圖識別層;
其中,根據所述預訓練的文本模型和所述語音訓練集獲取所述預訓練的語音模型包括:
根據所述預訓練的文本模型對所述第二特征提取層進行調整以使得所述語音模型輸出的語音向量與所述文本模型輸出的文本向量一致;以及
根據所述語音訓練集對所述第二意圖識別層和所述第二特征提取層進行調整以使得所述語音模型獲取所述語音信息的意圖。
優選地,根據所述預訓練的文本模型對所述第二特征提取層進行調整包括:
對所述語音訓練集中各語音信息進行分幀處理以獲取幀序列;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京嘀嘀無限科技發展有限公司,未經北京嘀嘀無限科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010162942.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:電源一體型真空泵
- 下一篇:太陽能面板、顯示裝置以及鐘表





