[發明專利]語音識別方法、裝置、計算機設備及介質在審
| 申請號: | 202010622097.5 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111739517A | 公開(公告)日: | 2020-10-02 |
| 發明(設計)人: | 田植良 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L15/07 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 張所明 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語音 識別 方法 裝置 計算機 設備 介質 | ||
本申請實施例公開了一種語音識別方法、裝置、計算機設備及介質,屬于計算機技術領域。該方法包括:對第一用戶標識的語音數據進行特征提取,得到所述語音數據的語音特征;獲取所述第一用戶標識的用戶特征;對所述語音特征及所述用戶特征進行融合處理,得到所述語音數據對應的融合特征;對所述融合特征進行識別處理,得到所述語音數據對應的文本數據。該方法綜合考慮語音數據的內容與用戶的說話方式,以使識別處理得到的文本數據更加符合用戶的說話方式,與語音數據也更為匹配,提高了語音識別的準確率。
技術領域
本申請實施例涉及計算機技術領域,特別涉及一種語音識別方法、裝置、計算機設備及介質。
背景技術
隨著計算機技術的發展,語音識別技術在社交應用、智能客服等領域越來越普遍,采用語音識別技術能夠將語音數據轉換為文本數據,供用戶查看。但是由于目前的技術性能有限,可能無法準確識別出語音數據對應的文本數據,因此語音識別的準確率較低。
發明內容
本申請實施例提供了一種語音識別方法、裝置、計算機設備及介質,提高了語音識別的準確率。所述技術方案如下:
一方面,提供了一種語音識別方法,所述方法包括:
對第一用戶標識的語音數據進行特征提取,得到所述語音數據的語音特征;
獲取所述第一用戶標識的用戶特征,所述用戶特征是對所述第一用戶標識的用戶關系網絡進行特征提取得到的,所述用戶關系網絡包括所述第一用戶標識與至少一個第二用戶標識之間的關聯關系;
對所述語音特征及所述用戶特征進行融合處理,得到所述語音數據對應的融合特征;
對所述融合特征進行識別處理,得到所述語音數據對應的文本數據。
另一方面,提供了一種語音識別裝置,所述裝置包括:
語音特征獲取模塊,用于對第一用戶標識的語音數據進行特征提取,得到所述語音數據的語音特征;
用戶特征獲取模塊,用于獲取所述第一用戶標識的用戶特征,所述用戶特征是對所述第一用戶標識的用戶關系網絡進行特征提取得到的,所述用戶關系網絡包括所述第一用戶標識與至少一個第二用戶標識之間的關聯關系;
融合特征獲取模塊,用于對所述語音特征及所述用戶特征進行融合處理,得到所述語音數據對應的融合特征;
語音識別模塊,用于對所述融合特征進行識別處理,得到所述語音數據對應的文本數據。
可選地,所述用戶特征獲取模塊,用于調用第一語音識別模型的用戶特征提取層,對所述用戶關系網絡進行特征提取,得到所述第一用戶標識的用戶特征。
可選地,所述對第一用戶標識的語音數據進行特征提取,得到所述語音數據的語音特征的步驟,通過調用所述第一語音識別模型的語音特征提取層執行;
所述對所述語音特征及所述用戶特征進行融合處理,得到所述語音數據對應的融合特征的步驟,通過調用所述第一語音識別模型的特征融合層執行;
所述對所述融合特征進行識別處理,得到所述語音數據對應的文本數據的步驟,通過調用所述第一語音識別模型的語音識別層執行。
可選地,所述第一語音識別模型的訓練過程包括以下步驟:
獲取樣本用戶標識的樣本用戶關系網絡、所述樣本用戶標識的樣本語音數據以及所述樣本語音數據對應的樣本文本數據;
調用所述語音特征提取層,對所述樣本語音數據進行特征提取,得到所述樣本語音數據的預測語音特征;
調用所述樣本用戶特征獲取層,對所述樣本用戶關系網絡進行特征提取,得到所述樣本用戶標識的預測用戶特征;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010622097.5/2.html,轉載請聲明來源鉆瓜專利網。





