[發(fā)明專利]一種用戶語音識別方法和裝置有效
| 申請?zhí)枺?/td> | 201910578720.9 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110570843B | 公開(公告)日: | 2021-03-05 |
| 發(fā)明(設(shè)計)人: | 鞠向宇;趙曉朝;袁志偉;戴帥湘 | 申請(專利權(quán))人: | 北京驀然認(rèn)知科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/07;G10L15/187 |
| 代理公司: | 北京智丞瀚方知識產(chǎn)權(quán)代理有限公司 11810 | 代理人: | 楊樂 |
| 地址: | 100083 北京市海淀區(qū)學(xué)院*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用戶 語音 識別 方法 裝置 | ||
1.一種用戶語音識別方法,其特征在于,所述方法包括:
步驟100,根據(jù)用戶的聲紋識別用戶,得到用戶ID;
步驟101,根據(jù)用戶ID判斷該用戶是否為首次接入用戶;
步驟102,如果該用戶是首次接入用戶,則根據(jù)該用戶的聲紋特征獲得用戶特征數(shù)據(jù),根據(jù)用戶特征數(shù)據(jù)加載對應(yīng)的初始聲學(xué)模型和初始語言模型;
步驟1021,對所述初始聲學(xué)模型和初始語言模型進(jìn)行訓(xùn)練,得到與該用戶對應(yīng)的聲學(xué)模型和語言模型;所述用戶將初始聲學(xué)模型和/或初始語言模型分享到特定群體中進(jìn)行訓(xùn)練,所述用戶將初始聲學(xué)模型和/或初始語言模型分享到特定群體中進(jìn)行訓(xùn)練具體為:
所述用戶將所述初始聲學(xué)模型分享到與該用戶具有相同或相似發(fā)音習(xí)慣的群體中進(jìn)行訓(xùn)練;和/或所述用戶將所述初始語言模型分享到與該用戶具有相同或相似的語言習(xí)慣的群體中進(jìn)行訓(xùn)練;
所述對初始聲學(xué)模型和初始語言模型進(jìn)行訓(xùn)練,得到與該用戶對應(yīng)的聲學(xué)模型和語言模型具體為:
根據(jù)該用戶的語音識別記錄該用戶的高頻詞和/或不同場景常用的前綴詞,積累用戶數(shù)據(jù),持續(xù)調(diào)整所述初始語言模型以得到與該用戶對應(yīng)的聲學(xué)模型和語言模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)用戶特征數(shù)據(jù)加載對應(yīng)的初始聲學(xué)模型和初始語言模型具體為通過聲紋識別所述用戶的地域和/或性別和/或年齡,對應(yīng)的加載初始聲學(xué)模型和初始語言模型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述用戶向特定群體或其他用戶分享與所述用戶對應(yīng)的語言模型或聲學(xué)模型;
和/或,所述用戶調(diào)用其他群體或其他用戶的語言模型作為該用戶的初始語言模型和/或所述用戶調(diào)用其他群體或其他用戶的聲學(xué)模型作為該用戶的初始聲學(xué)模型。
4.一種用戶語音識別裝置,其特征在于,所述裝置包括:
識別模塊,根據(jù)用戶的聲紋識別用戶,得到用戶ID;
判斷模塊,根據(jù)用戶ID判斷該用戶是否為首次接入用戶;
模型加載模塊,如果該用戶是首次接入用戶,則根據(jù)該用戶的聲紋特征獲得用戶特征數(shù)據(jù),根據(jù)用戶特征數(shù)據(jù)加載對應(yīng)的初始聲學(xué)模型和初始語言模型;如果該用戶不是首次接入用戶,則根據(jù)該用戶ID,分別加載與該用戶對應(yīng)的聲學(xué)模型和語言模型;所述模型訓(xùn)練模塊,還包括模型分享模塊,用于將所述用戶的初始聲學(xué)模型和/或初始語言模型分享到特定群體中進(jìn)行訓(xùn)練;所述用戶將所述初始聲學(xué)模型分享到與該用戶具有相同或相似發(fā)音習(xí)慣的群體中進(jìn)行訓(xùn)練;和/或所述用戶將所述初始語言模型分享到與該用戶具有相同或相似的語言習(xí)慣的群體中進(jìn)行訓(xùn)練;模型訓(xùn)練模塊,用于對所述初始聲學(xué)模型和初始語言模型進(jìn)行訓(xùn)練,得到與該用戶對應(yīng)的聲學(xué)模型和語言模型,根據(jù)該用戶的語音識別記錄該用戶的高頻詞和/或不同場景常用的前綴詞,積累用戶數(shù)據(jù),持續(xù)調(diào)整所述初始語言模型以得到與該用戶對應(yīng)的聲學(xué)模型和語言模型。
5.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述根據(jù)用戶特征數(shù)據(jù)加載對應(yīng)的初始聲學(xué)模型和初始語言模型具體為通過聲紋識別所述用戶的地域和/或性別和/或年齡,對應(yīng)的加載初始聲學(xué)模型和初始語言模型。
6.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述模型分享模塊還用于所述用戶向特定群體或其他用戶分享與所述用戶對應(yīng)的語言模型或聲學(xué)模型;
和/或,所述用戶調(diào)用其他群體或其他用戶的語言模型作為該用戶的初始語言模型和/或所述用戶調(diào)用其他群體或其他用戶的聲學(xué)模型作為該用戶的初始聲學(xué)模型。
7.一種用戶語音識別裝置,其特征在于,所述裝置包括處理器和存儲器,所述存儲器中存儲有可在處理器上運行的計算機(jī)程序,所述計算機(jī)程序在被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1-3任一項所述的方法。
8.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)中存儲有可在處理器上運行的計算機(jī)程序、所述計算機(jī)程序在被執(zhí)行時實現(xiàn)如權(quán)利要求1-3任一項所述的方法。
9.一種車輛,其特征在于,所述車輛包括:如權(quán)利要求4-6任一項所述的裝置。
10.一種終端,其特征在于,所述終端執(zhí)行如權(quán)利要求4-6任一項所述的裝置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京驀然認(rèn)知科技有限公司,未經(jīng)北京驀然認(rèn)知科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910578720.9/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





