[發明專利]一種語音識別方法、裝置及計算設備在審
| 申請號: | 201811340092.2 | 申請日: | 2018-11-12 |
| 公開(公告)號: | CN111179940A | 公開(公告)日: | 2020-05-19 |
| 發明(設計)人: | 趙情恩;索宏彬;劉剛;卓著;雷赟;張平;孫堯 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G10L17/00 | 分類號: | G10L17/00;G10L17/02;G10L17/14;G06F16/65;H04L29/06 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 彭曉雪;謝建云 |
| 地址: | 開曼群島大開曼*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 語音 識別 方法 裝置 計算 設備 | ||
1.一種語音識別方法,包括步驟:
接收包括第一語音的音頻數據;
判斷是否存在與所述第一語音相匹配的用戶;
在不存在與所述第一語音相匹配的用戶的情況下,存儲所述音頻數據;
對所存儲的多條音頻數據進行聚類,以便從所述多條音頻數據中確定新用戶。
2.如權利要求1所述的方法,其中,所述用戶對應有用戶簡檔,所述用戶簡檔包括所述用戶的聲紋,所述判斷是否存在與所述第一語音相匹配的用戶的步驟包括:
判斷所述第一語音是否與所述用戶的聲紋相匹配,以判斷是否存在與所述第一語音相匹配的用戶。
3.如權利要求2所述的方法,其中,所述對所存儲的多條音頻數據進行聚類,以便從所述多條音頻數據中確定新用戶的步驟包括:
基于所述多條音頻數據中兩兩之間的相似評分,將所述多條音頻數據劃分為多個集合;
基于所述集合的樣本密度和樣本數量確定至少一個目標集合,所述目標集合對應于所述新用戶;
為所述目標集合對應的新用戶創建用戶簡檔,并使用所述目標集合中的至少部分音頻數據來生成該新用戶的聲紋。
4.如權利要求3所述的方法,其中,所述使用所述目標集合中的至少部分音頻數據來生成該新用戶的聲紋的步驟包括:
根據到所述目標集合的質心的距離來確定所述目標集合中用于生成新用戶的聲紋的音頻數據。
5.如權利要求3所述的方法,其中,所述用戶簡檔包括指示用戶是否為主動注冊的用戶標記,所述為所述目標集合對應的新用戶創建用戶簡檔的步驟包括:
將為目標集合對應的新用戶所創建的用戶簡檔中的用戶標識置為非主動注冊;以及
所述方法還包括步驟:
在存在與所述第一語音相匹配的用戶且對應的用戶標記指示所述用戶為非主動注冊的情況下,記錄來自所述用戶的音頻數據條數。
6.如權利要求5所述的方法,其中,還包括步驟:
在記錄來自所述用戶的音頻數據條數之后,判斷所述音頻數據條數是否在特定時間段內達到特定數量;若否,刪除所述用戶對應的用戶簡檔。
7.如權利要求2所述的方法,其中,所述用戶簡檔還包括與用戶相關聯的終端設備的設備標識,所述方法包括步驟:
接收發送所述音頻數據的終端設備的設備標識;
基于所述設備標識判斷是否存在與所述終端設備相關聯的用戶;
如果不存在,則存儲所述音頻數據。
8.如權利要求1所述的方法,其中,還包括步驟:
在存在與所述第一語音相匹配的用戶的情況下,將所述第一語音對應的指令與所述用戶相關聯地存儲。
9.如權利要求1-8中任一項所述的方法,其中,還包括步驟:
接收包括第二語音的音頻數據,所述第二語音用于主動注冊新用戶;
為主動注冊的新用戶創建用戶簡檔,并使用所述包括第二語音的音頻數據來生成所述新用戶的聲紋;以及
將為主動注冊的新用戶所創建的用戶簡檔中的用戶標識置為主動注冊。
10.如權利要求9所述的方法,其中,還包括步驟:
接收發送包括第二語音的音頻數據的終端設備的設備標識;
將所述設備標識與所述主動注冊的新用戶相關聯地存儲至對應的用戶簡檔。
11.如權利要求2-10中任一項所述的方法,其中,所述判斷所述第一語音是否與所述用戶的聲紋相匹配的步驟包括:
根據所述包括第一語音的音頻數據,提取第一語音的語音特征;
基于所述第一語音的語音特征得到所述第一語音與用戶的聲紋之間的相似評分;
根據所述相似評分來確定第一語音是否與用戶的聲紋相匹配。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811340092.2/1.html,轉載請聲明來源鉆瓜專利網。





