[發明專利]一種云端語音識別系統及方法在審

申請號：	201610208354.4	申請日：	2016-04-06
公開（公告）號：	CN105654954A	公開（公告）日：	2016-06-08
發明（設計）人：	胡云燎;何國濤;李全忠;蒲瑤	申請（專利權）人：	普強信息技術（北京）有限公司
主分類號：	G10L15/30	分類號：	G10L15/30;G10L15/06
代理公司：	北京中恒高博知識產權代理有限公司 11249	代理人：	夏晏平
地址：	100085 北京市海淀區東北旺***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種云端語音識別系統方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

技術領域

本發明屬于語言分析技術領域，尤其涉及一種云端語音識別系統及方法。

背景技術

隨著移動互聯網、車聯網和智能家居的發展，語音識別發揮了越來越重要的作用。另一方面，語音識別技術，特別是DNN(深度神經網絡)訓練方法的發展，極大在提高了語音識別的準確率，反過來也促進了不同行業的應用。

但隨著語音應用走向大眾，特別是語音云的使用，目標人群未知、目標人群范圍廣泛，魯棒性和適應性是難以回避的難題，訓練數據與識別數據的不匹配會極大地降低識別準確度。目前的做法是用一個模型識別所有的說話人，在模型建模前收集盡量多的數據，以期達到覆蓋范圍廣的目的。而如需要提高某個人的識別率，需要把這個人的數據和原有數據放在一起重新建模。這種方法有幾個弊端：

訓練數據不可能做到完全覆蓋所有說話人，而且大數據量的模型建模困難。

因未從說話人的發音特征分布采樣數據，訓練數據會產生分布不均勻，有些人群口音未覆蓋。

因未能實現動態更新識別資源，導致識別資源更新周期長，部分用戶的識別率不能及時提高。

因對不同領域的應用使用同一套識別資源，導致語言模型建模難以選擇語料，垂直領域識別難以提高，可能會產生不同領域“此消彼漲”的難題。

發明內容

本發明的目的在于提供一種云端語音識別系統及方法，旨在解決如何在采樣時保證人群口音分布的廣泛性和均勻性，如何根據說話人動態更換及更新語音識別資源，如何提高多領域的語音識別率，如何提高多口音的識別率的問題。

該方法是這樣實現的，該云端語音識別系統包括：性別層、年齡層、平臺層、方言層、領域層；

用戶標識和用戶語言通過口音判別分別對性別層、年齡層、平臺層、方言層進行數據采樣；

所述的性別層包括：男、女；

所述的年齡層分為四個階段：7～17歲，18～35歲，36～45歲，45歲以上；

所述的平臺層包括：IOS、Android、Windows；

所述的方言層包括粵語口音、閩語口音、吳語口音、贛語口音、湘語口音、客家話口音、官話口音和普通話的一種或多種組合

本發明還采取如下技術措施：

該云端語音識別方法包括以下步驟：

步驟一、對人群進行多維度發音特征劃分，采樣數據；

步驟二、利用用戶語音和用戶標識獲取多個維度的信息，確定識別模型。

步驟三、對識別資源依據劃分進行動態更新；

步驟四、利用用戶語音識別文本確定領域模型。

在步驟一中，根據地域分布、口音分布、噪聲分布、年齡分布、男女比例、設備平臺六個維度采樣數據。

所述的地域分布為分別將說話人分布定義在8個地區，每個地區選一到兩個重點城市作為采樣人群城市；

所述的口音分布分別為：粵語、閩語、吳語、贛語、湘語、客家話、官話、普通話；

所述的噪聲分布分別為：車內、地鐵、室內、街道、火車站、汽車站、餐廳、會議室、商場；

所述的年齡分布為根據應用的適用人群，預定義采樣人群的年齡及比例；

所述的男女比例根據1:1比例采樣；

所述的設備平臺根據不同的移動設備平臺，在采樣時選用不同的平臺設備采樣數據。

所述的動態更新包括：領域識別資源選擇動態更新和云端領域資源動態更新。

所述的領域識別資源選擇動態更新的方法有以下三種方式：

用戶標識在應用層，根據用戶注冊信息，直接選擇識別資源的領域；在用戶信息不全時，語音分別送到多個模型，選擇置信度較高的模型。

語言特征選擇領域模型；包括領域詞發現算法和領域歸類算法；

聲學特征選擇口音模型。

所述的云端領域資源動態更新包括更新聲學模型和更新語言模型。

本發明具有的優點和積極效果是：該云端語音識別系統及方法結構簡單，使用方便，有效提高了不同地域、不同領域、不同口音、不同性別、不同年齡段人群的語音識別率。

附圖說明

圖1是本發明實施例提供的云端語音識別系統的結構示意圖；

圖2是本發明實施例提供的云端語音識別方法流程圖。

具體實施方式

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于普強信息技術（北京）有限公司，未經普強信息技術（北京）有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201610208354.4/2.html，轉載請聲明來源鉆瓜專利網。

同類專利

專利分類

G 物理

G10 樂器；聲學
G10L 語音分析或合成；語音識別；音頻分析或處理
G10L15-00 語音識別
G10L15-02 .語音識別的特征提取；識別單位的選擇
G10L15-04 .分段或字極限檢測
G10L15-06 .創建基準模板；訓練語音識別系統，例如對說話者聲音特征的適應
G10L15-08 .語音分類或檢索
G10L15-20 .專門適用于不利環境

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】