[發明專利]一種云端語音識別系統及方法在審
| 申請號: | 201610208354.4 | 申請日: | 2016-04-06 |
| 公開(公告)號: | CN105654954A | 公開(公告)日: | 2016-06-08 |
| 發明(設計)人: | 胡云燎;何國濤;李全忠;蒲瑤 | 申請(專利權)人: | 普強信息技術(北京)有限公司 |
| 主分類號: | G10L15/30 | 分類號: | G10L15/30;G10L15/06 |
| 代理公司: | 北京中恒高博知識產權代理有限公司 11249 | 代理人: | 夏晏平 |
| 地址: | 100085 北京市海淀區東北旺*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 云端 語音 識別 系統 方法 | ||
技術領域
本發明屬于語言分析技術領域,尤其涉及一種云端語音識別系統及方法。
背景技術
隨著移動互聯網、車聯網和智能家居的發展,語音識別發揮了越來越重要 的作用。另一方面,語音識別技術,特別是DNN(深度神經網絡)訓練方法的 發展,極大在提高了語音識別的準確率,反過來也促進了不同行業的應用。
但隨著語音應用走向大眾,特別是語音云的使用,目標人群未知、目標人 群范圍廣泛,魯棒性和適應性是難以回避的難題,訓練數據與識別數據的不匹 配會極大地降低識別準確度。目前的做法是用一個模型識別所有的說話人,在 模型建模前收集盡量多的數據,以期達到覆蓋范圍廣的目的。而如需要提高某 個人的識別率,需要把這個人的數據和原有數據放在一起重新建模。這種方法 有幾個弊端:
訓練數據不可能做到完全覆蓋所有說話人,而且大數據量的模型建模困難。
因未從說話人的發音特征分布采樣數據,訓練數據會產生分布不均勻,有 些人群口音未覆蓋。
因未能實現動態更新識別資源,導致識別資源更新周期長,部分用戶的識 別率不能及時提高。
因對不同領域的應用使用同一套識別資源,導致語言模型建模難以選擇語 料,垂直領域識別難以提高,可能會產生不同領域“此消彼漲”的難題。
發明內容
本發明的目的在于提供一種云端語音識別系統及方法,旨在解決如何在采 樣時保證人群口音分布的廣泛性和均勻性,如何根據說話人動態更換及更新語 音識別資源,如何提高多領域的語音識別率,如何提高多口音的識別率的問題。
該方法是這樣實現的,該云端語音識別系統包括:性別層、年齡層、平臺 層、方言層、領域層;
用戶標識和用戶語言通過口音判別分別對性別層、年齡層、平臺層、方言 層進行數據采樣;
所述的性別層包括:男、女;
所述的年齡層分為四個階段:7~17歲,18~35歲,36~45歲,45歲以上;
所述的平臺層包括:IOS、Android、Windows;
所述的方言層包括粵語口音、閩語口音、吳語口音、贛語口音、湘語口音、 客家話口音、官話口音和普通話的一種或多種組合
本發明還采取如下技術措施:
該云端語音識別方法包括以下步驟:
步驟一、對人群進行多維度發音特征劃分,采樣數據;
步驟二、利用用戶語音和用戶標識獲取多個維度的信息,確定識別模型。
步驟三、對識別資源依據劃分進行動態更新;
步驟四、利用用戶語音識別文本確定領域模型。
在步驟一中,根據地域分布、口音分布、噪聲分布、年齡分布、男女比例、 設備平臺六個維度采樣數據。
所述的地域分布為分別將說話人分布定義在8個地區,每個地區選一到兩 個重點城市作為采樣人群城市;
所述的口音分布分別為:粵語、閩語、吳語、贛語、湘語、客家話、官話、 普通話;
所述的噪聲分布分別為:車內、地鐵、室內、街道、火車站、汽車站、餐 廳、會議室、商場;
所述的年齡分布為根據應用的適用人群,預定義采樣人群的年齡及比例;
所述的男女比例根據1:1比例采樣;
所述的設備平臺根據不同的移動設備平臺,在采樣時選用不同的平臺設備 采樣數據。
所述的動態更新包括:領域識別資源選擇動態更新和云端領域資源動態更 新。
所述的領域識別資源選擇動態更新的方法有以下三種方式:
用戶標識在應用層,根據用戶注冊信息,直接選擇識別資源的領域;在用 戶信息不全時,語音分別送到多個模型,選擇置信度較高的模型。
語言特征選擇領域模型;包括領域詞發現算法和領域歸類算法;
聲學特征選擇口音模型。
所述的云端領域資源動態更新包括更新聲學模型和更新語言模型。
本發明具有的優點和積極效果是:該云端語音識別系統及方法結構簡單, 使用方便,有效提高了不同地域、不同領域、不同口音、不同性別、不同年齡 段人群的語音識別率。
附圖說明
圖1是本發明實施例提供的云端語音識別系統的結構示意圖;
圖2是本發明實施例提供的云端語音識別方法流程圖。
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普強信息技術(北京)有限公司,未經普強信息技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610208354.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:語音識別方法及裝置
- 下一篇:語音控制方法以及系統





