[發明專利]一種利用話術語句提升語音識別準確率的識別方法在審
| 申請號: | 202010467020.5 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111696531A | 公開(公告)日: | 2020-09-22 |
| 發明(設計)人: | 高洋洋 | 申請(專利權)人: | 升智信息科技(南京)有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/183 |
| 代理公司: | 南京經緯專利商標代理有限公司 32200 | 代理人: | 朱楨榮 |
| 地址: | 210012 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 術語 提升 語音 識別 準確率 方法 | ||
1.一種利用話術語句提升語音識別準確率的識別方法,其特征在于,包括以下步驟:
步驟1、使用通用性文本訓練第一語言模型;訓練第一語言模型具體如下:
設i為正在統計的序列的長度,i為大于等于1的整數;
當i等于1時,首先統計詞語序列的第1個詞語w1出現的次數C(w1),然后統計w1按順序出現之后連接任一詞語w的次數之和∑wC(w1,w);
當i大于1時,首先統計通用型文本中詞語序列w1、w2、…、wi按順序出現的次數C(w1,w2,...,wi),然后統計文本中詞語序列w1、w2、…、wi-1按順序出現之后連接任一詞語w的次數之和∑wC(w1,w2,...,wi-1,w);ws為詞語序列的第s個詞語,s為大于0小于(i+1)的整數;
對于由詞語序列w1,w2,...,wn組成的句子,n為該句子中詞語的個數,其序列概率Pgeneral通過下面的公式計算得到:
其中,P(wi|w1,w2,...,wi-1)為第i個詞出現的條件概率,P(w1)為第1個詞出現的條件概率,P(w2|w1)為第2個詞出現的條件概率;
C(w1,w2,...,wi)為文本中詞語序列w1、w2、…、wi按順序出現的次數,∑wC(w1,w2,...,wi-1,w)為文本中詞語序列w1、w2、…、wi-1按順序出現之后連接任一詞語w的次數之和;
步驟2、定義對話機器人的話術,采用話術語句訓練語言模型得到第二語言模型;
第二語言模型是話術語句的序列概率,具體為:
對于由詞語序列w1,w2,...,wn組成的話術語句,其序列概率Pdialogue通過下面的公式計算得到:
其中,P(wi|w1,w2,...,wi-1)為第i個詞出現的條件概率,P(w1)為第1個詞出現的條件概率,P(w2|w1)為第2個詞出現的條件概率;
步驟3、將第一語言模型和第二語言模型融合生成最終的語言模型;
最終的語言模型為:
由詞語序列w1,w2,...,wn組成的句子,其序列概率Pfinal(w1w2...wn)通過下面的公式計算得到;
Pfinal(w1w2...wn)=λ1Pgeneral+λ2Pdialogue
其中,λ1和λ2為插值系數,用于調節第一語言模型和第二語言模型在Pfinal(w1w2...wn)中的權重;
步驟4、使用所述最終的語音模型生成語音識別系統,通過該語音識別系統來提升語音識別準確率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于升智信息科技(南京)有限公司,未經升智信息科技(南京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010467020.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:業務類型數據的處理方法及系統
- 下一篇:密鑰輪換方法、裝置、電子設備及介質





