[發明專利]自動語音識別方法和系統有效
| 申請號: | 201310033201.7 | 申請日: | 2013-01-29 |
| 公開(公告)號: | CN103971675A | 公開(公告)日: | 2014-08-06 |
| 發明(設計)人: | 饒豐;盧鯉;陳波;岳帥;張翔;王爾玉;謝達東;李露;陸讀羚 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G10L15/02 | 分類號: | G10L15/02;G10L15/06;G10L21/06 |
| 代理公司: | 北京德琦知識產權代理有限公司 11018 | 代理人: | 張曉峰;宋志強 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自動 語音 識別 方法 系統 | ||
技術領域
本申請涉及自動語音識別(ASR,Automatic Speech Recognition)技術領域,尤其涉及一種自動語音識別方法和系統。
背景技術
自動語音識別技術是將人類的語音中的詞匯內容轉換為計算機可讀的輸入字符的一項技術。語音識別具有復雜的處理流程,主要包括聲學模型訓練、語言模型訓練、解碼資源構建、以及解碼四個過程。圖1為現有自動語音識別系統的一種主要處理流程的示意圖。參見圖1,主要處理過程包括:
步驟101和102,需要根據聲學原料進行聲學模型訓練得到聲學模型,以及根據生語料進行語言模型訓練得到語言模型。
所述聲學模型是語音識別系統中最為重要的部分之一,目前的主流語音識別系統多采用隱馬爾科夫模型(HMM,Hidden Markov Model)進行建模,隱馬爾可夫模型是統計模型,它用來描述一個含有隱含未知參數的馬爾可夫過程。在隱馬爾可夫模型中,狀態并不是直接可見的,但受狀態影響的某些變量則是可見的。在聲學模型中描述了語音與音素的對應概率。所述音素是根據語音的自然屬性劃分出來的最小語音單位。從聲學性質來看,音素是從音質角度劃分出來的最小語音單位;從生理性質來看,一個發音動作形成一個音素。
所述語言模型主要構建為字符串s的概率分布p(s),反映了字符串s作為一個句子出現的概率。假設w為字符串s中的每個詞,則:
p(s)=p(w1w2w3...wn)=p(w1)p(w2|w1)p(w3|w1w2)...p(wk|w1w2..wk-1)
步驟103,依據所述聲學模型和語言模型,以及預設的詞典,構建相應的解碼資源。所述解碼資源為加權優先轉換機(WFST,weighted finite state transducer)網絡。
步驟104、將語音輸入到解碼器,解碼器依據所構建的解碼資源對所述語音進行解碼,輸出概率值最高的字符串作為所述輸入語音的識別結果。
但是,現有的語音識別技術多基于普適性的語音識別應用,即針對常用說話識別來進行模型搭建,這種情況下,語言模型的訓練語料主要根據數據采集以及實際用戶的輸入,雖然從某種程度上較好地反映了用戶的說話習慣,針對日常用語往往有較好的識別效果;但是,由于語言模型的訓練語料中關于生僻詞語較少出現,例如醫藥名和地名等,不能形成有效的概率統計模型,語言模型中生僻詞語對應字符串的概率值非常低,因此當需要識別用戶說出的較為生僻的詞語的時候,往往會發生數據偏移問題,即識別出的字符串不是用戶說出的詞語,也就是說對于生僻詞語的語音的識別準確率較低,難以取得較好的識別結果。
發明內容
有鑒于此,本發明的主要目的在于提供一種自動語音識別方法和系統,以提高對生僻詞語的語音的識別準確率。
本發明的一種技術方案是這樣實現的:
一種自動語音識別方法,包括:
對生語料進行語料分類計算,得到一個以上不同類別的分類語料;
針對所述每個分類語料進行語言模型訓練計算,得到一個以上對應的分類語言模型;
依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關系,將加權插值處理后的分類語言模型合并,得到插值語言模型;
依據聲學模型和所述插值語言模型構建解碼資源;
依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字符串作為所述輸入語音的識別結果。
一種自動語音識別系統,包括:
分類處理模塊,用于對生語料進行語料分類計算,得到一個以上不同類別的分類語料;
分類語言模型訓練模塊,用于針對所述每個分類語料進行語言模型訓練計算,得到一個以上對應的分類語言模型;
加權合并模塊,用于依據分類的生僻程度為所述各個分類語言模型進行加權插值處理,其中各分類的生僻程度與該分類對應的加權值成正相關關系,將加權插值處理后的分類語言模型合并,得到插值語言模型;
資源構建模塊,用于依據聲學模型和所述插值語言模型構建解碼資源;
解碼器,用于依據所述解碼資源,對輸入的語音進行解碼,輸出概率值最高的字符串作為所述輸入語音的識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310033201.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:便攜式垃圾箱清洗裝置
- 下一篇:一種多功能清理機構





