[發明專利]語言模型訓練系統、語音識別系統及相應方法有效
| 申請號: | 201210533887.1 | 申請日: | 2012-12-11 |
| 公開(公告)號: | CN103871402B | 公開(公告)日: | 2017-10-10 |
| 發明(設計)人: | 曹立新;萬廣魯 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G10L15/06 | 分類號: | G10L15/06;G10L15/30 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙)11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 模型 訓練 系統 語音 識別 相應 方法 | ||
【技術領域】
本發明涉及語音識別領域,特別是涉及一種語言模型訓練系統及方法,以及一種語音識別系統及方法。
【背景技術】
語言模型建模是語音識別技術中的組成部分,主要是通過統計文本語料中的文法分布,獲得對于語言的統計模型,用于描述一個文本串成為自然語言的概率。語言模型建模的關鍵在于,用于訓練的文本語料和需要識別的語音分布相近,基于此,訓練得到的語言模型才能更好地描述用戶語音輸入,進而實現語音搜索等實際操作。
但是,現有的語言模型訓練技術基于文本檢索日志,但文本檢索與語音檢索在表達上畢竟存在一定差異,在此基礎上進行的語音識別技術的識別準確率不夠高,存在一定的失配情況。
【發明內容】
本發明提供了一種語言模型訓練系統及方法,以及一種語音識別系統及方法,用以解決基于現有語言模型訓練技術的語音識別技術的識別準確率不夠高,存在一定失配情況的問題。
具體技術方案如下:
一種語言模型訓練系統,包括:第一收集單元,用于收集語音搜索的標注結果日志;第一訓練單元,用于對標注結果日志進行訓練,并生成標注結果語言模型;第一語言模型庫,用于存儲所述標注結果語言模型;第二收集單元,用于收集文本搜索的檢索日志;第二訓練單元,用于對檢索日志進行訓練,并生成檢索日志語言模型;第二語言模型庫,用于存儲所述檢索日志語言模型;結合單元,用于將第一語言模型庫中存儲的所述標注結果語言模型以及第二語言模型庫中存儲的所述檢索日志語言模型相結合;第三語言模型庫,用于存儲結合后得到的語言模型。
根據本發明一優選實施例,還包括:第一日志預處理單元,用于預處理所述第一收集單元收集的標注結果日志,以及將預處理后的標注結果日志交由第一訓練單元進行訓練;第二日志預處理單元,用于預處理第二收集單元收集的檢索日志,以及將預處理后的檢索日志交由第二訓練單元進行訓練。
根據本發明一優選實施例,所述第一語言模型庫存儲的標注結果語言模型中包括:各詞語在標注結果文本中的文法概率關系,所述文法概率關系通過下述公式得出:其中Pa(wn|w1w2...wn-1)為詞語w1、w2、…、wn-1按順序出現之后文法接續詞語wn的條件概率;C(w1w2...wn)為在標注結果文本中,詞語w1、w2、…、wn-1按順序出現之后文法接續詞語wn的次數;∑wC(w1...wn-1w)為在標注結果文本中,詞語w1、w2、…、wn-1按順序出現之后文法接續任一詞語的次數之和;n為預設的大于1的正整數;所述第二語言模型庫存儲的檢索日志語言模型中包括:各詞語在檢索日志文本中的文法概率關系,所述文法概率關系通過下述公式得出:其中Pb(wn|w1w2...wn-1)為詞語w1、w2、…、wn-1按順序出現之后文法接續詞語wn的條件概率;C(w1w2...wn)為在檢索日志文本中,詞語w1、w2、…、wn-1按順序出現之后文法接續詞語wn的次數;∑wC(w1...wn-1w)為在檢索日志文本中,詞語w1、w2、…、wn-1按順序出現之后文法接續任一詞語的次數之和;n為預設的大于1的正整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210533887.1/2.html,轉載請聲明來源鉆瓜專利網。





