[發(fā)明專利]一種對語音識別后文本進行檢錯并糾錯的方法有效
| 申請?zhí)枺?/td> | 200910092461.5 | 申請日: | 2009-09-08 |
| 公開(公告)號: | CN101655837A | 公開(公告)日: | 2010-02-24 |
| 發(fā)明(設(shè)計)人: | 李蕾;龍麗霞;王興建;王駿 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G10L15/00 |
| 代理公司: | 北京德琦知識產(chǎn)權(quán)代理有限公司 | 代理人: | 謝安昆;宋志強 |
| 地址: | 100876*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 語音 識別 文本 進行 檢錯 糾錯 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,特別涉及一種對語音識別后文本進行檢錯并糾錯的方法。
背景技術(shù)
語音識別技術(shù)是一種讓機器通過識別和理解,把人類的語言轉(zhuǎn)變?yōu)橄鄳?yīng)的文本的技術(shù),其最終目的是讓機器“聽懂”人類的語言,實現(xiàn)人類與機器的自由交流。然而,現(xiàn)有語音識別后文本中經(jīng)常會有很多錯誤,也即語音識別率并不是很高,從而影響了人類與機器之間的正常交流,因此,提高語音識別率成了語音識別技術(shù)中的當務(wù)之急。
為了提高語音識別率,也就需要對語音識別后文本進行檢錯并糾錯。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供了一種對語音識別后文本進行檢錯并糾錯的方法,以提高語音識別率、實現(xiàn)人類與機器的自由交流。
為達到上述目的,本發(fā)明的技術(shù)方案具體是這樣實現(xiàn)的:
一種對語音識別后文本進行檢錯并糾錯的方法,用于對語音識別后文本中的文本句進行檢錯,并對檢錯后文本句中的錯誤詞語進行糾錯,包括:
按照所述語音識別后文本中的文本句所屬領(lǐng)域,分別創(chuàng)建包含有N元語法值集合的第二語法知識庫,包含有核心詞集合的第二語義知識庫,以及第二語境知識庫,其中,第二語境知識庫包含有核心詞、由包含核心詞的文本句形成的實例、以及所述核心詞與其實例中除該核心詞之外的其它詞語的語境關(guān)聯(lián)度集合;并且,所述第二語法知識庫獨立于包含有通用語法知識的第一語法知識庫,所述第二語義知識庫獨立于包含有通用語義知識的第一語義知識庫;
將所述語音識別后文本中的文本句轉(zhuǎn)換成拼音形式的文本句,從所述第二語法知識庫中獲取所述拼音形式的文本句的N元語法值,將N元語法值大于閾值T1的N個拼音對應(yīng)的詞語和所述第二語義知識庫中的核心詞的并集作為所述語音識別后文本中的文本句的錨點詞,其中,所述N為自然數(shù);
查找所述第二語境知識庫,獲取每個錨點詞對應(yīng)的實例;基于第二語境知識庫中的語境關(guān)聯(lián)度和第一語義知識庫中的語義相似度,計算所述語音識別后文本中的文本句中的每個詞語與每個所述獲取的實例中所有詞語的詞語相關(guān)度,并根據(jù)所述詞語相關(guān)度計算所述獲取的實例與所述語音識別后文本中的文本句的文本相關(guān)度,獲取每個錨點詞對應(yīng)的實例中文本相關(guān)度最大的實例;
基于第二語境知識庫中的語境關(guān)聯(lián)度和第一語義知識庫中的語義相似度,計算所述語音識別后文本中的文本句中的詞語與所述獲取的每個錨點詞對應(yīng)的實例中文本相關(guān)度最大的實例的詞語相關(guān)度,如果所述詞語相關(guān)度大于閾值T3,則將所述詞語作為正確詞語,將所述語音識別后文本中的文本句中正確詞語以外的其它詞語作為錯誤詞語;
從第一語法知識庫中獲取候選詞語,如果所述候選詞語與所述獲取的文本相關(guān)度最大的實例和諧,則使用所述候選詞語替換所述錯誤詞語,
其中,所述創(chuàng)建第二語義知識庫包括:
搜索所述語音識別后文本中的文本句所屬領(lǐng)域中的文本,并設(shè)定所述語音識別后文本中的文本句所屬領(lǐng)域中的語境詞為種子詞庫,分別計算所述搜索到的文本中的文本句與所述語境詞共同出現(xiàn)在同一個文本句中的頻數(shù),將頻數(shù)最高的前三位詞語加入到種子詞庫中,得到新種子詞庫,
基于新種子詞庫對所述搜索到的文本進行卡方檢驗,將卡方檢驗后得到的所述搜索到的文本中每個詞語的總卡方值大小進行排序,從所述排序后的詞語中取出卡方值大于某一閾值的詞語作為核心詞,得到所述第二語義知識庫,所述閾值的大小由所需選取的核心詞數(shù)量來確定。
由上述的技術(shù)方案可見,本發(fā)明所采用的對語音識別后文本進行檢錯并糾錯的方法,是分別對語音識別后文本中的每一個文本句進行檢錯、并對檢錯后的文本句中的錯誤詞語進行糾錯的。由于該方法中所采用的第二語法知識庫、第二語義知識庫和第二語境知識庫都是針對所述語音識別后文本中的文本句所屬領(lǐng)域創(chuàng)建的,而且通過上述創(chuàng)建的特定領(lǐng)域的第二語法知識庫和第二語義知識庫來獲取錨點詞,也就使得獲取的錨點詞是特定領(lǐng)域下的,并通過該特定領(lǐng)域下的錨點詞來獲取實例,進一步地,通過實例來計算其與所述語音識別后文本中中的文本句的文本相關(guān)度,也就使得在對文本句進行檢錯糾錯時充分結(jié)合了文本句所屬領(lǐng)域下的語法、語義以及語境知識,能夠?qū)φZ音識別后文本進行準確的檢錯并糾錯,從而提高語音識別率、實現(xiàn)人類與機器的自由交流。
附圖說明
圖1為本發(fā)明對語音識別后文本進行檢錯并糾錯的工作流程圖。
圖2為本實施例所采用的第二語法知識庫的創(chuàng)建方法的工作流程圖。
圖3為本實施例所采用的第二語義知識庫的創(chuàng)建方法的工作流程圖。
圖4為本發(fā)明采用第二語法知識庫定位錨點詞的工作流程圖。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910092461.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





