[發明專利]一種文本矯正的方法和裝置有效
| 申請號: | 201110276241.5 | 申請日: | 2011-09-16 |
| 公開(公告)號: | CN102999483A | 公開(公告)日: | 2013-03-27 |
| 發明(設計)人: | 劉占一;吳華;王海峰 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京鴻德海業知識產權代理事務所(普通合伙) 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 矯正 方法 裝置 | ||
1.一種文本矯正的方法,其特征在于,該方法包括:
S1、獲取待矯正文本;
S2、利用預設的標準文本庫查找所述待矯正文本的相似文本;
S3、將所述相似文本與待矯正文本進行比較,確定差異詞對,其中所述差異詞對中待矯正文本中的差異詞為原始詞,相似文本中的差異詞為所述原始詞對應的候選詞;
S4、利用候選詞分別對所述待矯正文本中對應的原始詞進行替換構成M1個候選文本,M1為正整數;
S5、分別針對所述候選文本和所述待矯正文本計算文本流利度,選出流利度最高的M2個文本,M2為小于或等于M1+1的正整數;
S6、分別計算所述M2個文本的搭配概率,選出搭配概率排在前M3個的文本作為矯正后的文本,M3為小于或等于M2的正整數,其中文本的搭配概率由文本中對象詞與其他各詞語在所述標準文本庫中的搭配概率確定,所述對象詞為文本中的原始詞或候選詞。
2.根據權利要求1所述的方法,其特征在于,所述步驟S2具體包括:計算所述待矯正文本與所述標準文本庫中文本的相似度,確定相似度滿足預設相似度閾值的文本作為所述待矯正文本的相似文本。
3.根據權利要求2所述的方法,其特征在于,計算所述待矯正文本與所述標準文本庫中文本的相似度具體包括:
計算所述待矯正文本與所述標準文本庫中文本之間的編輯距離,利用所述編輯距離確定相似度;或者,
利用所述待矯正文本與所述標準文本庫中文本的差異詞特征向量之間的距離,計算所述待矯正文本與所述標準文本庫中文本之間的相似距離,利用所述相似距離確定相似度。
4.根據權利要求1所述的方法,其特征在于,在所述步驟S3中確定出差異詞對之后,還包括:
判斷所述差異詞對是否為同義詞對,將不是同義詞對的差異詞對刪除。
5.根據權利要求4所述的方法,其特征在于,判斷所述差異詞對是否為同義詞對包括:
判斷所述差異詞對中的兩個差異詞是否在預設的同義詞典中以同義詞對的形式出現,如果是,則確定所述差異詞對為同義詞對;或者,
判斷所述差異詞對中的兩個差異詞是否在預設的翻譯詞典中具有相同的譯文,如果是,則確定所述差異詞對為同義詞對。
6.根據權利要求1所述的方法,其特征在于,在所述步驟S5中,文本流利度由文本中對象詞在大規模語料庫中的出現概率以及對象詞與上下文在所述標準文本庫或大規模語料庫中的共現概率確定。
7.根據權利要求1所述的方法,其特征在于,在所述S6中,所述文本的搭配概率為文本中各對象詞與其他各詞語在所述標準文本庫中的搭配概率之和。
8.根據權利要求1所述的方法,其特征在于,該方法還包括:將所述矯正后的文本在彈出的文本框中顯示,且將所述待矯正文本中對應的原始詞進行突出顯示,將矯正后文本中的候選詞進行突出顯示。
9.根據權利要求1所述的方法,其特征在于,在所述步驟S6之后還包括:
S7、分別計算所述矯正后文本中候選詞的評分以及所述待矯正文本中對應原始詞的評分,其中詞語在文本中的評分由該詞語與上下文在所述標準文本庫中的共現概率和/或該詞語與文本中其他詞語在所述標準文本庫中的搭配概率確定;
S8、根據所述矯正后文本中候選詞的評分與所述待矯正文本中對應原始詞的評分差異,為矯正后文本中候選詞的置信度進行打分。
10.根據權利要求9所述的方法,其特征在于,該方法還包括:將所述矯正后文本中候選詞的置信度的打分狀況在彈出的文本框中顯示。
11.根據權利要求1所述的方法,其特征在于,該方法還包括:
在所述矯正后文本中確定與候選詞的搭配概率最大的詞語,以確定的該詞語和候選詞的組合作為查詢詞在所述標準文本庫中進行查詢,確定包含所述組合的例句在彈出的文本框中顯示。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110276241.5/1.html,轉載請聲明來源鉆瓜專利網。





