[發明專利]一種錯別字符處理方法和系統有效
| 申請號: | 200910080812.0 | 申請日: | 2009-03-23 |
| 公開(公告)號: | CN101847140A | 公開(公告)日: | 2010-09-29 |
| 發明(設計)人: | 汪平仄;曹存根;王東升;曹亞男 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/28 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100190 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 錯別字 處理 方法 系統 | ||
1.一種錯別字符處理方法,其特征在于,包括下列步驟:
步驟A1,根據錯別字符訓練集庫,為訓練集中每個正確字符建立其對應的錯別字符集合;
步驟B1,在含錯別字符的大規模語料庫中,分別找出包含所述正確字符和錯別字符的短語或詞組;
步驟C1,找出正確字符和錯別字符的對應關系,建立詞組對或者短語對;
步驟D1,優化所述詞組對或者短語對,將所述詞組對或者短語對中重復表述的詞組對或者短語對篩選掉,得到所述正確字符相應的錯別字符的詞組對或者短語對。
2.根據權利要求1所述的錯別字符處理方法,其特征在于,還包括下列步驟:
步驟E1,將所述正確字符相應的錯別字符的詞組對或者短語對加入到所述正確字符的錯別字符詞典。
3.根據權利要求1或2所述的錯別字符處理方法,其特征在于,所述步驟A1包括下列步驟:
步驟A11,設置字符Word為空,置閥值Threshold的初值為0;進入步驟A12;
步驟A12,為訓練集中的每個正確的字符RWord,建立該正確字符RWord的錯別字符集C(RWord);
設置字符WWord∈C(RWord)當且僅當WWord是RWord的一個錯別字;
字符WWord的標記初始化為False。
4.根據權利要求3所述的錯別字符處理方法,其特征在于,所述步驟B1包括下列步驟:
步驟B11,取出一個未處理過的正確字符RWord,執行步驟B12;
步驟B12,如果步驟B12是由步驟B11跳轉過來的,則設置字符Word=RWord,閥值Threshold=RThreshold;否則,如果步驟B12是由步驟B18跳轉過來的,則設置字符Word=WWord,閥值Threshold=WThreshold;否則,結束;
其中,閥值RThreshold為在處理正確字符時使用的閥值;而閥值WThreshold為在處理錯別字符時使用的閥值;
步驟B13,在大規模語料庫File中檢索查找出包含字符Word的多個詞組或者短語;
步驟B14,對步驟B13中查找出的詞組或者短語,以字符Word為中心位置,依次統計和字符Word距離分別為1、2、3的字符在該位置出現的頻率,對于頻率小于閥值Threshold的字符T,則將詞組或者短語中,從T開始的遠離字符Word方向的字符清除;最后,將處理后長度不小于2的詞組或者短語作為候選詞組或者短語;
步驟B15,統計步驟B14中候選詞組或者短語頻率,將頻率不小于閥值Threshold-2的候選詞組或者短語作為候選詞組或者短語;
其中,閥值Threshold-2根據經驗值而預先設置;
步驟B16,若當前處理的是正確字符,即Word=RWord時,則將該些候選詞組或者短語加入到字符集RPhrase中;否則,若當前處理的是錯別字符,即Word=WWord時,則將該些候選詞組或者短語分別順序加入到可能錯誤詞組或者短語字符集PossibleWPhrase和字符集Processed中,并將這些詞組或者短語在字符集Processed中的起始位置和末尾位置記錄在二元組Position(WWord)中,置該錯別字符WWord的標記為Ture,轉步驟C1;
其中,字符集RPhrase,用于存儲步驟B15中找到的候選詞組或者短語,這些詞組或者短語是包含了正確的字符,字符集RPhrase的初值為空;
字符集PossibleWPhrase,用于將候選詞組或者短語分別順序加入到可能錯誤詞組或者短語字符集,字符集PossibleWPhrase的初值為空;
字符集Processed,用于存放步驟B14和步驟15中已經找到的包含錯別字符WWord的候選詞組或者短語,字符集Processed的初值為零;
Position(WWord)為一個二元組,第一項為包含錯別字符WWord的候選詞組或者短語在字符集Processed中的起始位置,第二項為該些候選詞組或者短語中的最后一個字符在字符集Processed中的位置;
步驟B17,從正確字符RWord的錯別字符集C(RWord)中按順序取出一個未處理過的錯別字符WWord;
步驟B18,如果這個錯別字符WWord標記為False,則轉步驟B12;否則,執行步驟B19;
步驟B19,讀出二元組集Position(WWord)中的二元組數據,并根據二元組數據在字符集Processed中找到包含錯別字符WWord的候選詞組或者短語,并加入到該錯別字符WWord的可能錯誤詞組或者短語集PossibleWPhrase中。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910080812.0/1.html,轉載請聲明來源鉆瓜專利網。





