[發明專利]一種基于模糊分詞的非多字詞錯誤自動校對方法有效
| 申請號: | 201510361877.8 | 申請日: | 2015-06-26 |
| 公開(公告)號: | CN104991889B | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 劉亮亮;吳健康 | 申請(專利權)人: | 江蘇科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙)32204 | 代理人: | 許丹丹 |
| 地址: | 212003*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模糊 分詞 多字 錯誤 自動 校對 方法 | ||
技術領域
本發明涉及人工智能計算機領域中的自然語言處理,特別涉及中文文本自動校對領域。
背景技術
隨著信息處理技術和互聯網的高速發展,傳統的文本工作幾乎全部被計算機所取代,電子書、電子報紙、電子郵件、辦公文件等電子文本、博客、微博等都成為人們日常生活的一部分,然而文本中的錯誤也越來越多,這給校對工作帶來了很大的挑戰。傳統的人工校對效率低、強度大、周期長顯然不能滿足文本校對的需求。
文本自動校對是自然語言處理的主要應用之一,也是自然語言理解的難題。隨著技術的發展,英文文本自動校對取得非常好的效果,已經商業化。相比與英文,漢語文本自動校對有以下幾個難題:
1)中文文本校對沒有類似于英文的“非詞錯誤”——不在字典中的詞,可以通過查字典來發現錯誤;中文文本中的漢字都會出現在字典中。
2)中文文本校對首先要進行中文分詞,如果一個詞中出現錯別字,在分詞的時候會分成單字散串——非多字詞錯誤,這對中文文本的查錯方法帶來了難度。
3)中文中出現單字散串不一定有錯別字,因為中文單字成詞的能力非常強;
4)除了非多字詞錯誤以外,中文中常把一個詞寫錯成另外一個詞典中的詞,這種錯誤稱為真詞錯誤,這也是中文文本自動校對的難點;
針對上述幾個問題,本發明提出并且實現了中文非多字詞錯誤的自動查錯和自動校對方法。
發明內容
發明目的:為了克服現有技術中存在的不足,本發明提供一種基于模糊分詞的非多字詞錯誤自動校對方法。
技術方案:為解決上述技術問題,本發明提供一種基于模糊分詞的非多字詞錯誤自動校對方法,該方法通過模糊分詞的方法進行自動校對,包括以下步驟:
1)利用基于正確詞詞典和錯字詞詞典建立的雙數組Tire樹結構,采用最大匹配方法對中文句子進行精確切分,建立精確分詞詞圖,并對基于錯字詞詞典進行精確切分的結果進行標記,同時將所述中文句子與錯字詞詞典匹配的錯字詞對應的正確詞加入到詞圖中;
2)采用模糊匹配方法對精確切分的分詞結果中的散串進行模糊匹配,得到與散串對應的相似的詞及其相似度,將得到的與散串對應的相似的詞加入到精確分詞詞圖,形成模糊分詞詞圖;
3)基于結合相似度的詞的二元模型,計算模糊分詞詞圖的最短路徑,從而得到最終的切分結果,標記切分結果中的模糊匹配節點對應的原串為發現的錯誤,以實現漢語非多字詞錯誤自動校對。
優選的,所述步驟1)包括以下步驟:
步驟11)建立正確詞詞典的雙數組Trie樹結構DicTrie;
步驟12)建立錯字詞詞典的雙數組Trie樹結構TypoDicTrie:(TypoWord,CorrectWord),其中TypoWord為錯字詞,CorrectWord為該錯字詞對應的正確詞;
步驟13)基于正確詞詞典的雙數組Trie樹結構DicTrie,采用最大匹配方法對所述中文句子進行精確切分,將切分后的詞加入到詞圖中建立精確分詞詞圖;
步驟14)基于錯字詞詞典的雙數組Trie樹結構TypoDicTrie,采用最大匹配方法對所述中文句子進行精確切分,并對句子進行標記:將句子中搜索出的錯字詞詞典中的錯字詞TypoWord標記為錯誤的詞,并標記出與其對應的正確詞CorrectWord;同時將句子中的各錯字詞TypoWord對應的正確詞CorrectWord加入到精確分詞詞圖中。
優選的,所述步驟2)包括:
遍歷通過步驟1)精確分詞后的中文句子中的字符,對各字符采用模糊匹配方法進行模糊匹配;計算模糊匹配上的字符串和與其對應的散串的相似度;判斷相似度是否不小于閾值tw,對相似度不小于閾值的模糊匹配上的字符串作為與其對應的散串的相似的詞,并將其作為模糊匹配節點加入到精確分詞詞圖中形成模糊分詞詞圖,直到句子中的字符被遍歷完;
其中所述計算模糊匹配上的字符串W2和與其對應的散串W1的相似度為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學,未經江蘇科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510361877.8/2.html,轉載請聲明來源鉆瓜專利網。





