[發明專利]一種基于模糊分詞的非多字詞錯誤自動校對方法有效
| 申請號: | 201510361877.8 | 申請日: | 2015-06-26 |
| 公開(公告)號: | CN104991889B | 公開(公告)日: | 2018-02-02 |
| 發明(設計)人: | 劉亮亮;吳健康 | 申請(專利權)人: | 江蘇科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙)32204 | 代理人: | 許丹丹 |
| 地址: | 212003*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模糊 分詞 多字 錯誤 自動 校對 方法 | ||
1.一種基于模糊分詞的非多字詞錯誤自動校對方法,其特征在于通過模糊分詞的方法進行自動校對,包括以下步驟:
1)利用基于正確詞詞典和錯字詞詞典建立的雙數組Trie樹結構,采用最大匹配方法對中文句子進行精確切分,建立精確分詞詞圖,并對基于錯字詞詞典進行精確切分的結果進行標記,同時將所述中文句子與錯字詞詞典匹配的錯字詞對應的正確詞加入到詞圖中,包括以下步驟:
步驟11)建立正確詞詞典的雙數組Trie樹結構DicTrie;
步驟12)建立錯字詞詞典的雙數組Trie樹結構TypoDicTrie:(TypoWord,CorrectWord),其中TypoWord為錯字詞,CorrectWord為該錯字詞對應的正確詞;
步驟13)基于正確詞詞典的雙數組Trie樹結構DicTrie,采用最大匹配方法對所述中文句子進行精確切分,將切分后的詞加入到詞圖中建立精確分詞詞圖;
步驟14)基于錯字詞詞典的雙數組Trie樹結構TypoDicTrie,采用最大匹配方法對所述中文句子進行精確切分,并對句子進行標記:將句子中搜索出的錯字詞詞典中的錯字詞TypoWord標記為錯誤的詞,并標記出與其對應的正確詞CorrectWord;同時將句子中的各錯字詞TypoWord對應的正確詞CorrectWord加入到精確分詞詞圖中;
2)采用模糊匹配方法對精確切分的分詞結果中的散串進行模糊匹配,得到與散串對應的相似的詞及其相似度,將得到的與散串對應的相似的詞加入到精確分詞詞圖,形成模糊分詞詞圖,具體包括:
遍歷通過步驟1)精確分詞后的中文句子中的字符,對各字符采用模糊匹配方法進行模糊匹配;計算模糊匹配上的字符串和與其對應的散串的相似度;判斷相似度是否不小于閾值tw,對相似度不小于閾值的模糊匹配上的字符串作為與其對應的散串的相似的詞,并將其作為模糊匹配節點加入到精確分詞詞圖中形成模糊分詞詞圖,直到句子中的字符被遍歷完;
其中所述計算模糊匹配上的字符串W2和與其對應的散串W1的相似度為:
其中:Sim(W1,W2)為散串W1與字符串W2的相似度;散串W1=c1c2…cn,字符串W2=d1d2…dm,n和m分別表示W1和W2中的字符數;max()表示求最大值;editdis(W1,W2)為兩個字符串的距離函數:
其中:sim(c1,d1)為漢字c1與d1的相似度,通過以下公式計算:
其中:sim(ci,dj)為漢字ci與漢字dj的相似度,1≤i≤n,1≤j≤m,PSim(ci,dj)為漢字ci和漢字dj的拼音相似度,SSim(ci,dj)為漢字ci和漢字dj的形相似度,α和β分別表示拼音相似度和形相似度的權重,α+β=1;
3)基于結合相似度的詞的二元模型,計算模糊分詞詞圖的最短路徑,從而得到最終的切分結果,標記切分結果中的模糊匹配節點對應的原串為發現的錯誤,以實現漢語非多字詞錯誤自動校對,包括以下步驟:
步驟31)基于步驟1)對句子進行精確分詞和步驟2)對句子進行模糊匹配后得到的模糊分詞詞圖,得到多條路徑,結合步驟2)得到的與散串對應的相似的詞及其相似度,采用二元模型計算每種切分序列的概率:
其中G為詞圖中的某一條分詞路徑,Gk為路徑中的第k個詞,s是分詞路徑中詞的個數;γ(Gk-1,G′)表示對句子分詞過程中原串為與模糊匹配節點對應的散串給予的懲罰值,當當前詞是精確切分時γ(Gk-1,G′)=1,否則γ(Gk-1,G′)=sim(Gk-1,G′),即句子中模糊匹配的原串G'與匹配上的詞Gk-1的相似度,也稱為模糊匹配上的字符串Gk-1和與其對應的散串G'的相似度;
步驟32)根據步驟31)得到的模糊分詞詞圖,利用圖的Dijkstra算法求解最短路徑,從而得到最終的切分結果;
步驟33)對最短路徑中的模糊匹配節點,標記其對應的原串為含有錯別字的詞,并且模糊匹配得到的相似的詞為其對應正確的詞,從而實現了漢語非多字詞錯誤自動校對。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學,未經江蘇科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510361877.8/1.html,轉載請聲明來源鉆瓜專利網。





