日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于模糊分詞的非多字詞錯誤自動校對方法有效

專利信息
申請號: 201510361877.8 申請日: 2015-06-26
公開(公告)號: CN104991889B 公開(公告)日: 2018-02-02
發明(設計)人: 劉亮亮;吳健康 申請(專利權)人: 江蘇科技大學
主分類號: G06F17/27 分類號: G06F17/27
代理公司: 南京蘇高專利商標事務所(普通合伙)32204 代理人: 許丹丹
地址: 212003*** 國省代碼: 江蘇;32
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 模糊 分詞 多字 錯誤 自動 校對 方法
【權利要求書】:

1.一種基于模糊分詞的非多字詞錯誤自動校對方法,其特征在于通過模糊分詞的方法進行自動校對,包括以下步驟:

1)利用基于正確詞詞典和錯字詞詞典建立的雙數組Trie樹結構,采用最大匹配方法對中文句子進行精確切分,建立精確分詞詞圖,并對基于錯字詞詞典進行精確切分的結果進行標記,同時將所述中文句子與錯字詞詞典匹配的錯字詞對應的正確詞加入到詞圖中,包括以下步驟:

步驟11)建立正確詞詞典的雙數組Trie樹結構DicTrie;

步驟12)建立錯字詞詞典的雙數組Trie樹結構TypoDicTrie:(TypoWord,CorrectWord),其中TypoWord為錯字詞,CorrectWord為該錯字詞對應的正確詞;

步驟13)基于正確詞詞典的雙數組Trie樹結構DicTrie,采用最大匹配方法對所述中文句子進行精確切分,將切分后的詞加入到詞圖中建立精確分詞詞圖;

步驟14)基于錯字詞詞典的雙數組Trie樹結構TypoDicTrie,采用最大匹配方法對所述中文句子進行精確切分,并對句子進行標記:將句子中搜索出的錯字詞詞典中的錯字詞TypoWord標記為錯誤的詞,并標記出與其對應的正確詞CorrectWord;同時將句子中的各錯字詞TypoWord對應的正確詞CorrectWord加入到精確分詞詞圖中;

2)采用模糊匹配方法對精確切分的分詞結果中的散串進行模糊匹配,得到與散串對應的相似的詞及其相似度,將得到的與散串對應的相似的詞加入到精確分詞詞圖,形成模糊分詞詞圖,具體包括:

遍歷通過步驟1)精確分詞后的中文句子中的字符,對各字符采用模糊匹配方法進行模糊匹配;計算模糊匹配上的字符串和與其對應的散串的相似度;判斷相似度是否不小于閾值tw,對相似度不小于閾值的模糊匹配上的字符串作為與其對應的散串的相似的詞,并將其作為模糊匹配節點加入到精確分詞詞圖中形成模糊分詞詞圖,直到句子中的字符被遍歷完;

其中所述計算模糊匹配上的字符串W2和與其對應的散串W1的相似度為:

Sim(W1,W2)=1-editdis(W1,W2)max(m,n)---(1);]]>

其中:Sim(W1,W2)為散串W1與字符串W2的相似度;散串W1=c1c2…cn,字符串W2=d1d2…dm,n和m分別表示W1和W2中的字符數;max()表示求最大值;editdis(W1,W2)為兩個字符串的距離函數:

editdis(W1,W2)=maxeditdis(c2...cn,d1...dm)+1editdis(c1...cn,d2...dm)+1editdis(c2...cn,d2...dm)+(1-sin(c1,d1))---(2);]]>

其中:sim(c1,d1)為漢字c1與d1的相似度,通過以下公式計算:

其中:sim(ci,dj)為漢字ci與漢字dj的相似度,1≤i≤n,1≤j≤m,PSim(ci,dj)為漢字ci和漢字dj的拼音相似度,SSim(ci,dj)為漢字ci和漢字dj的形相似度,α和β分別表示拼音相似度和形相似度的權重,α+β=1;

3)基于結合相似度的詞的二元模型,計算模糊分詞詞圖的最短路徑,從而得到最終的切分結果,標記切分結果中的模糊匹配節點對應的原串為發現的錯誤,以實現漢語非多字詞錯誤自動校對,包括以下步驟:

步驟31)基于步驟1)對句子進行精確分詞和步驟2)對句子進行模糊匹配后得到的模糊分詞詞圖,得到多條路徑,結合步驟2)得到的與散串對應的相似的詞及其相似度,采用二元模型計算每種切分序列的概率:

G*=argmaxGP(G)=argmaxGp(G1)Πk=2sp(Gk|Gk-1)*γ(Gk-1,G′)---(4);]]>

其中G為詞圖中的某一條分詞路徑,Gk為路徑中的第k個詞,s是分詞路徑中詞的個數;γ(Gk-1,G′)表示對句子分詞過程中原串為與模糊匹配節點對應的散串給予的懲罰值,當當前詞是精確切分時γ(Gk-1,G′)=1,否則γ(Gk-1,G′)=sim(Gk-1,G′),即句子中模糊匹配的原串G'與匹配上的詞Gk-1的相似度,也稱為模糊匹配上的字符串Gk-1和與其對應的散串G'的相似度;

步驟32)根據步驟31)得到的模糊分詞詞圖,利用圖的Dijkstra算法求解最短路徑,從而得到最終的切分結果;

步驟33)對最短路徑中的模糊匹配節點,標記其對應的原串為含有錯別字的詞,并且模糊匹配得到的相似的詞為其對應正確的詞,從而實現了漢語非多字詞錯誤自動校對。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇科技大學,未經江蘇科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201510361877.8/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产经典一区二区| 国产午夜精品一区| 亚洲国产欧美一区二区丝袜黑人| 999国产精品999久久久久久| 亚洲高清毛片一区二区| 少妇厨房与子伦在线观看| 欧美精品在线观看视频| 中文字幕日本一区二区| 国产精品视频二区三区| 免费的午夜毛片| 久久九九国产精品| 精品免费久久久久久久苍| 精品国产91久久久| av午夜在线| 亚洲精品国产setv| 亚洲三区在线| 久久二区视频| 国产精品免费不卡| 亚洲欧美一区二区三区三高潮| 99热久久这里只精品国产www | 99视频国产在线| 国产99视频精品免费视频7| 欧美一区二区三区高清视频| 国产69久久久欧美一级| 99精品视频一区二区| 国产一区二区二| 久99精品| 欧美综合国产精品久久丁香| 狠狠色噜噜狠狠狠狠色综合久老司机| 国产91视频一区二区| 午夜影院一级| 亚洲乱在线| 91精品啪在线观看国产| 一区二区三区在线观看国产| 偷拍精品一区二区三区| 午夜精品99| 国产99小视频| 中文字幕a一二三在线| 日韩精品免费一区二区中文字幕| 亚洲欧美色一区二区三区| 四虎国产精品久久| 国产精品久久久久久久久久久杏吧| 日韩在线一区视频| 99精品免费在线视频| 日韩欧美一区精品| 国产高潮国产高潮久久久91| 91精品资源| 久久精品男人的天堂| 国产一区日韩在线| 久久九九亚洲| 91精品一区二区在线观看| 欧美日韩久久一区| 国产一区www| 国产偷亚洲偷欧美偷精品 | 欧美精品八区| 精品国产18久久久久久依依影院| 亚洲欧美国产日韩色伦| 精品久久久久久中文字幕大豆网 | 国产精品久久久久99| 伊人精品一区二区三区| 欧美一区二三区人人喊爽| 国产69久久| 亚洲欧洲国产伦综合| 久久一区二区视频| 久久免费视频一区二区| 97人人模人人爽人人喊小说 | 香蕉视频一区二区三区| 日韩av在线电影网| 99国产伦精品一区二区三区| 亚洲国产精品一区在线| 国产精品久久久久久久岛一牛影视| 国产精品二区在线| 国语对白老女人一级hd| 欧美日韩中文字幕一区二区三区| 中文乱码字幕永久永久电影 | _97夜夜澡人人爽人人| 精品国产一区二区三区高潮视 | 视频一区二区三区欧美| 狠狠色噜噜狠狠狠狠2021免费| 久久一区二区三区视频| 粉嫩久久99精品久久久久久夜| 国产白丝一区二区三区|