[發明專利]一種基于種子的錯別字混淆集生成方法有效
| 申請號: | 201310435002.9 | 申請日: | 2013-09-23 |
| 公開(公告)號: | CN104462054B | 公開(公告)日: | 2017-03-22 |
| 發明(設計)人: | 劉亮亮;符建輝;施恒利;王石 | 申請(專利權)人: | 鎮江諾尼基智能技術有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京知識律師事務所32207 | 代理人: | 汪旭東 |
| 地址: | 212009 江蘇省鎮江市*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 種子 錯別字 混淆 生成 方法 | ||
1.一種基于種子錯別字混淆集的生成方法,其特征在于:包括以下步驟:
步驟1)根據種子錯別字混淆集建立錯別字混淆集圖,錯別字混淆集圖是一個二元組構成Typo_CG=(Σ,E),其中Σ即為種子錯別字混淆集本身,每個元素也稱為漢字節點,簡稱節點或漢字,E是有向邊的集合,有向邊e=<Vi,Vj>表示漢字Vi指向漢字Vj的邊,即漢字Vi可能寫錯成漢字Vj,在有向邊e中,Vi稱為正字,Vj稱為Vi的錯別字;
步驟2)利用錯別字混淆集圖,算法自動發現和挖掘錯別字之間的規律,自動添加錯別字混淆集;
步驟3)錯別字混淆集中同音字錯別字的自動生成,對漢字的同音錯別字進行自動添加;
步驟4)錯別字混淆集中非同音字錯別字的自動生成,根據形相似等特征和錯別字混淆集圖,對漢字的非同音錯別字進行自動添加。
2.根據權利要求1所述的一種基于種子的錯別字混淆集的生成方法,其特征在于:所述的步驟2在錯別字混淆集圖Typo_CG中施行以下步驟:
步驟21)依次遍歷錯別字混淆集圖中的漢字節點V,直到所有的節點都被遍歷則結束;
步驟22)獲取漢字節點V及其混淆集中的漢字的字頻權重,我們利用以下方法來定義漢字節點V的字頻權重λv:
其中式n為漢字的總數,freq(V)是漢字節點V的字頻,我們通過大規模語料訓練而得;
步驟23)計算漢字節點V及其混淆集中的漢字的常見度,通過常見度來判斷漢字節點V以及其混淆集中的漢字是否是常見字和生僻字;
一個漢字節點V的常見度fv通過以下來進行計算:
λv為漢字節點V的字頻權重,Indegree(V),Outdegree(V)為漢字節點V的錯別字入度和錯別字出度;
如果fv>α,α為一閾值,α>1,α取2.97,則漢字V是常見字;
如果fv<β,β為一小閾值,0<β<1,β取0.1,則漢字V是生僻字;
步驟24)通過以下過程來對種子錯別字混淆集圖進行自動添加,添加過程如下:
(1)如果三個漢字V1,V2,V3互為雙向錯別字,并且存在邊<V1,V>、<V2、V>,則在錯別字圖中添加漢字V3指向漢字V的邊<V3,V>,
(2)如果漢字V是一個常見字,即fv>α,而漢字Vi為一生僻字,即fv<β,并且錯別字圖中存在邊<V,Vi>,則從錯別字混淆集圖Typo_CG中刪除該邊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鎮江諾尼基智能技術有限公司,未經鎮江諾尼基智能技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310435002.9/1.html,轉載請聲明來源鉆瓜專利網。





