[發(fā)明專利]一種基于種子的錯(cuò)別字混淆集生成方法有效
| 申請?zhí)枺?/td> | 201310435002.9 | 申請日: | 2013-09-23 |
| 公開(公告)號: | CN104462054B | 公開(公告)日: | 2017-03-22 |
| 發(fā)明(設(shè)計(jì))人: | 劉亮亮;符建輝;施恒利;王石 | 申請(專利權(quán))人: | 鎮(zhèn)江諾尼基智能技術(shù)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 南京知識律師事務(wù)所32207 | 代理人: | 汪旭東 |
| 地址: | 212009 江蘇省鎮(zhèn)江市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 種子 錯(cuò)別字 混淆 生成 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)領(lǐng)域中的自然語言處理,特別是利用基于種子和錯(cuò)別字圖的方法來自動建立錯(cuò)別字混淆集,有效的降低人工量,生成的錯(cuò)別字混淆集有效的應(yīng)用于漢語文本自動校對系統(tǒng)中。
背景技術(shù)
隨著信息處理技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展,傳統(tǒng)的文本工作幾乎全部被計(jì)算機(jī)所取代,電子書、電子報(bào)紙、電子郵件、辦公文件等電子文本、博客、微博等都成為人們?nèi)粘I畹囊徊糠?,然而文本錯(cuò)別字也越來越多,這給校對工作帶來了很大的挑戰(zhàn)。傳統(tǒng)的人工校對效率低、強(qiáng)度大、周期長顯然不能滿足文本校對的需求。因此,需要研究文本自動校對技術(shù),而漢語文本自動校對中錯(cuò)別字混淆集是一種非常重要的資源,它的合理性和完備性是文本自動校對技術(shù)的有效性的一個(gè)重要因素。
由于漢語計(jì)算機(jī)文本是通過音碼輸入法(如搜狗拼音輸入法)和形碼輸入法(比如五筆輸入法),因此音相似和形相似是漢字錯(cuò)別字的主要特征,如果錯(cuò)別字混淆集如果只是通過音相似算法或形相似算法生成,會生成出很多非常不合理的混淆集,會導(dǎo)致自動校對系統(tǒng)非常高的誤報(bào)率。如果完全通過人工去過濾,由于人工的主觀性,也會得到一些不合理的混淆集及漏掉合理的混淆集,并且工作量非常巨大。因此本案中研究一種方法,根據(jù)種子錯(cuò)別字混淆集自動發(fā)現(xiàn)錯(cuò)別字的規(guī)律,通過算法來自動添加和驗(yàn)證。
在本方法中,需要解決以下問題:
(1)根據(jù)錯(cuò)別字種子,建立種子錯(cuò)別字混淆集圖。錯(cuò)別字混淆集圖能有效的反映錯(cuò)別字混淆集中的關(guān)系。
(2)通過對錯(cuò)別字圖的分析,定義一些統(tǒng)計(jì)量來刻畫錯(cuò)別字,利用這些定義的統(tǒng)計(jì)量和規(guī)則來對錯(cuò)別字關(guān)系進(jìn)行自動添加;
(3)對自動添加的錯(cuò)別字進(jìn)行驗(yàn)證,如果通過驗(yàn)證,則加入到錯(cuò)別字混淆集中,如果沒有通過驗(yàn)證刪除添加的關(guān)系。從而生成合理的錯(cuò)別字混淆集。
針對上述三個(gè)問題,本發(fā)明提出并且實(shí)現(xiàn)了一種基于種子的錯(cuò)別字混淆集的生成方法。
發(fā)明內(nèi)容
所要解決的技術(shù)問題:針對以上問題本發(fā)明提供一種可以有效對錯(cuò)別字種子混淆集進(jìn)行自動添加和驗(yàn)證的一種基于種子的錯(cuò)別字混淆集生成方法。
本發(fā)明根據(jù)錯(cuò)別字種子,建立種子錯(cuò)別字混淆集圖,并且根據(jù)錯(cuò)別字混淆集圖,定義錯(cuò)別字混淆集圖的統(tǒng)計(jì)量。
本發(fā)明通過種子錯(cuò)別字混淆集圖和統(tǒng)計(jì)量,利用自動化過程自動添加錯(cuò)別字混淆集。
本發(fā)明對已添加的錯(cuò)別字混淆集進(jìn)行自動驗(yàn)證。
技術(shù)方案:為了解決以上問題本發(fā)明提供了一種基于種子錯(cuò)別字混淆集的生成方法,其特征在于:包括以下步驟:
步驟1)根據(jù)種子錯(cuò)別字混淆集建立錯(cuò)別字混淆集圖,錯(cuò)別字混淆集圖是一個(gè)二元組構(gòu)成Typo_CG=(Σ,E),其中Σ即為種子錯(cuò)別字混淆集本身,每個(gè)元素也稱為漢字節(jié)點(diǎn),簡稱節(jié)點(diǎn)或漢字,E是有向邊的集合,有向邊e=<Vi,Vj>表示漢字Vi指向漢字Vj的邊,即漢字Vi可能寫錯(cuò)成漢字Vj,在有向邊e中,Vi稱為正字,Vj稱為Vi的錯(cuò)別字;
步驟2)利用錯(cuò)別字混淆集圖,算法自動發(fā)現(xiàn)和挖掘錯(cuò)別字之間的規(guī)律,自動添加錯(cuò)別字混淆集;
步驟3)錯(cuò)別字混淆集中同音字錯(cuò)別字的自動生成,對漢字的同音錯(cuò)別字進(jìn)行自動添加;
步驟4)錯(cuò)別字混淆集中非同音字錯(cuò)別字的自動生成,根據(jù)形相似等特征和錯(cuò)別字混淆集圖,對漢字的非同音錯(cuò)別字進(jìn)行自動添加。
所述的步驟2在錯(cuò)別字混淆集圖Typo_CG中施行以下步驟:
步驟21)依次遍歷錯(cuò)別字混淆集圖中的漢字節(jié)點(diǎn)V,直到所有的節(jié)點(diǎn)都被遍歷則結(jié)束;
步驟22)獲取漢字節(jié)點(diǎn)V及其混淆集中的漢字的字頻權(quán)重,我們利用以下方法來定義漢字節(jié)點(diǎn)V的字頻權(quán)重λv:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于鎮(zhèn)江諾尼基智能技術(shù)有限公司,未經(jīng)鎮(zhèn)江諾尼基智能技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310435002.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種錯(cuò)別字符處理方法和系統(tǒng)
- 一種基于種子的錯(cuò)別字混淆集生成方法
- 一種文本錯(cuò)別字自動更正方法和服務(wù)器
- 錯(cuò)別字修改方法、終端以及計(jì)算機(jī)可讀存儲介質(zhì)
- 錯(cuò)別字修正方法、裝置、電子設(shè)備及存儲介質(zhì)
- 錯(cuò)別字的監(jiān)測方法、裝置、電子設(shè)備和計(jì)算機(jī)可讀介質(zhì)
- 錯(cuò)別字處理方法和裝置
- 一種錯(cuò)別字的生成方法及終端
- 中文文本糾錯(cuò)方法、系統(tǒng)及介質(zhì)
- 檢索名稱的錯(cuò)別字糾正方法、裝置、電子設(shè)備和存儲介質(zhì)





