[發(fā)明專利]一種字詞重復(fù)錯誤的自動識別方法在審
| 申請?zhí)枺?/td> | 202010576591.2 | 申請日: | 2020-06-22 |
| 公開(公告)號: | CN111709228A | 公開(公告)日: | 2020-09-25 |
| 發(fā)明(設(shè)計)人: | 王海濤;曹馨宇;劉亮亮;周長青 | 申請(專利權(quán))人: | 中國標(biāo)準化研究院 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/242;G06F40/284 |
| 代理公司: | 南京泉為知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 32408 | 代理人: | 許丹丹 |
| 地址: | 100191*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 字詞 重復(fù) 錯誤 自動識別 方法 | ||
1.一種字詞重復(fù)錯誤的自動識別方法,其特征在于該方法包括如下步驟:
對大規(guī)模訓(xùn)練語料分詞后,統(tǒng)計得到訓(xùn)練語料中包括重復(fù)字詞的二元組和三元組結(jié)構(gòu),及其出現(xiàn)的重復(fù)結(jié)合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟;
統(tǒng)計并收錄漢語詞典中的包含重復(fù)字的詞并建立漢語詞典重復(fù)字詞庫的步驟;
基于漢語詞典中的重復(fù)字詞對待查錯文本中出現(xiàn)的重復(fù)字詞進行判斷的步驟;
基于統(tǒng)計得到的重復(fù)結(jié)合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵,對待查錯文本中出現(xiàn)的重復(fù)字詞進行判斷的步驟。
2.根據(jù)權(quán)利要求1所述的字詞重復(fù)錯誤的自動識別方法,其特征在于:所述對大規(guī)模訓(xùn)練語料分詞后,統(tǒng)計得到訓(xùn)練語料中包括重復(fù)字詞的二元組和三元組結(jié)構(gòu),及其出現(xiàn)的重復(fù)結(jié)合度、左上文鄰接詞信息熵及右下文鄰接詞信息熵的步驟中,包括如下步驟:
11)掃描訓(xùn)練語料中的所有句子,得到所有包含重復(fù)字詞的二元組及三元組,并分別統(tǒng)計每一元組在訓(xùn)練語料中出現(xiàn)的頻次;其中:
對于訓(xùn)練語料中的某一句子S進行分詞得到S=W1…Wn,其中Wi為漢語詞典中的詞,1=i=n;
對于該句子S中,若存在i使得Wi=Wi+1,則分別統(tǒng)計二元組(Wi,Wi+1)對應(yīng)的字詞串gram1在訓(xùn)練語料中出現(xiàn)的頻次freq(Wi,Wi+1)、三元組(Wi-1,Wi,Wi+1)對應(yīng)的字詞串gram2在訓(xùn)練語料中出現(xiàn)的頻次freq(Wi-1,Wi,Wi+1)、以及三元組(Wi,Wi+1,Wi+2)對應(yīng)的字詞串gram3在訓(xùn)練語料中出現(xiàn)的頻次freq(Wi,Wi+1,Wi+2);
12)計算二元組(Wi,Wi+1)的重復(fù)結(jié)合度,為:
其中:
其中:freq(Wi)為詞Wi在訓(xùn)練語料中出現(xiàn)的頻次;freq(Wi+1)為詞Wi+1在訓(xùn)練語料中出現(xiàn)的頻次;N1為訓(xùn)練語料中的所有的包含重復(fù)字詞的二元組(Wi,Wi+1)在訓(xùn)練語料中出現(xiàn)的頻次之和;N為訓(xùn)練語料中的所有詞在訓(xùn)練語料中出現(xiàn)的總頻次;
13)對于三元組(Wi-1,Wi,Wi+1)及(Wi,Wi+1,Wi+2),對其中每一對Wi=Wi+1,不失一般性將Wi記為W,根據(jù)其所有的左上文語境詞Wi-1記為{C1,…,Cn},和其所有的右下文語境詞Wi+2記為{D1…Dn},分別計算左上文鄰接詞信息熵LE(WW)及右下文鄰接詞信息熵RE(WW):
其中:
其中:freq(Ci,WW)為三元組(Ci,W,W)對應(yīng)的字詞串在訓(xùn)練語料中出現(xiàn)的頻次;freq(WW,Di,)為三元組(W,W,Di)對應(yīng)的字詞串在訓(xùn)練語料中出現(xiàn)的頻次。
3.根據(jù)權(quán)利要求1或2所述的字詞重復(fù)錯誤的自動識別方法,其特征在于:所述統(tǒng)計并收錄漢語詞典中的包含重復(fù)字的詞并建立漢語詞典重復(fù)字詞庫的步驟中,包括:
21)統(tǒng)計漢語詞典中的包含重復(fù)字的詞;
22)并建立漢語詞典重復(fù)字詞庫及其索引結(jié)構(gòu)予以收錄存儲。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國標(biāo)準化研究院,未經(jīng)中國標(biāo)準化研究院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010576591.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





