[發(fā)明專利]一種高準(zhǔn)確性的中文拼寫檢查方法、系統(tǒng)及介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202210573678.3 | 申請(qǐng)日: | 2022-05-25 |
| 公開(公告)號(hào): | CN115169328A | 公開(公告)日: | 2022-10-11 |
| 發(fā)明(設(shè)計(jì))人: | 王重陽(yáng) | 申請(qǐng)(專利權(quán))人: | 蘇州摩多多信息科技有限公司 |
| 主分類號(hào): | G06F40/216 | 分類號(hào): | G06F40/216;G06F40/232;G06F40/289 |
| 代理公司: | 蘇州思睿晶華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 32403 | 代理人: | 吳碧駿 |
| 地址: | 215021 江蘇省蘇州市工業(yè)*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 準(zhǔn)確性 中文 拼寫 檢查 方法 系統(tǒng) 介質(zhì) | ||
1.一種高準(zhǔn)確性的中文拼寫檢查方法,其特征在于,包括以下步驟:
語(yǔ)料獲取步驟:
篩選目的網(wǎng)站,從所述目的網(wǎng)站中進(jìn)行數(shù)據(jù)爬取,得到第一語(yǔ)料;配置第一開源項(xiàng)目;設(shè)置清洗特征數(shù)據(jù)、符號(hào)保留切割邏輯、切割標(biāo)志符和長(zhǎng)度區(qū)間;基于所述第一開源項(xiàng)目、所述清洗特征數(shù)據(jù)、所述符號(hào)保留切割邏輯、所述切割標(biāo)志符和所述長(zhǎng)度區(qū)間對(duì)所述第一語(yǔ)料執(zhí)行語(yǔ)料清洗操作,得到待使用語(yǔ)料;
替換表配置步驟:
設(shè)置第一詞頻值、第二詞頻值和第一字頻值;配置前后鼻音消歧邏輯、復(fù)合詞切詞邏輯、第二開源項(xiàng)目、第一簡(jiǎn)繁詞表和若干第一近音樣本詞;基于所述待使用語(yǔ)料、所述第一詞頻值、所述第二詞頻值和所述第一字頻值執(zhí)行替換字詞表生成操作,得到待替換字詞表;基于所述前后鼻音消歧邏輯、所述復(fù)合詞切詞邏輯、所述第二開源項(xiàng)目和若干所述第一近音樣本詞執(zhí)行近音近形表生成操作,得到近音近形表;設(shè)置所述第一簡(jiǎn)繁詞表為中文繁體詞表,整合所述待替換字詞表、所述近音近形表和所述中文繁體詞表,得待使用替換表;
錯(cuò)誤樣本生成步驟:
設(shè)置近音錯(cuò)誤概率和近形錯(cuò)誤概率;基于所述近音錯(cuò)誤概率和所述近形錯(cuò)誤概率在所述待使用語(yǔ)料中篩選待近音處理語(yǔ)料和待近形處理語(yǔ)料;配置隨機(jī)位置召回算法、概率限制召回算法、多錯(cuò)誤召回算法和樣本隨機(jī)選取算法;基于所述待使用替換表、所述待近音處理語(yǔ)料、所述隨機(jī)位置召回算法、所述概率限制召回算法、所述多錯(cuò)誤召回算法和所述樣本隨機(jī)選取算法執(zhí)行近音錯(cuò)誤樣本生成操作,生成待使用近音錯(cuò)誤樣本;基于所述待近形處理語(yǔ)料采用所述近音錯(cuò)誤樣本生成操作的操作邏輯,生成待使用近形錯(cuò)誤樣本;
模型配置步驟:
配置第一決策模型和第一開源包;基于所述待使用語(yǔ)料和所述第一開源包對(duì)所述第一決策模型進(jìn)行訓(xùn)練,得到待使用決策模型;配置第一檢查模型,在所述第一檢查模型的模型架構(gòu)中設(shè)置檢錯(cuò)網(wǎng)絡(luò),得到第二檢查模型;基于所述待使用近音錯(cuò)誤樣本和所述待使用近形錯(cuò)誤樣本對(duì)所述第二檢查模型進(jìn)行訓(xùn)練,得到待使用檢查模型;配置后處理預(yù)測(cè)模型;
文本檢查步驟:
獲取待檢查文本;設(shè)置概率閾值、錯(cuò)誤篩選特征和錯(cuò)誤長(zhǎng)度特征值;基于所述待使用替換表、所述待使用決策模型、所述待使用檢查模型、所述后處理預(yù)測(cè)模型、所述概率閾值、所述錯(cuò)誤篩選特征和所述錯(cuò)誤長(zhǎng)度特征值對(duì)所述待檢查文本執(zhí)行文本檢查糾錯(cuò)操作。
2.根據(jù)權(quán)利要求1所述的一種高準(zhǔn)確性的中文拼寫檢查方法,其特征在于:
所述語(yǔ)料清洗操作包括:
基于正則表達(dá)式和所述清洗特征數(shù)據(jù)對(duì)所述第一語(yǔ)料進(jìn)行語(yǔ)料清洗,得到第二語(yǔ)料;基于所述符號(hào)保留切割邏輯和所述切割標(biāo)志符對(duì)所述第二語(yǔ)料進(jìn)行切割處理,得到第三語(yǔ)料;將所述第三語(yǔ)料中語(yǔ)料長(zhǎng)度位于所述長(zhǎng)度區(qū)間外的語(yǔ)料過(guò)濾,得到第四語(yǔ)料;基于所述第一開源項(xiàng)目對(duì)所述第四語(yǔ)料進(jìn)行切詞處理,得到所述待使用語(yǔ)料。
3.根據(jù)權(quán)利要求1所述的一種高準(zhǔn)確性的中文拼寫檢查方法,其特征在于:
所述替換字詞表生成操作包括:
對(duì)所述待使用語(yǔ)料進(jìn)行字頻統(tǒng)計(jì)和詞頻統(tǒng)計(jì),得到字頻排行序列和詞頻排行序列;在所述詞頻排行序列中,按照第一方向選取對(duì)應(yīng)所述第一詞頻值數(shù)量的第一詞語(yǔ)料,按照第二方向選取對(duì)應(yīng)所述第二詞頻值數(shù)量的第二詞語(yǔ)料;在所述字頻排行序列中,按照所述第一方向選取對(duì)應(yīng)所述第一字頻值數(shù)量的第一字語(yǔ)料;基于所述第一詞語(yǔ)料、所述第二詞語(yǔ)料和所述第一字語(yǔ)料構(gòu)建所述待替換字詞表。
4.根據(jù)權(quán)利要求1所述的一種高準(zhǔn)確性的中文拼寫檢查方法,其特征在于:
所述近音近形表生成操作包括:
創(chuàng)建與若干所述第一近音樣本詞分別匹配的若干拼音映射,整理若干所述第一近音樣本詞與若干所述拼音映射,得到第一近音詞表;基于所述復(fù)合詞切詞邏輯對(duì)所述第一近音詞表中的若干所述第一近音樣本詞進(jìn)行切詞處理,得到若干第二近音樣本詞;基于若干所述第二近音樣本詞更新若干所述拼音映射,得到第二近音詞表;基于所述前后鼻音消歧邏輯對(duì)所述第二近音詞表中的若干所述第二近音樣本詞所分別對(duì)應(yīng)的若干所述拼音映射進(jìn)行消歧處理,得到待使用近音詞表;基于所述第二開源項(xiàng)目獲取待使用近形詞表;整合所述待使用近音詞表和所述待使用近形詞表,得到所述近音近形表。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州摩多多信息科技有限公司,未經(jīng)蘇州摩多多信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210573678.3/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。





