[發明專利]一種兼顧文本長度和相似度的文本糾錯方法及系統在審
| 申請號: | 202210015750.0 | 申請日: | 2022-01-07 |
| 公開(公告)號: | CN114386404A | 公開(公告)日: | 2022-04-22 |
| 發明(設計)人: | 劉學謙;汪玉珠;田賀鎖 | 申請(專利權)人: | 北京方寸無憂科技發展有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/216 |
| 代理公司: | 北京中政聯科專利代理事務所(普通合伙) 11489 | 代理人: | 陳超 |
| 地址: | 100080 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 兼顧 文本 長度 相似 糾錯 方法 系統 | ||
1.一種兼顧文本長度和相似度的文本糾錯方法,其特征在于,包括:
獲取待糾錯文本,并用標點符號將其分割開來,得到待糾錯文本單元;
在數據庫中搜索得到與所述待糾錯文本單元最接近的若干個長詞;
基于所述長詞的長度,選擇判定方法,得到所述待糾錯文本單元的錯誤類型,根據所述錯誤類型,對所述待糾錯文本單元進行糾錯。
2.根據權利要求1所述的方法,其特征在于,基于所述長詞的長度,選擇判定方法,得到所述待糾錯文本單元的錯誤類型,具體為:
所述長詞的長度處于預設長度區間時,選擇長度判定;
所述長度判定,具體為:
設置三個滑動窗口,所述三個滑動窗口長度為:
所述長詞的長度減一、所述長詞的長度和所述長詞的長度加一;
所述三個滑動窗口分別對應代表漏字、錯字和多字的錯誤類型;
根據所述滑動窗口長度遞增順序,依次用所述三個滑動窗口截取所述待糾錯文本單元,得到相對應長度的文本塊;
依次計算出所述文本塊和所述長詞的編輯距離,并判斷所述編輯距離是否為1,若是,則得到與所述滑動窗口對應的錯誤類型。
3.根據權利要求1所述的方法,其特征在于,基于所述長詞的長度,選擇判定方法,得到所述待糾錯文本單元的錯誤類型,具體為:
所述長詞的長度大于預設長度區間時,選擇相似度判定;
所述相似度判定,具體為:
比較所述待糾錯文本單元的長度和所述長詞的長度,獲得兩者中最長長度;
計算所述待糾錯文本單元和所述長詞的相似度,
相似度=(最長長度-編輯距離)/最長長度,
其中,編輯距離為所述待糾錯文本單元與所述長詞之間的編輯距離;
判斷所述相似度是否超出預設閾值,若是,則通過文本對比法找出所述待糾錯文本單元和所述長詞間的差異,得到漏字、錯字和多字的三種錯誤類型。
4.根據權利要求3所述的方法,其特征在于,通過文本對比法找出所述待糾錯文本單元和所述長詞間的差異,得到漏字、錯字和多字的三種錯誤類型,具體為:
以所述長詞為行,所述待糾錯文本單元為列,構建矩陣;
外層循環遍歷所述矩陣的行,內層循環遍歷矩陣的列;
所述內層循環和外層循環中判斷當前位置是否相同索引位置上的字符相同,若是,則記錄當前位置為(inow,jnow),并計算idis=inow-ibefore,jdis=jnow-jbefore;
若idis=jdis≠1,則表示此處為錯字的錯誤類型;
若idis>jdis,則表示此處為漏字的錯誤類型;
若idis<jdis,則表示此處為多字的錯誤類型;
其中,idis為所述待糾錯文本單元的差量,inow為所述待糾錯文本單元的現在值,ibefore為所述待糾錯文本單元的過去值,jdis為所述長詞的差量,jnow為所述長詞的現在值,jbefore為所述長詞的過去值。
5.根據權利要求2所述的方法,其特征在于,若前面的所述滑動窗口滿足判斷條件時,則取消后面的所述滑動窗口截取和計算動作。
6.一種兼顧文本長度和相似度的文本糾錯系統,其特征在于,包括:
獲取模塊,用于獲取待糾錯文本,并用標點符號將其分割開來,得到待糾錯文本單元;
搜索模塊,用于在數據庫中搜索得到與所述待糾錯文本單元最接近的若干個長詞;
判定糾錯模塊,用于基于所述長詞的長度,選擇判定方法,得到所述待糾錯文本單元的錯誤類型,根據所述錯誤類型,對所述待糾錯文本單元進行糾錯。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京方寸無憂科技發展有限公司,未經北京方寸無憂科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210015750.0/1.html,轉載請聲明來源鉆瓜專利網。





