[發明專利]標準文本糾錯方法、裝置、電子設備和存儲介質有效
| 申請號: | 202110588256.9 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN113033185B | 公開(公告)日: | 2021-08-10 |
| 發明(設計)人: | 郝文建;張明英;高艷炫;王立璽;胡晨;張浩 | 申請(專利權)人: | 中國電子技術標準化研究院;北京賽西科技發展有限責任公司 |
| 主分類號: | G06F40/232 | 分類號: | G06F40/232;G06F40/289;G06F40/216;G06F40/242 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 張雅娜 |
| 地址: | 100007 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標準 文本 糾錯 方法 裝置 電子設備 存儲 介質 | ||
1.一種標準文本糾錯方法,其特征在于,包括:
確定待糾錯標準文本及其領域;所述待糾錯標準文本是對標準文件進行光學字符識別得到的;
基于所述待糾錯標準文本的領域對應的詞典,順序確定所述待糾錯標準文本中的錯誤文本;所述錯誤文本為所述待糾錯標準文本中未在所述詞典中出現的分詞或詞序列;
基于所述待糾錯標準文本的領域對應的詞典,以及所述錯誤文本的前一分詞和后一分詞,對所述錯誤文本進行糾錯;
其中,所述詞典是基于所述領域中的樣本標準文本建立的,所述詞典中包括所述樣本標準文本中出現的分詞、包含所述分詞的詞組,以及所述詞組出現的頻率;
所述基于所述待糾錯標準文本的領域對應的詞典,以及所述錯誤文本的前一分詞和后一分詞,對所述錯誤文本進行糾錯,具體包括:
基于所述錯誤文本及其前一分詞和后一分詞,確定多個候選詞組序列;
基于各個候選詞組序列中各詞組在所述領域出現的概率,確定各個候選詞組序列在所述領域出現的概率;
基于各個候選詞組序列在所述領域出現的概率,確定所述錯誤文本的糾錯文本;
其中,當所述錯誤文本僅包括一個分詞時,所述候選詞組序列由前置詞組和后置詞組構成;否則,所述候選詞組序列由所述前置詞組、若干中間詞組以及所述后置詞組構成;
所述前置詞組中所述前一分詞在前,所述后置詞組中所述后一分詞在后,所述中間詞組的數量與所述錯誤文本中所有相鄰分詞組成的詞組數量相同,并且所述候選詞組序列中每兩個相鄰詞組的首尾分詞相同。
2.根據權利要求1所述的標準文本糾錯方法,其特征在于,任一候選詞組序列中的任一詞組在所述領域出現的概率是基于如下步驟確定的:
確定所述任一詞組在所述領域以及所有領域出現的頻率;
基于所述任一詞組在所述領域出現的頻率以及在所有領域出現的頻率之間的比值,確定所述任一詞組在所述領域出現的概率;
其中,若所述任一詞組不存在于所述詞典,則將所述詞典中包含所述任一詞組中任一分詞的所有詞組在所述領域出現的最低概率作為所述任一詞組在所述領域出現的概率。
3.根據權利要求1所述的標準文本糾錯方法,其特征在于,所述確定所述錯誤文本的糾錯文本,之后還包括:
基于所述錯誤文本的前一分詞、后一分詞,以及所述糾錯文本,將相鄰分詞組成的詞組添加到所述詞典中,或,更新相鄰分詞組成的詞組的頻率,并將所述錯誤文本中的每一分詞添加到所述詞典中。
4.根據權利要求1所述的標準文本糾錯方法,其特征在于,所述基于所述待糾錯標準文本的領域對應的詞典,順序確定所述待糾錯標準文本中的錯誤文本,具體包括:
遍歷所述待糾錯標準文本中的每個分詞,若任一分詞在所述詞典中不存在,則繼續判斷所述任一分詞的下一分詞,直至遍歷到存在于所述詞典的分詞,確定所述任一分詞至當前遍歷位置之前的分詞的文本片段為一個錯誤文本,并繼續遍歷;若任一分詞存在于所述詞典,則基于所述任一分詞的相鄰分詞,更新所述詞典,并繼續遍歷。
5.根據權利要求4所述的標準文本糾錯方法,其特征在于,所述若任一分詞存在于所述詞典,則基于所述任一分詞的相鄰分詞,更新所述詞典,具體包括:
若所述相鄰分詞存在于所述詞典中,且所述任一分詞與所述相鄰分詞構成的詞組也存在于所述詞典中,則將所述任一分詞與所述相鄰分詞構成的詞組的頻率加1;
若所述相鄰分詞存在于所述詞典中,且所述任一分詞與所述相鄰分詞構成的詞組不存在于所述詞典中,則將所述任一分詞與所述相鄰分詞構成的詞組添加到所述詞典中,并將對應頻率置1。
6.根據權利要求1至5任一項所述的標準文本糾錯方法,其特征在于,所述詞典是基于如下步驟構建的:
收集所述領域的樣本標準文件,并對所述樣本標準文件進行光學字符識別,得到樣本標準文本;
對所述樣本標準文本進行分詞;
從所述樣本標準文本的首個分詞開始,將各個分詞以及各個分詞及其后一分詞組成的詞組添加到所述詞典中,并統計各個分詞組成的詞組在所述領域以及所有領域出現的頻率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子技術標準化研究院;北京賽西科技發展有限責任公司,未經中國電子技術標準化研究院;北京賽西科技發展有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588256.9/1.html,轉載請聲明來源鉆瓜專利網。





