日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]標準文本糾錯方法、裝置、電子設備和存儲介質有效

專利信息
申請號: 202110588256.9 申請日: 2021-05-28
公開(公告)號: CN113033185B 公開(公告)日: 2021-08-10
發明(設計)人: 郝文建;張明英;高艷炫;王立璽;胡晨;張浩 申請(專利權)人: 中國電子技術標準化研究院;北京賽西科技發展有限責任公司
主分類號: G06F40/232 分類號: G06F40/232;G06F40/289;G06F40/216;G06F40/242
代理公司: 北京路浩知識產權代理有限公司 11002 代理人: 張雅娜
地址: 100007 *** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 標準 文本 糾錯 方法 裝置 電子設備 存儲 介質
【權利要求書】:

1.一種標準文本糾錯方法,其特征在于,包括:

確定待糾錯標準文本及其領域;所述待糾錯標準文本是對標準文件進行光學字符識別得到的;

基于所述待糾錯標準文本的領域對應的詞典,順序確定所述待糾錯標準文本中的錯誤文本;所述錯誤文本為所述待糾錯標準文本中未在所述詞典中出現的分詞或詞序列;

基于所述待糾錯標準文本的領域對應的詞典,以及所述錯誤文本的前一分詞和后一分詞,對所述錯誤文本進行糾錯;

其中,所述詞典是基于所述領域中的樣本標準文本建立的,所述詞典中包括所述樣本標準文本中出現的分詞、包含所述分詞的詞組,以及所述詞組出現的頻率;

所述基于所述待糾錯標準文本的領域對應的詞典,以及所述錯誤文本的前一分詞和后一分詞,對所述錯誤文本進行糾錯,具體包括:

基于所述錯誤文本及其前一分詞和后一分詞,確定多個候選詞組序列;

基于各個候選詞組序列中各詞組在所述領域出現的概率,確定各個候選詞組序列在所述領域出現的概率;

基于各個候選詞組序列在所述領域出現的概率,確定所述錯誤文本的糾錯文本;

其中,當所述錯誤文本僅包括一個分詞時,所述候選詞組序列由前置詞組和后置詞組構成;否則,所述候選詞組序列由所述前置詞組、若干中間詞組以及所述后置詞組構成;

所述前置詞組中所述前一分詞在前,所述后置詞組中所述后一分詞在后,所述中間詞組的數量與所述錯誤文本中所有相鄰分詞組成的詞組數量相同,并且所述候選詞組序列中每兩個相鄰詞組的首尾分詞相同。

2.根據權利要求1所述的標準文本糾錯方法,其特征在于,任一候選詞組序列中的任一詞組在所述領域出現的概率是基于如下步驟確定的:

確定所述任一詞組在所述領域以及所有領域出現的頻率;

基于所述任一詞組在所述領域出現的頻率以及在所有領域出現的頻率之間的比值,確定所述任一詞組在所述領域出現的概率;

其中,若所述任一詞組不存在于所述詞典,則將所述詞典中包含所述任一詞組中任一分詞的所有詞組在所述領域出現的最低概率作為所述任一詞組在所述領域出現的概率。

3.根據權利要求1所述的標準文本糾錯方法,其特征在于,所述確定所述錯誤文本的糾錯文本,之后還包括:

基于所述錯誤文本的前一分詞、后一分詞,以及所述糾錯文本,將相鄰分詞組成的詞組添加到所述詞典中,或,更新相鄰分詞組成的詞組的頻率,并將所述錯誤文本中的每一分詞添加到所述詞典中。

4.根據權利要求1所述的標準文本糾錯方法,其特征在于,所述基于所述待糾錯標準文本的領域對應的詞典,順序確定所述待糾錯標準文本中的錯誤文本,具體包括:

遍歷所述待糾錯標準文本中的每個分詞,若任一分詞在所述詞典中不存在,則繼續判斷所述任一分詞的下一分詞,直至遍歷到存在于所述詞典的分詞,確定所述任一分詞至當前遍歷位置之前的分詞的文本片段為一個錯誤文本,并繼續遍歷;若任一分詞存在于所述詞典,則基于所述任一分詞的相鄰分詞,更新所述詞典,并繼續遍歷。

5.根據權利要求4所述的標準文本糾錯方法,其特征在于,所述若任一分詞存在于所述詞典,則基于所述任一分詞的相鄰分詞,更新所述詞典,具體包括:

若所述相鄰分詞存在于所述詞典中,且所述任一分詞與所述相鄰分詞構成的詞組也存在于所述詞典中,則將所述任一分詞與所述相鄰分詞構成的詞組的頻率加1;

若所述相鄰分詞存在于所述詞典中,且所述任一分詞與所述相鄰分詞構成的詞組不存在于所述詞典中,則將所述任一分詞與所述相鄰分詞構成的詞組添加到所述詞典中,并將對應頻率置1。

6.根據權利要求1至5任一項所述的標準文本糾錯方法,其特征在于,所述詞典是基于如下步驟構建的:

收集所述領域的樣本標準文件,并對所述樣本標準文件進行光學字符識別,得到樣本標準文本;

對所述樣本標準文本進行分詞;

從所述樣本標準文本的首個分詞開始,將各個分詞以及各個分詞及其后一分詞組成的詞組添加到所述詞典中,并統計各個分詞組成的詞組在所述領域以及所有領域出現的頻率。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子技術標準化研究院;北京賽西科技發展有限責任公司,未經中國電子技術標準化研究院;北京賽西科技發展有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110588256.9/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 精品国产乱码久久久久久图片| 性色av色香蕉一区二区三区| 在线观看欧美日韩国产| 91精品第一页| 国产精品欧美一区二区视频| 免费看大黄毛片全集免费| 日本一二三区电影| 美女张开腿黄网站免费| 亚洲精品日本久久一区二区三区| 精品国产一区二区在线| 亚洲欧美日韩精品suv| 亚洲三区在线| 男人的天堂一区二区| 国产91精品高清一区二区三区| 国产乱xxxxx97国语对白| 午夜情所理论片| 中文字幕一区二区三区乱码视频 | 狠狠色噜噜狠狠狠狠2021免费 | 欧美高清性xxxxhdvideos | 高清国产一区二区 | 免费看农村bbwbbw高潮| 国产91白嫩清纯初高中在线| 少妇高潮一区二区三区99小说| 91一区在线| 一区二区久久久久| 99国产精品九九视频免费看| 国产suv精品一区二区4| 91免费视频国产| 亚洲第一天堂无码专区| 精品国产一区二区三区四区vr| 91片在线观看| 国产97免费视频| 国产色婷婷精品综合在线手机播放| 欧美一区二区三区性| 久久精品视频偷拍| 国产在线一区观看| 日韩av一二三四区| 亚洲精品乱码久久久久久高潮| 国产香蕉97碰碰久久人人| 91精品第一页| 午夜激情影院| 久久精品爱爱视频| 一区二区欧美在线| 日韩av在线网址| 国产一区二区三区午夜| 亚洲精品一品区二品区三品区| 欧美片一区二区| 久久99精品久久久久国产越南 | 免费久久99精品国产婷婷六月| 久久久精品中文| 国产亚洲另类久久久精品| 欧美大成色www永久网站婷| 国产精品一区二区在线观看免费| 免费看性生活片| 国产大片一区二区三区| 一区二区三区欧美日韩| 日韩毛片一区| 91精品高清| 女女百合互慰av| 国产乱对白刺激视频在线观看| 中文字幕一区二区三区不卡| 国产精欧美一区二区三区久久| 日本一区二区三区中文字幕| 精品欧美一区二区在线观看| 久久91久久久久麻豆精品| 激情欧美日韩| 久久免费精品国产| 性精品18videosex欧美| 日本美女视频一区二区| 欧美精品在线视频观看| 91精品视频在线观看免费| 欧美一区二区三区免费电影| 日韩亚洲欧美一区二区 | 国产一区二区播放| 午夜毛片电影| а√天堂8资源中文在线| 国产精品二区一区二区aⅴ| 亚洲精品乱码久久久久久高潮| 欧美一区二粉嫩精品国产一线天| 挺进警察美妇后菊| 4399午夜理伦免费播放大全| 日韩一级视频在线|