日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種針對豎排文本的檢測方法及裝置有效

專利信息
申請號: 202110588830.0 申請日: 2021-05-28
公開(公告)號: CN115410207B 公開(公告)日: 2023-08-29
發明(設計)人: 賈云剛;李超;王勇;趙淳璐;梁睿琪;孫捷;高一驕;孫海亮 申請(專利權)人: 國家計算機網絡與信息安全管理中心天津分中心;中國科學院信息工程研究所
主分類號: G06V30/148 分類號: G06V30/148;G06F40/289;G06F40/216
代理公司: 北京君尚知識產權代理有限公司 11200 代理人: 陳艷
地址: 300199 天*** 國省代碼: 天津;12
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 針對 豎排 文本 檢測 方法 裝置
【說明書】:

發明公開一種針對豎排文本的檢測方法及裝置,包括掃描待檢測文本,確定換行符的位置,得到一個位置列表,并基于該位置列表,計算每行文字長度;截取連續t行中每行文字長度一致的文本,保留截取文本中的有效字符,得到保留文本;對保留文本進行分詞,并根據得到第一分詞結果,獲取截取文本的初步檢測結果;若初步檢測結果判斷截取文本為豎排文本,則將截取文本轉換為二維的字符矩陣,并刪除換行符,對該字符矩陣作轉置,得到轉置文本;對轉置文本進行分詞,并根據得到第二分詞結果,獲取截取文本的檢測結果。本發明可確定豎排文字的區域,去除豎排文本中的干擾字符,并恢復成一般的橫向文本,同時處理豎排文本中普遍存在的錯別字現象。

技術領域

本發明涉及一種針對豎排文本的檢測方法及裝置,可檢測文本中是否存在豎排文字,如果存在,則恢復正常橫排文字順序,屬于自然語言處理領域。

背景技術

人們在工作生活中遇到的絕大多數文本內容都是自上而下、從左到右的橫排文字,同時也存在一些特殊場景,文字并不以常見的橫排方式排列,比如對聯、商店或機構單位的廣告牌等,在互聯網、短信等通信文本內容中,豎排排放的文字也比較常見。

豎排文字對于人來說并不難處理,人類的視覺可以極好的處理文字位置的信息,文字的順序可以很好的被恢復,豎排排放的文字并不會對人類的閱讀造成過多的困難。但對于計算機并不如此,文本數據被順序排放存儲,非順序橫排的文字難以處理,中文就變成獨立的漢字而不是詞匯,英文等其他語言則會變成獨立的字母而不是單詞,而對詞匯的識別是許多自然語言處理的基礎,文字的順序錯誤使得文本匹配和文本理解等自動化的文本處理工作無從下手。人類視覺和計算機處理文字方式的區別也有一些常見的應用,比如用于人機識別,或者被用于某些場景下的敏感內容反監測。

對于豎排文字的識別和順序恢復的研究多集中于OCR(optical?characterrecognition)文字識別領域,從圖片中自動識別出豎排文字。市場上也有多種成熟軟件可以很好的實現這個功能,比如百度文字識別、騰訊云OCR等。光學字符識別技術已經得到了廣泛應用,比如用于識別發票等紙質材料上的關鍵字樣,或者從一般圖片中識別文本信息。目前解決豎排文字識別的一種比較普遍的思路是基于旋轉的框架,對自然場景中任意方向的文字進行檢測辨認。使用深度神經網絡生成傾斜的框架,同時還帶有圖像旋轉角度的信息。之后,這些信息會適應邊界框,從而能更精確地在不同方向上確定文本區域。

但基于圖像信息的文本方向識別需要較高的計算復雜度,如果需要把文本信息先轉化為圖像再識別為文本信息也顯得過于的冗余且低效率,同時,如果豎排文字之間沒有明顯的分隔符號或其他分割標志來幫助確定文字排列方向,基于圖像信息的文本方向識別也會失效。綜上所述,基于圖像的豎排文字的監測識別計算復雜度比較高,難以用于處理文本形式的數據。

發明內容

為解決上述問題,本發明公開一種針對豎排文本的檢測方法及裝置,一方面,基于文本中的結構標志和文本的分詞結果,判斷文本中是否存在豎排文字,以及確定豎排文字的區域;另一方面,基于豎排文字的區域監測結果,恢復豎排文字的正常文本順序。該方法需要依賴的算法基礎主要包括中文自動分詞(Chinese?word?segmentation)技術,結合其他基于統計和規則的方法,實現準確度高、計算復雜度低的豎排文字監測和順序恢復功能。

為達到上述目的,本發明采用具體技術方案是:

一種針對豎排文本的檢測方法,其步驟包括:

1)掃描待檢測文本,確定換行符的位置,得到一個位置列表,并基于該位置列表,計算每行文字長度;

2)截取連續t行中每行文字長度一致的文本,保留截取文本中的有效字符,得到保留文本,其中t≥3;

3)對保留文本進行分詞,并根據得到第一分詞結果,獲取截取文本的初步檢測結果;

4)若初步檢測結果判斷截取文本為豎排文本,則將截取文本轉換為二維的字符矩陣,并刪除換行符,對該字符矩陣作轉置,得到轉置文本;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心天津分中心;中國科學院信息工程研究所,未經國家計算機網絡與信息安全管理中心天津分中心;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110588830.0/2.html,轉載請聲明來源鉆瓜專利網。

同類專利
專利分類
×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 色婷婷精品久久二区二区我来| 久久九九亚洲| 青苹果av| 国产91九色在线播放| 国内精品99| 欧美日韩国产专区| 少妇久久免费视频| 黄毛片在线观看| 欧美日韩国产三区| 日韩a一级欧美一级在线播放| 国产精品久久国产精品99| 午夜毛片在线| 国产在线一卡二卡| 亚洲国产精品一区在线观看| 真实的国产乱xxxx在线91| 国产一区在线免费| 精品一区欧美| 狠狠色噜噜狠狠狠色综合| 夜夜嗨av色一区二区不卡| 91在线一区二区| 欧美精品一卡二卡| 一区二区久久精品66国产精品| 欧美日韩一区二区三区精品| 久久国产精彩视频| 在线观看欧美日韩国产| 国产原创一区二区 | 国产午夜精品一区| 日韩av一区二区在线播放| 亚洲国产精品激情综合图片| 精品国产免费久久| 欧美久久一区二区三区| 国产一区二区伦理| 日韩午夜电影院| 久久久久一区二区三区四区| 99久久国产综合精品女不卡| 九九精品久久| av国产精品毛片一区二区小说| 理论片午午伦夜理片在线播放| 91福利视频免费观看| 国产精品久久久久久久久久久久久久久久| 国产91精品一区| 国产精品乱码久久久久久久久| 狠狠色很很在鲁视频| 国语精品一区| 久久精品视频中文字幕| 国产人成看黄久久久久久久久| 91精品一区在线观看| 国产一区在线免费观看| 一区不卡av| 国产亚洲精品久久午夜玫瑰园| 国产午夜一级片| 国产大片黄在线观看私人影院| 久久精品爱爱视频| 国产精品日韩一区二区| 国产激情视频一区二区| 国产午夜精品一区二区理论影院| xxxx国产一二三区xxxx| 精品国产乱码久久久久久影片| 亚洲精品老司机| 91精品国产综合久久婷婷香| 国产一区二区精品在线| 国产日韩欧美视频| 欧美精品免费看| 国产丝袜在线精品丝袜91| 91在线一区二区| 国产jizz18女人高潮| 夜夜躁狠狠躁日日躁2024| 午夜亚洲影院| 性色av香蕉一区二区| 国产黄一区二区毛片免下载| 91精品久久久久久综合五月天 | 夜夜躁狠狠躁日日躁2024| 国产日韩欧美自拍| 国产精品久久久久久久久久不蜜月 | 91制服诱惑| 91av精品| 一本色道久久综合亚洲精品浪潮| 香港日本韩国三级少妇在线观看| 中文字幕久久精品一区| 国产精品视频久久| 国产69精品久久久久999天美| 国产日韩精品久久|