[發明專利]一種針對豎排文本的檢測方法及裝置有效
| 申請號: | 202110588830.0 | 申請日: | 2021-05-28 |
| 公開(公告)號: | CN115410207B | 公開(公告)日: | 2023-08-29 |
| 發明(設計)人: | 賈云剛;李超;王勇;趙淳璐;梁睿琪;孫捷;高一驕;孫海亮 | 申請(專利權)人: | 國家計算機網絡與信息安全管理中心天津分中心;中國科學院信息工程研究所 |
| 主分類號: | G06V30/148 | 分類號: | G06V30/148;G06F40/289;G06F40/216 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 陳艷 |
| 地址: | 300199 天*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 針對 豎排 文本 檢測 方法 裝置 | ||
本發明公開一種針對豎排文本的檢測方法及裝置,包括掃描待檢測文本,確定換行符的位置,得到一個位置列表,并基于該位置列表,計算每行文字長度;截取連續t行中每行文字長度一致的文本,保留截取文本中的有效字符,得到保留文本;對保留文本進行分詞,并根據得到第一分詞結果,獲取截取文本的初步檢測結果;若初步檢測結果判斷截取文本為豎排文本,則將截取文本轉換為二維的字符矩陣,并刪除換行符,對該字符矩陣作轉置,得到轉置文本;對轉置文本進行分詞,并根據得到第二分詞結果,獲取截取文本的檢測結果。本發明可確定豎排文字的區域,去除豎排文本中的干擾字符,并恢復成一般的橫向文本,同時處理豎排文本中普遍存在的錯別字現象。
技術領域
本發明涉及一種針對豎排文本的檢測方法及裝置,可檢測文本中是否存在豎排文字,如果存在,則恢復正常橫排文字順序,屬于自然語言處理領域。
背景技術
人們在工作生活中遇到的絕大多數文本內容都是自上而下、從左到右的橫排文字,同時也存在一些特殊場景,文字并不以常見的橫排方式排列,比如對聯、商店或機構單位的廣告牌等,在互聯網、短信等通信文本內容中,豎排排放的文字也比較常見。
豎排文字對于人來說并不難處理,人類的視覺可以極好的處理文字位置的信息,文字的順序可以很好的被恢復,豎排排放的文字并不會對人類的閱讀造成過多的困難。但對于計算機并不如此,文本數據被順序排放存儲,非順序橫排的文字難以處理,中文就變成獨立的漢字而不是詞匯,英文等其他語言則會變成獨立的字母而不是單詞,而對詞匯的識別是許多自然語言處理的基礎,文字的順序錯誤使得文本匹配和文本理解等自動化的文本處理工作無從下手。人類視覺和計算機處理文字方式的區別也有一些常見的應用,比如用于人機識別,或者被用于某些場景下的敏感內容反監測。
對于豎排文字的識別和順序恢復的研究多集中于OCR(optical?characterrecognition)文字識別領域,從圖片中自動識別出豎排文字。市場上也有多種成熟軟件可以很好的實現這個功能,比如百度文字識別、騰訊云OCR等。光學字符識別技術已經得到了廣泛應用,比如用于識別發票等紙質材料上的關鍵字樣,或者從一般圖片中識別文本信息。目前解決豎排文字識別的一種比較普遍的思路是基于旋轉的框架,對自然場景中任意方向的文字進行檢測辨認。使用深度神經網絡生成傾斜的框架,同時還帶有圖像旋轉角度的信息。之后,這些信息會適應邊界框,從而能更精確地在不同方向上確定文本區域。
但基于圖像信息的文本方向識別需要較高的計算復雜度,如果需要把文本信息先轉化為圖像再識別為文本信息也顯得過于的冗余且低效率,同時,如果豎排文字之間沒有明顯的分隔符號或其他分割標志來幫助確定文字排列方向,基于圖像信息的文本方向識別也會失效。綜上所述,基于圖像的豎排文字的監測識別計算復雜度比較高,難以用于處理文本形式的數據。
發明內容
為解決上述問題,本發明公開一種針對豎排文本的檢測方法及裝置,一方面,基于文本中的結構標志和文本的分詞結果,判斷文本中是否存在豎排文字,以及確定豎排文字的區域;另一方面,基于豎排文字的區域監測結果,恢復豎排文字的正常文本順序。該方法需要依賴的算法基礎主要包括中文自動分詞(Chinese?word?segmentation)技術,結合其他基于統計和規則的方法,實現準確度高、計算復雜度低的豎排文字監測和順序恢復功能。
為達到上述目的,本發明采用具體技術方案是:
一種針對豎排文本的檢測方法,其步驟包括:
1)掃描待檢測文本,確定換行符的位置,得到一個位置列表,并基于該位置列表,計算每行文字長度;
2)截取連續t行中每行文字長度一致的文本,保留截取文本中的有效字符,得到保留文本,其中t≥3;
3)對保留文本進行分詞,并根據得到第一分詞結果,獲取截取文本的初步檢測結果;
4)若初步檢測結果判斷截取文本為豎排文本,則將截取文本轉換為二維的字符矩陣,并刪除換行符,對該字符矩陣作轉置,得到轉置文本;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家計算機網絡與信息安全管理中心天津分中心;中國科學院信息工程研究所,未經國家計算機網絡與信息安全管理中心天津分中心;中國科學院信息工程研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110588830.0/2.html,轉載請聲明來源鉆瓜專利網。





