[發明專利]一種文本定位方法及裝置有效
| 申請號: | 201811527265.1 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109697414B | 公開(公告)日: | 2021-06-18 |
| 發明(設計)人: | 丁洪利;劉天悅;詹華年;鄭磊波 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/32 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 李欣;馬敬 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 定位 方法 裝置 | ||
本申請提供了一種文本定位方法及裝置,涉及計算機領域,所述方法包括:獲取待轉換文本的目標文本圖像;通過預設的文本行檢測算法,確定所述目標文本圖像包含的文本行圖像、以及所述文本行圖像對應的第一坐標信息,所述第一坐標信息為所述文本行圖像對應的目標顯示區域的坐標信息;通過預設的段落合并規則、所述文本行圖像對應的第一坐標信息,對所述文本行圖像進行合并,得到文本段圖像、以及所述文本段圖像對應的第二坐標信息。采用本申請,能夠提高文本定位的準確率。
技術領域
本申請涉及計算機技術領域,特別是涉及一種文本定位方法及裝置。
背景技術
隨著無紙化辦公的推行,用戶需要通過電子設備將圖像中的文本信息轉換為計算機字符,以便進行編輯,例如,用戶可以對紙質文本進行拍攝,得到文本的圖像,再通過電子設備將文本的圖像轉換為目標格式的電子文件。目標格式包括word(文本)、PDF(PortableDocument Format,便攜式文本格式)、ppt(PowerPoint,演示文稿)等,本發明不做限定。
電子設備基于光學字符識別技術,將文本的圖像包含的文本信息轉換為計算機字符的處理過程可以分為:文本區域檢測和版面分析與還原兩步。在文本區域檢測中,電子設備可以識別出文本的圖像包含的文字、插圖圖像、以及表格;在版面分析與還原中,電子設備可以分析文本的版面所包含的插圖圖像、文字、以及表格之間的相對位置,以使文本對應的電子文件具有相同的版面布局。
常見的文本定位方法采用連通域的方式識別文本區域,容易受到圖像噪聲、墨點、以及水印的影響,導致檢測的文本區域不準確,影響基于文本區域進行版面分析還原得到電子文件的轉換準確率。因此,常見的文本定位方法的準確率低。
發明內容
本申請實施例的目的在于提供一種文本定位方法及裝置,以提高文本定位的準確率。具體技術方案如下:
第一方面,提供了一種文本定位方法,所述方法包括:
獲取待轉換文本的目標文本圖像;
通過預設的文本行檢測算法,確定所述目標文本圖像包含的文本行圖像、以及所述文本行圖像對應的第一坐標信息,所述第一坐標信息為所述文本行圖像對應的目標顯示區域的坐標信息;
通過預設的段落合并規則、所述文本行圖像對應的第一坐標信息,對所述文本行圖像進行合并,得到文本段圖像、以及所述文本段圖像對應的第二坐標信息。
可選的,所述獲取待轉換文本的目標文本圖像包括:
獲取待轉換文本的初始文本圖像;
通過所述初始文本圖像的圖像數據,判斷所述初始文本圖像是否包含插入對象的信息;
若包含所述插入對象的信息,則確定所述初始文本圖像包含的插入對象對應的第三坐標信息、以及去除所述插入對象的目標文本圖像;
若不包含所述插入對象的信息,則將所述初始文本圖像作為目標文本圖像。
可選的,所述得到文本段圖像、以及所述文本段圖像對應的第二坐標信息之后,還包括:
若包含所述插入對象的信息,則基于所述第二坐標信息和所述第三坐標信息,將預先存儲的所述文本段圖像包含的各字符和所述插入對象進行存儲,得到結構化存儲的信息;
若不包含所述插入對象的信息,則基于所述第二坐標信息,將預先存儲的所述文本段圖像包含的各字符進行存儲,得到結構化存儲的信息。
可選的,所述通過預設的段落合并規則、所述文本行圖像對應的第一坐標信息,對所述文本行圖像進行合并,得到文本段圖像、以及所述文本段圖像對應的第二坐標信息包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司,未經北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811527265.1/2.html,轉載請聲明來源鉆瓜專利網。





