[發明專利]一種重疊文字的處理方法和裝置有效
| 申請號: | 201110005501.5 | 申請日: | 2011-01-06 |
| 公開(公告)號: | CN102591845A | 公開(公告)日: | 2012-07-18 |
| 發明(設計)人: | 徐劍波;董寧;黃文娟;朱興 | 申請(專利權)人: | 北大方正集團有限公司;北京方正阿帕比技術有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21 |
| 代理公司: | 北京同達信恒知識產權代理有限公司 11291 | 代理人: | 李娟 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 重疊 文字 處理 方法 裝置 | ||
技術領域
本發明涉及計算機領域,尤其涉及一種重疊文字處理方法和裝置。
背景技術
在排版中,為了達到較美觀的效果,常常會使用到重疊文字,重疊文字是將相同的文字層層堆疊,使文字變化出立體效果等豐富的視覺效果。
在數字出版行業中,在使用排版軟件排版完成后,通常需要對文章信息進行重構和標引,即從版面中提取文章的內容信息。當版面上存在重疊文字時,重疊文字會對提取的文章內容信息產生干擾,從而影響對所提取的內容的閱讀。
如圖1所示,在排版后顯示的頁面中,天氣和weather都是使用重疊文字來實現較佳的視覺效果,但是,由于按順序從版面中提取的文字內容,則出現了很多重復的文字,如圖1所示,所提取出的文字內容為:氣氣氣氣氣氣氣氣氣氣氣氣氣氣氣氣氣氣氣氣天天天天天天天天天天天天天天天天天天天天rrrrrrrrrrrrrrrrreeeeeeeeeeeeeeeeehhhhhhhhhhhhhhhhhtttttttttttttttttaaaaaaaaaaaaaaaaaeeeeeeeeeeeeeeeeeWWWWWWWWWWWWWWWWW,嚴重影響了辨識和閱讀。
發明內容
本發明實施例提供一種重疊文字的處理方法和裝置,以便于對重疊文字提取的文字進行辨識和閱讀。
一種重疊文字的處理方法,包括:
根據版面上的文字內容,獲取集合S,所述集合S中包括版面上相應文字塊的字符、字號、表征文字塊輸出順序的序號以及所述文字塊在版面中的坐標;
根據所述文字塊的字符、字號、序號以及所述文字塊在版面中的坐標,兩兩比較文字塊的前后位置關系,將集合S中的文字塊按照排版位置進行排序;
遍歷所述排序后的集合S中的文字塊,選出重疊的文字塊,并僅保留互相重疊的文字塊中的一個。
一種重疊文字的處理裝置,包括:
獲取單元,用于獲取根據版面上的文字內容,獲取集合S,所述集合S中包括版面上相應文字塊的字符、字號、表征文字塊輸出順序的序號以及所述文字塊在版面中的坐標;
排序單元,用于根據所述文字塊的字符、字號、序號以及所述文字塊在版面中的坐標,兩兩比較文字塊的前后位置關系,將集合S中的文字塊按照排版位置進行排序;
處理單元,用于遍歷所述排序后的集合S中的文字塊,選出重疊的文字塊,并僅保留互相重疊的文字塊中的一個。
本發明實施例提供一種重疊文字的處理方法和裝置,通過對所獲取的版面上的文字塊進行排序,再將重疊的文字塊刪除,僅保留重疊文字塊中的一個,從而便于對重疊文字提取的文字進行辨識和閱讀。
附圖說明
圖1為現有技術中提取文字內容示意圖;
圖2為本發明實施例提供的重疊文字的處理方法流程圖;
圖3為本發明實施例提供的對應步驟S102的文字塊排序方法流程圖之一;
圖4為本發明實施例提供的對應步驟S102的文字塊排序方法流程圖之二;
圖5為本發明實施例提供的對應步驟S102的文字塊排序方法流程圖之三;
圖6為本發明實施例提供的對應步驟S103的重疊文字塊刪除方法流程圖;
圖7為本發明實施例提供的重疊文字的處理裝置結構示意圖;
圖8為使用本發明實施例提供的處理方法處理后的文字內容示意圖;
圖9為本發明實施例中文字塊的坐標示意圖。
具體實施方式
本發明實施例提供一種重疊文字的處理方法和裝置,通過對所獲取的版面上的文字塊進行排序,再將重疊的文字塊刪除,僅保留重疊文字塊中的一個,從而便于對重疊文字提取的文字進行辨識和閱讀。
下面結合附圖具體進行說明:
如圖2所示,本發明實施例提供的重疊文字的處理方法,包括:
步驟S201、根據版面上的文字內容,獲取集合S,集合S中包括版面上相應文字塊的字符、字號、表征文字塊輸出順序的序號以及文字塊在版面中的坐標;
步驟S202、根據文字塊的字符、字號、序號以及文字塊在版面中的坐標,兩兩比較文字塊的前后位置關系,將集合S中的文字塊按照排版位置進行排序;
步驟S203、遍歷排序后的集合S中的文字塊,選出重疊的文字塊,并僅保留互相重疊的文字塊中的一個。
由于刪除了重疊文字塊,只保留了互相重疊的文字塊中的一個。所以不會由于提取出多個相同的文字塊而影響閱讀和理解,從而便于對重疊文字提取的文字進行辨識和閱讀。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北大方正集團有限公司;北京方正阿帕比技術有限公司,未經北大方正集團有限公司;北京方正阿帕比技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110005501.5/2.html,轉載請聲明來源鉆瓜專利網。





