[發明專利]一種研報板式識別和分割的方法、系統及裝置在審
| 申請號: | 201810906272.6 | 申請日: | 2018-08-10 |
| 公開(公告)號: | CN108960210A | 公開(公告)日: | 2018-12-07 |
| 發明(設計)人: | 趙勇 | 申請(專利權)人: | 武漢優品楚鼎科技有限公司 |
| 主分類號: | G06K9/00 | 分類號: | G06K9/00;G06K9/34 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 430000 湖北省武漢市東湖新技術開*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 板式 分欄 分割 系統及裝置 波谷位置 空白像素 直方圖 標注 圖片 預處理操作 正則表達式 內容提供 圖像處理 自動獲取 自動識別 便利性 截取 遍歷 工作量 分析 | ||
本發明公開了一種研報板式識別和分割的方法、系統及裝置。本發明通過截取PDF文件為圖片;對所述圖片進行一系列預處理操作,獲取其圖片的空白像素直方圖;遍歷所述空白像素直方圖,獲取其最低波谷位置;依據所述最低波谷位置在圖片上標注,并依據所述標注對所述圖片進行板式分割。發明基于研報板式的復雜多樣,采用圖像處理和正則表達式相結合的方法自動識別出各種板式的分欄并做分割,可以自動獲取PDF文件中的每頁中的各分欄。該發明為研報分析人員針對性的提取自己所需的分欄內容提供了便利性,大大降低了研報分析人員的工作量。
技術領域
本發明涉及一種PDF文件數字圖像處理技術領域,尤其涉及一種PDF研報板式的識別和分割的數字圖像處理技術。
背景技術
PDF(Portable Document Format,便攜式文檔格式)是一種獨立于硬件、操作系統、應用程序的電子文檔格式。由于其具有跨平臺、多媒體集成、安全等優點,PDF已成為目前使用最為廣泛的電子文檔格式之一。隨著PDF格式文檔的廣泛使用,大量有價值的數據均以PDF文檔的形式呈現出來。 因此,如何從PDF文檔中提取數據,是一個被廣泛關注和研究的問題。
研報是機構對一家公司或者一個行業的研究報告,是眾多投資者做投資決策的重要依據。而針對大量的研報,投資者需要花費大量的時間去一一研讀,包括一些不需要的研報內容。而有的投資者往往僅需要一份研報中的額部分圖文、報表等數據。無形增加了投資者的工作量。研報的文件格式一般都是PDF文件,研報的板式復雜多樣,每個券商之間的板式都不一樣,這也給研報自動識別增加了難度。研報有側欄,轉換成html后,側欄混合在正文中,無法進行提取,所以進行版式識別是非常必要的。
發明內容
本發明涉及研報自動化提取中,研報板式的自動識別以及板式的分割。這里采用圖像處理和正則表達式相結合的方法進行版式識別。其具體的技術方案內容如下:
第一方面,一種研報板式識別和分割的方法,所述方法步驟為:
步驟101,截取PDF文件為圖片,轉換模塊將PDF文件按頁分別保存為圖片一;
步驟102,預處理圖片二,預處理模塊獲取所述圖片執行預處理操作,生成預處理圖片二;
步驟103,獲取目標分欄位置,分析模塊獲取所述預處理圖片二,生成所述預處理圖片二的空白像素直方圖,分析所述空白像素直方圖中的最低波谷,獲取所述空白像素直方圖中目標分欄的位置;
步驟104,標注所述目標分欄,標注模塊根據所述空白像素直方圖中的所述目標分欄的位置,在所述圖片一中標注所述目標分欄的位置,生成標注圖片。
結合第一方面,在第一方面可能的實現方式中的第一種情況為,還包括步驟105,分割目標分欄,所述分割模塊根據所述圖片中標注的所述目標分欄的位置分割所述圖片,并保存所述分割的圖片。
結合第一方面及第一方面可能的實現方式中的第一種情況,在第一方面可能的實現方式中的第二種情況為,所述步驟102為,預處理模塊獲取所述圖片執行灰度化、閾值分割、二值化、去噪預處理操作,生成預處理圖片二。
結合第一方面可能的實現方式中的第二種情況,在第一方面可能的實現方式中的第三種情況為,所述預處理操作為依次執行灰度化-閾值分割-二值化-去噪。
結合第一方面可能的實現方式中的第三種情況,在第一方面可能的實現方式中的第四種情況為,所述閾值分割操作為otsu閾值分割操作;所述去噪操作為腐蝕膨脹去噪操作。
結合第一方面可能的實現方式中的第三種或第四種情況,在第一方面可能的實現方式中的第五種情況為,所述步驟103為,分析模塊獲取所述預處理圖片二,生成所述預處理圖片二的橫軸方向的空白像素直方圖,遍歷所述空白像素直方圖的橫軸,分析獲取所述空白像素直方圖中橫軸的最低波谷,根據所述最低波谷分析獲取所述空白像素直方圖中縱軸方向的目標分欄的位置。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢優品楚鼎科技有限公司,未經武漢優品楚鼎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810906272.6/2.html,轉載請聲明來源鉆瓜專利網。





