[發明專利]一種PDF文件的對象識別處理方法及裝置有效
| 申請號: | 201910549537.6 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110363102B | 公開(公告)日: | 2022-05-17 |
| 發明(設計)人: | 羅彤;周占文;曹德亮;趙紅軍 | 申請(專利權)人: | 北京融匯金信信息技術有限公司 |
| 主分類號: | G06V30/40 | 分類號: | G06V30/40;G06V30/413;G06V30/10 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 苗曉靜 |
| 地址: | 100036 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 pdf 文件 對象 識別 處理 方法 裝置 | ||
1.一種PDF文件的對象識別處理方法,其特征在于,包括:
將便攜式文檔格式PDF文件的當前頁面轉換為圖像格式的待識別圖像,對所述待識別圖像依次進行灰度轉換處理、二值化處理和閉合處理,得到識別背景后的背景圖像;
根據水平維度和垂直維度對所述背景圖像中的目標區域分別進行識別,若識別到格線狀對象,則確定所述格線狀對象為表格;其中,所述目標區域為所述背景圖像中去除背景之后的區域,根據第二預設規則識別所述背景圖像中的圖片,并根據識別到的表格和圖片對所述背景圖像進行自動化標記,得到標記圖像;
將所述標記圖像輸入訓練好的深度學習模型中,通過所述深度學習模型基于所述標記圖像的像素對所述標記圖像進行分類,得到所述深度學習模型輸出的帶有對象識別結果的識別圖像;其中,所述對象識別結果包括背景、圖片、表格和文字;所述深度學習模型是根據多個待識別圖像和對應的識別結果預先訓練好的模型;
對所述識別圖像中頂部和底部預設區域內識別到的文字進行詞頻統計,將詞頻大于預設詞頻的文字作為頁首頁尾候選文字,將所述頁首頁尾候選文字與所述識別圖像中部區域的文字進行相似性計算,將相似性大于相似性預設值的文字作為頁首頁尾文字,并將所述頁首頁尾文字從所述識別圖像識別到的文字中進行刪除,得到更新后的識別圖像;
利用水平方向的關聯性進行短文字塊聚類,對所述更新后的識別圖像進行無格線表格檢測。
2.根據權利要求1所述的PDF文件的對象識別處理方法,其特征在于,所述根據第二預設規則識別所述背景圖像中的圖片,具體包括:
若判斷所述目標區域的若干子區域之間相連,則分別獲取若干相連的子區域中橫坐標最大、橫坐標最小、縱坐標最大和縱坐標最小的位置,根據所述橫坐標最大、橫坐標最小、縱坐標最大和縱坐標最小的位置確定包圍所述若干相連的子區域的最小區域,并確定所述最小區域對應的對象為圖片。
3.一種PDF文件的對象識別處理裝置,其特征在于,包括:
背景識別模塊,用于將便攜式文檔格式PDF文件的當前頁面轉換為圖像格式的待識別圖像,對所述待識別圖像依次進行灰度轉換處理、二值化處理和閉合處理,得到識別背景后的背景圖像;
圖像標記模塊,用于根據水平維度和垂直維度對所述背景圖像中的目標區域分別進行識別,若識別到格線狀對象,則確定所述格線狀對象為表格;其中,所述目標區域為所述背景圖像中去除背景之后的區域,根據第二預設規則識別所述背景圖像中的圖片,并根據識別到的表格和圖片對所述背景圖像進行自動化標記,得到標記圖像;
圖像識別模塊,用于將所述標記圖像輸入訓練好的深度學習模型中,通過所述深度學習模型基于所述標記圖像的像素對所述標記圖像進行分類,得到所述深度學習模型輸出的帶有對象識別結果的識別圖像;其中,所述對象識別結果包括背景、圖片、表格和文字;所述深度學習模型是根據多個待識別圖像和對應的識別結果預先訓練好的模型;
文字刪除模塊,用于對所述識別圖像中頂部和底部預設區域內識別到的文字進行詞頻統計,將詞頻大于預設詞頻的文字作為頁首頁尾候選文字,將所述頁首頁尾候選文字與所述識別圖像中部區域的文字進行相似性計算,將相似性大于相似性預設值的文字作為頁首頁尾文字,并將所述頁首頁尾文字從所述識別圖像識別到的文字中進行刪除,得到更新后的識別圖像;
檢測模塊,用于利用水平方向的關聯性進行短文字塊聚類,對所述更新后的識別圖像進行無格線表格檢測。
4.根據權利要求3所述的PDF文件的對象識別處理裝置,其特征在于,所述圖像標記模塊具體用于:
若判斷所述目標區域的若干子區域之間相連,則分別獲取若干相連的子區域中橫坐標最大、橫坐標最小、縱坐標最大和縱坐標最小的位置,根據所述橫坐標最大、橫坐標最小、縱坐標最大和縱坐標最小的位置確定包圍所述若干相連的子區域的最小區域,并確定所述最小區域對應的對象為圖片。
5.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至2任一所述的PDF文件的對象識別處理方法。
6.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該計算機程序被處理器執行時實現如權利要求1至2任一所述的PDF文件的對象識別處理方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京融匯金信信息技術有限公司,未經北京融匯金信信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910549537.6/1.html,轉載請聲明來源鉆瓜專利網。





