[發明專利]一種PDF文件的信息抽取方法和裝置有效
| 申請號: | 201910560227.4 | 申請日: | 2019-06-26 |
| 公開(公告)號: | CN110334346B | 公開(公告)日: | 2020-09-29 |
| 發明(設計)人: | 鄭宇宇 | 申請(專利權)人: | 京東數字科技控股有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06K9/00 |
| 代理公司: | 中原信達知識產權代理有限責任公司 11219 | 代理人: | 李陽;趙迪 |
| 地址: | 100176 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 pdf 文件 信息 抽取 方法 裝置 | ||
1.一種PDF文件的信息抽取方法,其特征在于,包括:
從PDF文件中獲取文本對象的位置信息,將所述位置信息標記在圖像上;其中,所述文本對象包括至少一個鍵名和對應的鍵值;
采用深度學習方法,根據所述圖像的布局特征對所述圖像進行分類,以基于圖像類型確定所述鍵名和對應鍵值在所述PDF文件中的位置范圍;其中,所述圖像類型包括左右布局和上下布局;
按照所述鍵名的級別為所述鍵名之間建立關聯關系,以結合所述鍵名和對應鍵值的位置范圍,輸出不同級別的所述鍵名和對應的鍵值。
2.根據權利要求1所述的方法,其特征在于,所述將所述位置信息標記在圖像上,包括:
根據多個所述文本對象之間橫坐標的異同,以及縱坐標間隔與預設第一閾值的差值,判斷多個所述文本對象是否支持被抽象為歸屬于同一條線段的點;
若多個所述文本對象支持被抽象為歸屬于同一條線段的點,則分別獲取多個所述文本對象的橫坐標的最值和縱坐標的最值,將所述最值對應的線段顯示在至少一幅圖像上。
3.根據權利要求1所述的方法,其特征在于,對于左右布局的圖像類型,所述確定所述鍵名和對應鍵值在所述PDF文件中的位置范圍,包括:
以字符為基本單元,將所述PDF文件的原始信息拆分為至少一個元素,將縱坐標相同、橫坐標差值小于預設第二閾值的元素組合成元素集;
按照所述元素集的橫坐標對所述元素集進行排序,以確定邊界橫坐標和位于所述邊界橫坐標之間的分界橫坐標,
將位于左邊界橫坐標和所述分界橫坐標之間,且行間距大于預設第三閾值的元素集作為所述鍵名,確定所述鍵名在所述PDF文件的坐標區間;
根據相鄰兩個所述鍵名的坐標區間,確定與其中一個所述鍵名對應的鍵值在所述PDF文件的坐標區間。
4.根據權利要求1所述的方法,其特征在于,對于上下布局的圖像類型,所述確定所述鍵名和對應鍵值在所述PDF文件中的位置范圍,包括:
以字符為基本單元,將所述PDF文件的原始信息拆分為至少一個元素,將位于同一行的元素組合成元素集;
將起始橫坐標位于所述PDF文件左側,行間距大于預設第五閾值,和/或以冒號字符結尾的元素集作為所述鍵名,確定所述鍵名在所述PDF文件的坐標區間;
根據相鄰兩個所述鍵名的坐標區間,確定與其中一個所述鍵名對應的鍵值在所述PDF文件的坐標區間。
5.根據權利要求1所述的方法,其特征在于,按照所述鍵名的級別為所述鍵名之間建立關聯關系,包括:
將同級的鍵名并聯,將上下級的鍵名串聯,采用樹形結構為所述鍵名之間建立關聯關系;
所述輸出不同級別的所述鍵名和對應的鍵值,包括:
采用先序遍歷所述樹形結構的方式,順序輸出不同級別的所述鍵名和對應的鍵值。
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
提取原始PDF文件的設定參考對象的基本信息,以根據所述基本信息確定所述原始PDF文件的非正文區域;
過濾所述原始PDF文件的非正文區域,將過濾結果作為所述PDF文件。
7.根據權利要求6所述的方法,其特征在于,所述參考對象包括下列任意一項或者多項:邊框、線段、圖片和文本,所述基本信息包括下列任意一項或者多項:字體、線段粗細、高度、寬度、橫縱坐標和文本內容;所述非正文區域包括:目錄、表格和注釋;
所述根據所述基本信息確定所述原始PDF文件的非正文區域,包括:
根據所述目錄的特征確定所述目錄的提取維度,按照所述提取維度確定所述目錄的上下邊界;
獲取所述原始PDF文件的最小字體,將首字符的字體等于最小字體,且位于所述原始PDF文件底部的區域作為所述注釋的上下邊界;
確定所述表格的邊界線坐標,以及所述表格的單元格,以得到所述表格的形狀和上下邊界。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于京東數字科技控股有限公司,未經京東數字科技控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910560227.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新詞發現方法
- 下一篇:基于自然語言識別的信息處理方法、相關設備及存儲介質
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





