[發(fā)明專利]一種PDF業(yè)務(wù)文檔的信息抽取方法在審
| 申請(qǐng)?zhí)枺?/td> | 202211562314.1 | 申請(qǐng)日: | 2022-12-07 |
| 公開(公告)號(hào): | CN116311259A | 公開(公告)日: | 2023-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 李佳靜;董澤信;戴媛媛;賈網(wǎng);李小龍;李盛;孟濤 | 申請(qǐng)(專利權(quán))人: | 中國礦業(yè)大學(xué)(北京) |
| 主分類號(hào): | G06V30/14 | 分類號(hào): | G06V30/14;G06V30/146 |
| 代理公司: | 南京經(jīng)緯專利商標(biāo)代理有限公司 32200 | 代理人: | 朱楨榮 |
| 地址: | 100083 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 pdf 業(yè)務(wù) 文檔 信息 抽取 方法 | ||
1.一種PDF業(yè)務(wù)文檔的信息抽取方法,其特征在于,包括以下步驟:
步驟1、對(duì)PDF業(yè)務(wù)文檔的每個(gè)頁面進(jìn)行解析,得到當(dāng)前頁面中字符對(duì)象、線對(duì)象和矩形對(duì)象;
根據(jù)矩形對(duì)象的坐標(biāo)信息,從矩形對(duì)象中篩選出長(zhǎng)度大于兩個(gè)像素且寬度小于一個(gè)像素的矩形對(duì)象,將其認(rèn)定為線對(duì)象;
字符對(duì)象存儲(chǔ)在字符列表,線對(duì)象存儲(chǔ)在線列表;
對(duì)線列表進(jìn)行預(yù)處理和篩選操作得到表格線列表;
步驟2?、根據(jù)字符列表中字符對(duì)象、表格線列表中線對(duì)象,若能夠?yàn)橐粋€(gè)字符對(duì)象生成最小單元格,則判定該字符對(duì)象為表格字符,否則判定該字符對(duì)象為非表格字符;最小單元格是指每個(gè)字符對(duì)象周圍最近的四條線對(duì)象圍成的矩形;
步驟3、對(duì)所有的非表格字符以坐標(biāo)信息進(jìn)行拼接、分段,完成非表格區(qū)域的文本抽取,并得到每個(gè)非表格字符段的中心點(diǎn)的坐標(biāo);
步驟4、根據(jù)非表格字符段的中心點(diǎn)的坐標(biāo),對(duì)所有最小單元格所屬的表格區(qū)域進(jìn)行劃分,得到表格區(qū)域列表;
步驟5、對(duì)每個(gè)表格區(qū)域列表,首先對(duì)各表格區(qū)域列表中最小單元格內(nèi)的字符對(duì)象進(jìn)行拼接,然后對(duì)各表格區(qū)域列表的最小單元格進(jìn)行拼接,對(duì)表格區(qū)域列表完成結(jié)構(gòu)和區(qū)域文本的抽取。
2.根據(jù)權(quán)利要求1所述的一種PDF業(yè)務(wù)文檔的信息抽取方法,其特征在于,步驟1中對(duì)線列表進(jìn)行預(yù)處理和篩選操作,具體過程如下:
步驟101、根據(jù)線列表中的線對(duì)象的坐標(biāo)信息,在所有線對(duì)象中識(shí)別出水平線對(duì)象和垂直線對(duì)象;根據(jù)PDF業(yè)務(wù)文檔中表格在垂直方向上左右對(duì)齊的特性,從線對(duì)象的坐標(biāo)信息中得到當(dāng)前PDF頁面中水平方向上表格的最左點(diǎn)和最右點(diǎn);
步驟102、針對(duì)PDF業(yè)務(wù)文檔中存在的文本框線,該文本框線不是表格線,對(duì)文本框線進(jìn)行過濾;過濾的方法為:如果一條水平線對(duì)象的橫坐標(biāo)長(zhǎng)度和當(dāng)前PDF頁面中水平方向上表格的最右點(diǎn)與最左點(diǎn)的間隔相等,則認(rèn)定該條水平線對(duì)象為一條水平文本框線,將它從線列表刪除;再利用識(shí)別出的水平文本框線的坐標(biāo)判定垂直文本框邊線,并將垂直文本框邊線從線列表中刪除;此時(shí)的線列表即為表格線列表。
3.根據(jù)權(quán)利要求2所述的一種PDF業(yè)務(wù)文檔的信息抽取方法,其特征在于,利用識(shí)別出的水平文本框線的坐標(biāo)判定垂直文本框邊線的方法為:如果一條垂直線對(duì)象的縱坐標(biāo)與水平文本框線的縱坐標(biāo)相等,則認(rèn)定該條垂直線對(duì)象為垂直文本框線。
4.根據(jù)權(quán)利要求2所述的一種PDF業(yè)務(wù)文檔的信息抽取方法,其特征在于,步驟2具體如下:
步驟201、遍歷字符列表,以每一個(gè)字符對(duì)象的坐標(biāo)為基準(zhǔn),與表格線列表中的每一個(gè)線對(duì)象的坐標(biāo)作比較,分別找到距離該字符對(duì)象上下左右四個(gè)方向上最近的四條線對(duì)象,并生成最小單元格;針對(duì)缺邊表格,將缺邊表格的最左點(diǎn)和最右點(diǎn)作為表格缺失的線對(duì)象的坐標(biāo),使字符對(duì)象成功生成最小單元格;
步驟202、將成功生成的最小單元格存儲(chǔ)在以最小單元格坐標(biāo)為鍵、字符對(duì)象為值的最小單元格字典中;如果最小單元格已經(jīng)被生成過,則只將字符對(duì)象追加到該最小單元格的值內(nèi);
步驟203、如果字符對(duì)象找不到上下左右的四條線對(duì)象,即無法生成最小單元格,則認(rèn)定該字符對(duì)象為非表格字符。
5.根據(jù)權(quán)利要求4所述的一種PDF業(yè)務(wù)文檔的信息抽取方法,其特征在于,步驟3中,所述每個(gè)非表格字符段的中心點(diǎn)坐標(biāo)的計(jì)算過程如下:
步驟301、根據(jù)非表格字符的坐標(biāo)信息生成文本行列表,文本行列表的每個(gè)元素存儲(chǔ)著非表格區(qū)域一行文本的所有非表格字符;
步驟302、根據(jù)文本行列表中的每行文本的最前的兩個(gè)非表格字符的坐標(biāo)信息計(jì)算出每行文本的行中心點(diǎn)(x,y),其中,x為行中心點(diǎn)的橫坐標(biāo)值,y為行中心點(diǎn)的縱坐標(biāo)值;
步驟303、如果存在兩行文本的行中心點(diǎn)的y之差在預(yù)設(shè)的閾值范圍內(nèi),則認(rèn)定這兩行文本為同段落文本,否則這兩行文本為兩個(gè)不同的段落;
步驟304、對(duì)每段文本的所有行中心點(diǎn)求平均值作為每個(gè)非表格字符段的中心點(diǎn)的坐標(biāo)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國礦業(yè)大學(xué)(北京),未經(jīng)中國礦業(yè)大學(xué)(北京)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211562314.1/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 一種在有線智能網(wǎng)中實(shí)現(xiàn)直播業(yè)務(wù)的方法
- 業(yè)務(wù)路由方法、業(yè)務(wù)路由器、客戶端設(shè)備及業(yè)務(wù)網(wǎng)絡(luò)系統(tǒng)
- 一種移動(dòng)業(yè)務(wù)消息路由的方法、系統(tǒng)和設(shè)備
- 業(yè)務(wù)處理方法、設(shè)備和系統(tǒng)
- 業(yè)務(wù)編排方法及裝置、業(yè)務(wù)發(fā)放方法及裝置
- 業(yè)務(wù)限流方法及業(yè)務(wù)限流裝置
- 一種信息推薦方法、裝置及存儲(chǔ)介質(zhì)
- 一種基于業(yè)務(wù)事件的頁面展示方法、裝置和電子設(shè)備
- 業(yè)務(wù)編排方法及裝置、業(yè)務(wù)發(fā)放方法及裝置
- 一種安全業(yè)務(wù)的定義、開發(fā)和執(zhí)行方法及系統(tǒng)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄設(shè)備、信息再現(xiàn)方法和信息再現(xiàn)設(shè)備
- 信息記錄裝置、信息記錄方法、信息記錄介質(zhì)、信息復(fù)制裝置和信息復(fù)制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質(zhì)
- 信息記錄設(shè)備、信息重放設(shè)備、信息記錄方法、信息重放方法、以及信息記錄介質(zhì)
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息重放方法、信息記錄設(shè)備、以及信息重放設(shè)備
- 信息存儲(chǔ)介質(zhì)、信息記錄方法、信息回放方法、信息記錄設(shè)備和信息回放設(shè)備
- 信息記錄介質(zhì)、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





