[發(fā)明專利]表格語義化解析系統(tǒng)技術在審
| 申請?zhí)枺?/td> | 201910587279.0 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110321530A | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設計)人: | 徐茂龍;楊鴻健;程晨 | 申請(專利權)人: | 南京智錄信息科技有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/24 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格數(shù)據(jù) 標題信息 層次關系 方便檢索 獲取數(shù)據(jù) 解析系統(tǒng) 數(shù)據(jù)語義 語義化 文檔 分解 | ||
本發(fā)明涉及到表格數(shù)據(jù)提取的相關技術,涉及到文檔的表格相關數(shù)據(jù)語義化提取的處理方法。主要是解決表格數(shù)據(jù)的層次關系較為復雜,無法正確分解提取表格數(shù)據(jù)的問題。所要達到的技術目的是:將表格數(shù)據(jù)分為標題和數(shù)據(jù),獲取數(shù)據(jù)的全部標題信息,也就是獲取到了這個數(shù)據(jù)的具體含義,以方便檢索數(shù)據(jù)用。
技術領域
本發(fā)明涉及到文檔的表格相關數(shù)據(jù)語義化提取的處理方法。
背景技術
由于很多學術論文以及公告文件等都是用PDF或者WORD格式存儲或者直接使用網(wǎng)頁傳播。但是對于這部分文檔里的表格數(shù)據(jù),目前只有表格是無法快速處理數(shù)據(jù)的,需要提煉表格數(shù)據(jù),以方便快速檢索。
由于表格數(shù)據(jù)的層次關系較為復雜,如何將多個矩陣類型的表格提取出成一個個獨立的數(shù)據(jù)目前并沒有一個通用的方案。以及表格外部的相關數(shù)據(jù)也并沒有與表格關聯(lián)。
發(fā)明內(nèi)容
本申請針對表格內(nèi)外部數(shù)據(jù)做進一步的處理劃分的方法,以更有效率的提取表格相關數(shù)據(jù),以方便更多的應用。
首先對于表格前的文本內(nèi)容進行分析,找到表格前的附注內(nèi)容,包括以下內(nèi)容
找出表格前的居中(包含連續(xù)的)和居右的文本
如果沒有居中文本則找出表格前的以冒號結尾的自然段落
如果沒有冒號結尾的自然段落或者居中文本,那么找到離表格最近的非居中和非居右的文本段落
然后針對表格內(nèi)的數(shù)據(jù)進行分類:表格列標題,表格行標題,表格分塊行,表格內(nèi)容。
然后針對同一列的列標題進行融合,得到這一列的列標題,然后將這些列標題分配給這一列的具體的數(shù)據(jù)。
對于行標題也做相似的處理。將縱向區(qū)域有重合的單元格的列標題名稱進行融合,將融合后的行標題名稱分配給這一行的其他表格內(nèi)容。
具體實施方法
有一個表格如圖1所示
然后根據(jù)以下條件去判定:
表格前附注:表格前的居中(包含連續(xù)的)和居右的文本,表格前的以冒號結尾的自然段落,離表格最近的非居中和非居右的文本段落,優(yōu)先級逐漸降低。
表格列標題:表格每一列的具體數(shù)據(jù)名稱
表格行標題:在沒有列標題情況下,表格可能是橫向的數(shù)據(jù)結構關系,一般左側的為行標題,即行標題是這一行剩余的單元格的數(shù)據(jù)名稱
表格分塊行:表格內(nèi)一個單元格占據(jù)一行的數(shù)據(jù)
表格內(nèi)容:表格內(nèi)其他正常數(shù)據(jù)
結果如圖2所示
然后針對同一列的列標題進行融合,得到這一列的列標題,然后將這些列標題分配給這一列的具體的數(shù)據(jù),如圖3。這里的同一列的定義是:列標題在橫向的范圍與此列有相交且這些列標題是連續(xù)的。
對于行標題也做相似的處理。將縱向區(qū)域有重合的單元格的列標題名稱進行融合,將融合后的行標題名稱分配給這一行的其他表格內(nèi)容。
如果表格內(nèi)存在表格分塊行,那么表格分塊行的內(nèi)容也加入到列標題或者行標題前,
但是分塊行不切斷表格的列標題。分塊行之后的數(shù)據(jù)可以繼續(xù)繼承之前的行標題,如圖4。
附圖說明
圖1是一個正常的含有多層結構的表格,以及表格前的文字內(nèi)容。
圖2是劃分完表格前附注,表格分塊行,表格列標題,表格內(nèi)容的結果。
圖3是以某一列舉例,這一列的列標題的具體情況。
圖4是以某一行的數(shù)據(jù)距離,這一行的數(shù)據(jù)語義化后的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京智錄信息科技有限公司,未經(jīng)南京智錄信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910587279.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于訪問源數(shù)據(jù)庫中的一組數(shù)據(jù)表格的方法和系統(tǒng)
- 一種網(wǎng)頁中展示表格數(shù)據(jù)的方法和裝置
- 一種動態(tài)生成表格的系統(tǒng)及方法
- 一種實現(xiàn)表格數(shù)據(jù)更新的方法、裝置及系統(tǒng)
- 一種表格數(shù)據(jù)處理方法及視聯(lián)網(wǎng)服務器
- 一種大數(shù)據(jù)虛擬表格快速顯示方法及系統(tǒng)
- 一種自動生成表格數(shù)據(jù)的方法及裝置
- 基于精算軟件的表格數(shù)據(jù)處理方法、裝置、設備及介質(zhì)
- 基于React的數(shù)據(jù)表格渲染方法和數(shù)據(jù)表格組件
- 表格渲染顯示方法、裝置、計算機設備和存儲介質(zhì)
- 具有用于管理記錄在其上的文本副標題數(shù)據(jù)再現(xiàn)的數(shù)據(jù)結構的記錄介質(zhì)以及記錄和再現(xiàn)的方法和設備
- 具有用于管理記錄在其上的文本副標題數(shù)據(jù)再現(xiàn)的數(shù)據(jù)結構的記錄介質(zhì)以及記錄和再現(xiàn)的方法和設備
- 數(shù)字電視數(shù)據(jù)流及其產(chǎn)生和處理方法與數(shù)字電視廣播系統(tǒng)
- 存儲包括元數(shù)據(jù)的AV數(shù)據(jù)的信息存儲介質(zhì)、從該介質(zhì)再現(xiàn)AV數(shù)據(jù)的設備以及搜索元數(shù)據(jù)的方法
- 數(shù)據(jù)處理裝置和方法、程序和存儲介質(zhì)
- 動影像編碼方法
- 確定對象標題的對象表征信息的方法與設備
- 信息對象標題的生成方法和裝置
- 一種題目分發(fā)方法及裝置
- 標題生成方法、裝置及電子設備





