[發(fā)明專利]表格語義化解析系統(tǒng)技術在審
| 申請?zhí)枺?/td> | 201910587279.0 | 申請日: | 2019-06-28 |
| 公開(公告)號: | CN110321530A | 公開(公告)日: | 2019-10-11 |
| 發(fā)明(設計)人: | 徐茂龍;楊鴻健;程晨 | 申請(專利權)人: | 南京智錄信息科技有限公司 |
| 主分類號: | G06F17/21 | 分類號: | G06F17/21;G06F17/24 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京市江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 表格數(shù)據(jù) 標題信息 層次關系 方便檢索 獲取數(shù)據(jù) 解析系統(tǒng) 數(shù)據(jù)語義 語義化 文檔 分解 | ||
1.一種表格語義化解析系統(tǒng),其特征在于,包括以下步驟:
(1)利用預先完成的程序獲取頁面內(nèi)的相關信息;
(2)針對表格前的文本內(nèi)容,查找表格前附注;
(3)針對表格內(nèi)的文本,查找表格內(nèi)的表格列標題,表格行標題,表格分塊行和表格內(nèi)容并處理。
2.根據(jù)權利要求1所述的方法,其特征在于,針對表格前的文本內(nèi)容,查找表格前附注的步驟包括:
(1)找出表格前的居中(包含連續(xù)的)和居右的文本;
(2)根據(jù)上述查找結果,如果沒有居中文本則找出表格前的以冒號結尾的自然段落;
(3)針對上述查找結果,如果沒有冒號結尾的自然段落或者居中文本,那么找到離表格最近的非居中和非居右的文本段落。
3.根據(jù)權利要求1所述的方法,其特征在于,針對表格內(nèi)的文本,查找表格內(nèi)的表格列標題,表格行標題,表格分塊行和表格內(nèi)容并處理的步驟包括:
(1)根據(jù)判斷標準查找表格列標題,表格行標題,表格分塊行和表格內(nèi)容;
(2)針對同一列的列標題進行融合,得到這一列的列標題,然后將這些列標題分配給這一列的具體的數(shù)據(jù)。這里的同一列的定義是:列標題在橫向的范圍與此列有相交且這些列標題是連續(xù)的;
(3)針對表格行標題,將縱向區(qū)域有重合的單元格的列標題名稱進行融合,將融合后的行標題名稱分配給這一行的其他表格內(nèi)容;
(4)針對上述融合過程,如果表格內(nèi)存在表格分塊行,那么表格分塊行的內(nèi)容也加入到列標題或者行標題前,但是分塊行不切斷表格的列標題。分塊行之后的數(shù)據(jù)可以繼續(xù)繼承之前的行標題。
4.根據(jù)權利要求3所述的方法,其特征在于,根據(jù)判斷標準查找表格列標題,表格行標題,表格分塊行和表格內(nèi)容的判斷標準如下:
(1)表格列標題:表格每一列的具體數(shù)據(jù)名稱;
(2)表格行標題:在沒有列標題情況下,表格可能是橫向的數(shù)據(jù)結構關系,一般左側(cè)的為行標題,即行標題是這一行剩余的單元格的數(shù)據(jù)名稱;
(3)表格分塊行:表格內(nèi)一個單元格占據(jù)一行的數(shù)據(jù);
(4)表格內(nèi)容:表格內(nèi)其他正常數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京智錄信息科技有限公司,未經(jīng)南京智錄信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910587279.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于訪問源數(shù)據(jù)庫中的一組數(shù)據(jù)表格的方法和系統(tǒng)
- 一種網(wǎng)頁中展示表格數(shù)據(jù)的方法和裝置
- 一種動態(tài)生成表格的系統(tǒng)及方法
- 一種實現(xiàn)表格數(shù)據(jù)更新的方法、裝置及系統(tǒng)
- 一種表格數(shù)據(jù)處理方法及視聯(lián)網(wǎng)服務器
- 一種大數(shù)據(jù)虛擬表格快速顯示方法及系統(tǒng)
- 一種自動生成表格數(shù)據(jù)的方法及裝置
- 基于精算軟件的表格數(shù)據(jù)處理方法、裝置、設備及介質(zhì)
- 基于React的數(shù)據(jù)表格渲染方法和數(shù)據(jù)表格組件
- 表格渲染顯示方法、裝置、計算機設備和存儲介質(zhì)
- 具有用于管理記錄在其上的文本副標題數(shù)據(jù)再現(xiàn)的數(shù)據(jù)結構的記錄介質(zhì)以及記錄和再現(xiàn)的方法和設備
- 具有用于管理記錄在其上的文本副標題數(shù)據(jù)再現(xiàn)的數(shù)據(jù)結構的記錄介質(zhì)以及記錄和再現(xiàn)的方法和設備
- 數(shù)字電視數(shù)據(jù)流及其產(chǎn)生和處理方法與數(shù)字電視廣播系統(tǒng)
- 存儲包括元數(shù)據(jù)的AV數(shù)據(jù)的信息存儲介質(zhì)、從該介質(zhì)再現(xiàn)AV數(shù)據(jù)的設備以及搜索元數(shù)據(jù)的方法
- 數(shù)據(jù)處理裝置和方法、程序和存儲介質(zhì)
- 動影像編碼方法
- 確定對象標題的對象表征信息的方法與設備
- 信息對象標題的生成方法和裝置
- 一種題目分發(fā)方法及裝置
- 標題生成方法、裝置及電子設備





