[發明專利]抽取關系型表格的方法和裝置在審
| 申請號: | 201210003480.8 | 申請日: | 2012-01-06 |
| 公開(公告)號: | CN103198069A | 公開(公告)日: | 2013-07-10 |
| 發明(設計)人: | 孫軍;謝宣松;姜珊珊;鄭繼川 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市柳沈律師事務所 11105 | 代理人: | 張麗新 |
| 地址: | 日本*** | 國省代碼: | 日本;JP |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 抽取 關系 表格 方法 裝置 | ||
1.一種從非結構化文檔中抽取關系型表格的方法,包括:
檢測非結構化文檔中的表格,以獲得表格;以及
確定指示表格中的對象標識符部分、屬性名部分和屬性值部分的表格布局。
2.根據權利要求1的抽取關系型表格的方法,其中所述非結構化文檔是網頁,以及通過解析網頁并選擇被用來顯示表格數據的DOM節點來得到表格。
3.根據權利要求1或2的抽取關系型表格的方法,還包括:
在確定表格布局之前,規范化所檢測的表格的內容。
4.根據權利要求3的抽取關系型表格的方法,其中規范化所檢測的表格的內容包括:
對于表格的每個表格單元格計算一段文本,此文本可以為空。
5.根據權利要求4的抽取關系型表格的方法,所述對于表格的每個表格單元格計算一段文本包括:
對于每個無文本節點但含圖像節點的單元格,基于圖像節點的特征確定一段文本。
6.根據權利要求1或2的抽取關系型表格的方法,還包括:
在確定表格布局之前,過濾表格中的內容,以去除信息含量低的數據。
7.根據權利要求6的抽取關系型表格的方法,所述過濾表格中的內容包括以下操作中的至少一種:
計算表示行的信息含量的行信息量分數,并去除行信息量分數低的行;
計算表示列的信息含量的列信息量分數,并去除列信息量分數低的列;
計算表示整個表格的信息含量的表格信息量分數,并且如果整個表格的信息量分數低于預定閾值,則丟棄該表格。
8.根據權利要求1或2的抽取關系型表格的方法,所述確定表格布局包括:
確定表征表格中候選對象標識符部分、候選屬性名部分和候選屬性值部分的布局的各種候選表格布局;
計算各種候選表格布局的一致性分數;
基于所計算的各種候選表格布局的一致性分數,確定表格布局,從而確定了表格中的對象標識符部分、屬性名部分和屬性值部分。
9.根據權利要求8的抽取關系型表格的方法,至少基于下列要素中的一個或幾個計算各種候選表格布局的一致性分數:
1)對象標識符是否唯一;
2)屬性名是否唯一;
3)各行之間的相似度分數和各列之間的相似度分數;
4)每行的各個單元格間數據的類型一致性,以及每列的各個單元格間數據的類型一致性。
10.一種從非結構化文檔抽取關系型表格的裝置,包括:
表格檢測部分,檢測非結構化文檔中的表格,以獲得表格;以及
表格布局確定部分,確定指明表格中的對象標識符部分、屬性名部分和屬性值部分的表格布局。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210003480.8/1.html,轉載請聲明來源鉆瓜專利網。





