日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]抽取關系型表格的方法和裝置在審

專利信息
申請號: 201210003480.8 申請日: 2012-01-06
公開(公告)號: CN103198069A 公開(公告)日: 2013-07-10
發明(設計)人: 孫軍;謝宣松;姜珊珊;鄭繼川 申請(專利權)人: 株式會社理光
主分類號: G06F17/30 分類號: G06F17/30
代理公司: 北京市柳沈律師事務所 11105 代理人: 張麗新
地址: 日本*** 國省代碼: 日本;JP
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 抽取 關系 表格 方法 裝置
【說明書】:

技術領域

發明總體地涉及信息處理和信息抽取領域,更具體地涉及從非結構化文檔中抽取關系型表格的方法和裝置。

背景技術

目前,存在大量的電子文檔,例如,互聯網上的各種描述產品的文章等。對各種文檔進行信息處理、分析、統計等,正成為業界研究和開發的熱點。

文檔可以分為結構化文檔和非結構化的文檔。

結構化文檔一般是按照某種預定義的文檔對象模型構造的文檔,其已經給文檔定義了框架,使得各部分的作用一目了然,例如通過一些數據庫定義語言或面向對象的編程語言等構建的文檔可以稱為結構化文檔。

在本文中,將除了結構化文檔外的各種文檔統稱為非結構化文檔。非結構化文檔可以分為半結構化文檔和無結構文檔。網頁等諸如HTML或XML格式的文檔常被人稱為半結構化文檔或半結構化數據,從其中的一些標簽語言即可以知道所描述對象的屬性和值。無結構文檔類似于自然語言形式,例如我們常見的后綴為txt的純文本文檔即為一種典型的無結構文檔。此外,word格式和pdf格式的文檔中也不存在便于理解文章所描述的主體和具體屬性的信息,因此也可視為無結構文檔。

在非結構化文檔存在海量表格,其中的關系型表格通常含有豐富的有用信息。所謂關系型表格是就其對現實世界中的事物間關系的模型而命名,一般是二維表格,其中含有多個對象,每個對象具有諸多屬性和對應的屬性值。圖1示出了Web網頁中的一個關系型表格的例子。

互聯網中有很多含關系型數據的網頁,比如說產品參數對比表格網頁。以網頁為例,自動從網頁中抽取關系型表格信息可以用來更好地構建此類網頁的索引,有助于搜索。所抽取的海量關系型表格可以用于科研、工程、統計、策略制定、市場調研等,用以提供量化數據。

已經存在一些從非結構化文檔中檢測表格的技術。

在文獻1,A?Machine?Learning?B?ased?Approach?for?Table?Detection?on?The?Web,Proceedings?of?the?Eleventh?International?World?Wide?Web?Conference(WWW2002)中,描述了一種基于監督的機器學習方法,在訓練數據之后,來把每個給定的表格分類成真實的表格或者非真實的表格。

在文獻2,Uncovering?the?Relational?Web,Proceedings?of?the?11th?International?Workshop?on?Web?and?Databases(WebDB?2008)中,描述了從大的網頁庫中過濾關系表的簡單的方法,其假設每個數據元組是表格中的行,還試圖恢復列的標簽信息和類型信息。

在文獻3,US7590647(B2)-Method?for?extracting,interpreting?and?standardizing?tabular?data?from?unstructured?documents中,描述了一個系統,方法,計算機程序,能夠自動地從非結構化文檔中識別,解析,和解釋表格數據。該技術對于表格解釋,使用標準模板,包含一個標準化數據域的集合;其次,該技術假設每個數據元組是表格中的行。

發明內容

鑒于現有技術中的上述問題,提出了本發明。

根據本發明的一個方面,提供了一種從非結構化文檔中抽取關系型表格的方法,可以包括:檢測非結構化文檔中的表格,以獲得表格;以及確定指示表格中的對象標識符部分、屬性名部分和屬性值部分的表格布局。

所述非結構化文檔可以是網頁,以及可以通過解析網頁并選擇被用來顯示表格數據的DOM節點來得到表格。

抽取關系型表格的方法還可以包括在確定表格布局之前,規范化所檢測的表格的內容。

規范化所檢測的表格的內容可以包括:對于表格的每個表格單元格計算一段文本,此文本可以為空。

對于表格的每個表格單元格計算一段文本可以包括:對于每個無文本節點但含圖像節點的單元格,基于圖像節點的特征確定一段文本。

該抽取關系型表格的方法還可以包括:在確定表格布局之前,過濾表格中的內容,以去除信息含量低的數據。

過濾表格中的內容可以包括以下操作中的至少一種:計算表示行的信息含量的行信息量分數,并去除行信息量分數低的行;計算表示列的信息含量的列信息量分數,并去除列信息量分數低的列;計算表示整個表格的信息含量的表格信息量分數,并且如果整個表格的信息量分數低于預定閾值,則丟棄該表格。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/201210003480.8/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖、流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 国产精品1区2区| 性色av色香蕉一区二区| 国产一区2| 68精品国产免费久久久久久婷婷| 欧美在线观看视频一区二区| 精品国产伦一区二区三区| 中文字幕欧美日韩一区 | 91麻豆精品一区二区三区| 午夜看片网址| 大bbw大bbw巨大bbw看看| 国产一区二区午夜| 综合久久国产九一剧情麻豆| 岛国黄色网址| 日韩精品一区二区久久| 国产jizz18女人高潮| 国产在线精品一区二区在线播放| 久久免费视频一区| 国产偷国产偷亚洲清高| 一区二区欧美视频| 97久久国产亚洲精品超碰热 | 亚洲欧美一区二区三区1000| 亚洲精品久久久久中文第一暮| 狠狠色狠狠色88综合日日91| 国产欧美日韩精品一区二区图片| 亚洲精品久久久久中文第一暮| 国产精品不卡一区二区三区| 神马久久av| 香蕉视频一区二区三区| 久久久久国产精品www| 日本精品三区| 亚洲精品日韩激情欧美| 国产美女视频一区二区三区| 日韩欧美精品一区二区| 久久精品国产亚洲一区二区| 91区国产| 片毛片免费看| 91国内精品白嫩初高生| 免费视频拗女稀缺一区二区| 日本护士hd高潮护士| 国产69精品久久99不卡解锁版| 国产精品久久久久久久久久久新郎| 狠狠色狠狠色综合久久第一次| 午夜性电影| 国产精品国产三级国产播12软件 | 午夜666| 一级女性全黄久久生活片免费| 伊人av综合网| 97午夜视频| 国产一区二区三区在线电影| 国产精品久久久久久久新郎| 亚洲精品一区二区三区98年| 精品国产一区二| 狠狠躁狠狠躁视频专区| 国产69精品久久777的优势| 91嫩草入口| 婷婷午夜影院| 国产精品国产三级国产专区53| 久久久精品久久日韩一区综合| 国产一区二区三区小说| 欧美一区二区性放荡片| 亚洲欧美视频一区二区| 亚洲国产欧美一区| 97久久精品人人做人人爽 | 99精品少妇| 欧美日韩国产精品一区二区三区| 亚洲精品老司机| 热99re久久免费视精品频软件| 公乱妇hd在线播放bd| 欧美日韩一区视频| 午夜伦理在线观看| 爽妇色啪网| 欧美一区二区三区不卡视频 | 精品欧美一区二区精品久久小说| 高清人人天天夜夜曰狠狠狠狠| 国产欧美一区二区三区在线| 亚洲精品色婷婷| 美女直播一区二区三区| 国产高潮国产高潮久久久91| freexxxxxxx| 亚洲欧美日韩一级| 日韩一区二区福利视频| 国产一区免费在线|