[發明專利]網頁表格信息抽取方法及裝置有效
| 申請號: | 202010641036.3 | 申請日: | 2020-07-06 |
| 公開(公告)號: | CN111797356B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 顧凌云;陳波;王健健 | 申請(專利權)人: | 上海冰鑒信息科技有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/215;G06F40/295;G06F40/177 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 匡睿 |
| 地址: | 200000 上海市浦東新區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 表格 信息 抽取 方法 裝置 | ||
本發明提供的網頁表格信息抽取方法及裝置,涉及數據信息處理技術領域。首先,清洗網頁數據,檢測清洗的網頁數據中是否存在web表格;接著,在存在web表格時,識別web表格的樣式,并根據web表格的樣式抽取表格信息;最后,采用實體識別模型對抽取的表格信息進行識別,篩選出web表格包括的實體對象。根據web表格的樣式抽取表格信息,抽取的信息會更加準確;另外,通過實體識別模型對抽取信息進行進一步的識別和清洗,可以減少抽取信息中的干擾信息。
技術領域
本發明涉及數據信息處理技術領域,具體而言,涉及一種網頁表格信息抽取方法及裝置。
背景技術
在大數據時代,互聯網上有海量公開的半結構化數據和非結構化數據,其中網頁表格數據這種半結構化數據,往往具有較高的價值。然而,網頁表格樣式復雜,數據干擾項也多,極大地增加了信息抽取的難度。
現有的網頁表格數據抽取方法,一般是通過網頁表格解析器獲取含有table標記的DOM樹,再結合針對特定頁面的過濾規則或通過手工標記來進行表格數據抽取。然而,對于由橫向表格(表頭在首行)和縱行表格(表頭在首列)結合的復合表格抽取數據的效果就不好。而且,上述抽取方法,主要是基于規則,對于提取后的表格單元中的信息未進行清洗,導致抽取的內容含有較多的干擾項。
發明內容
為了改善上述問題,本發明提供了一種網頁表格信息抽取方法及裝置。
本發明的第一方面,提供一種網頁表格信息抽取方法,應用于計算機設備,所述方法包括:
對獲取的網頁數據進行數據清洗,得到清洗后的網頁數據;
檢測所述清洗后的網頁數據中是否存在web表格;
在所述清洗后的網頁數據中存在web?表格時,通過識別所述web表格的結構,識別出所述web表格的樣式,其中,所述web表格的樣式包括簡單表格和復合表格;
根據所述web表格的樣式,抽取出所述web表格的表格信息;
采用優化的實體識別模型對抽取的表格信息進行識別,得到所述web表格中包括的實體對象。
進一步地,所述通過識別所述web表格的結構,識別出所述web表格的樣式的步驟包括:
對所述web表格進行檢測,在檢測的所述web表格的表格區域依據行標記遍歷所述web表格每一行的單元格;
若當前行的單元格數量與上一行的單元格數量不相同,則確定所述web表格為復合表格;若所述web表格中所有行的單元格數量相同,則確定所述web表格為簡單表格。
進一步地,若所述web表格的樣式為復合表格,所述抽取出所述web表格的表格信息的步驟包括:
將所述web表格拆分為多個簡單表格;
遍歷每個拆分后的簡單表格在每行上的單元格,通過表頭特征詞庫對所述每行上的單元格內容進行文本匹配,統計匹配成功的行單元格數量;
遍歷每個拆分后的簡單表格在每列上的單元格,通過表頭特征詞庫對所述每列上的單元格內容進行文本匹配,統計匹配成功的列單元格數量;
根據統計的行單元格數量及列單元格數量,判斷所述每個拆分后的簡單表格的類型,所述簡單表格的類型包括橫向表格和縱向表格;
根據所述每個拆分后的簡單表格的類型,通過所述表頭特征詞庫從所述每個拆分后的簡單表格中抽取表格信息。
進一步地,所述根據所述每個拆分后的簡單表格的類型,通過所述表頭特征詞庫從所述每個拆分后的簡單表格中抽取表格信息的步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海冰鑒信息科技有限公司,未經上海冰鑒信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010641036.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:軌道用減振支座
- 下一篇:一種隔膜壓縮機氣缸密封結構
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





