[發明專利]一種基于知識驅動的網頁表格抽取與結構化處理方法在審
| 申請號: | 202310420021.8 | 申請日: | 2023-04-19 |
| 公開(公告)號: | CN116628301A | 公開(公告)日: | 2023-08-22 |
| 發明(設計)人: | 張華平;雷沛鈳;李玉崗 | 申請(專利權)人: | 北京理工大學 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/958;G06F16/955;G06F16/36 |
| 代理公司: | 北京正陽理工知識產權代理事務所(普通合伙) 11639 | 代理人: | 鄔曉楠 |
| 地址: | 100081 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 驅動 網頁 表格 抽取 結構 處理 方法 | ||
本發明涉及一種基于知識驅動的網頁表格抽取與結構化處理方法,屬于計算機科學中的信息處理技術領域。該方法包括:解析Web網頁內容數據,判斷是否存在表格;若存在表格,提取所有表格的內容并存儲;獲取表格后,對每一行數據和每一列數據進行解析,判斷是實體還是屬性;對表格項內容進行匹配,得到每一個表項對應的標簽;根據表項標簽,獲取行列標簽;計算行列置信度,判斷表頭實體屬性;以及生成包括實體、屬性、以及屬性值的結構化三元組。本發明通過融合規則與自然語言處理技術,基于知識庫對網頁表格數據進行抽取解析,使得結構化后的信息更加清晰、準確、和實用,為各種裝備性能參數的構建提供技術支持,具有很大的實用價值。
技術領域
本發明提供一種網頁表格信息抽取方法,屬于計算機科學中的信息處理技術領域,具體涉及一種基于知識驅動和自然語言處理技術的將網頁表格轉化為結構化三元組的方法。
背景技術
現代社會發展迅速、科技昌明,互聯網早已遍布人類社會的各個角落。大數據時代的到來使這個社會的海量數據變成了巨大的潛在財富,互聯網上存在著大量半結構化和非結構化的數據。非結構化的數據一般需要機器學習模型學習訓練,抽取其中的重要信息,需要消耗很大的算力。對于半結構化數據,則可通過建立規則等方式進行解析處理,相比之下簡單易行,同時也能得到豐富的信息。其中,網頁表格數據就是半結構化數據的一種,往往蘊含著巨大的價值。
長期的科研生產過程中,人們發現三元組的表達能力非常豐富,幾乎所有事情都可以自然或者強行的表達成三元組,比如,“今天天氣真冷”就可以表達為“天氣-狀態-冷”,而且三元組與后續的知識圖譜工作非常適配,如Neo4j等圖數據庫就是以三元組為存儲單位,圖譜的查詢推斷等工具使用三元組比普通的關系型數據庫來的方便的多。
現有的網頁表格抽取方法,一般通過將網頁表格表示為DOM樹,結合特定規則或方法實現表格數據抽取;對于將表格數據解析為實體、屬性、屬性值結構化三元組形式的還未見報道,而實體、屬性、屬性值形式的三元組則具有很高的實用價值。例如,在軍事領域,可以為軍事領域武器裝備知識圖譜的構建提供精準數據支持。
發明內容
本發明為開創性發明,目的是通過融合規則與自然語言處理技術的方法實現網頁表格數據結構化,具體地說是通過對網頁中的表格數據進行解析、抽取,準確識別行表頭、列表頭對應的是實體還是屬性,從而得到實體、屬性、屬性值結構化三元組。
本發明的目的通過以下技術方案實現:
一種基于知識驅動的網頁表格抽取與結構化處理方法,包括以下步驟:
步驟1)網頁解析,使用bs4庫解析爬取相關刊物網頁的HTML文件,根據table標簽判斷其中是否存在web表格;
步驟2)獲取表格,若在所述網頁數據中存在web表格,則獲取保存,具體方法為:根據table標簽依次定位到每個表格,獲取標簽為th、td的所有內容,其中th表示表頭,即表格的第一行,td表示表項,即除第一行外的表格內容;將每一個表格數據存為列表類型,列表中為子列表,存儲表格中每一行的數據,即將表格按行存儲;tr表示表格的一行,tr標簽內的td標簽均為該行的內容;定義表格中每行的第一個表項內容為行表頭,每列的第一個表項內容為列表頭;
步驟3)制定規則,獲取表格后,對每一行數據和每一列數據進行解析,判斷為實體還是屬性,考慮到各種裝備的性能參數大多是數值加單位的形式,故此可通過正則匹配實現模式的判斷,具體方法為:編寫基礎正則表達式,包括全大寫、全小寫、整數、浮點數、百分數、國際單位、月份、日期、年份間隔、表達式等;根據基礎正則表達式生成高級正則表達式,如:數字+單位、表達式+單位等;
步驟4)獲取表項模式,使用python?re模塊,根據步驟3)得到的高級正則表達式,對一個表格中的所有表項做正則匹配,按照存儲表格的格式同樣存儲每一個表項對應的標簽模式,對于未匹配到的,則標簽賦為“Not_Know”,默認表格第一行或第一列為候選實體,不做賦標簽處理;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310420021.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種可用在園林工具的固態儲能裝置
- 下一篇:一種柔性自修復材料及制備方法





