日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種基于知識驅動的網頁表格抽取與結構化處理方法在審

專利信息
申請號: 202310420021.8 申請日: 2023-04-19
公開(公告)號: CN116628301A 公開(公告)日: 2023-08-22
發明(設計)人: 張華平;雷沛鈳;李玉崗 申請(專利權)人: 北京理工大學
主分類號: G06F16/951 分類號: G06F16/951;G06F16/958;G06F16/955;G06F16/36
代理公司: 北京正陽理工知識產權代理事務所(普通合伙) 11639 代理人: 鄔曉楠
地址: 100081 *** 國省代碼: 北京;11
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 基于 知識 驅動 網頁 表格 抽取 結構 處理 方法
【說明書】:

發明涉及一種基于知識驅動的網頁表格抽取與結構化處理方法,屬于計算機科學中的信息處理技術領域。該方法包括:解析Web網頁內容數據,判斷是否存在表格;若存在表格,提取所有表格的內容并存儲;獲取表格后,對每一行數據和每一列數據進行解析,判斷是實體還是屬性;對表格項內容進行匹配,得到每一個表項對應的標簽;根據表項標簽,獲取行列標簽;計算行列置信度,判斷表頭實體屬性;以及生成包括實體、屬性、以及屬性值的結構化三元組。本發明通過融合規則與自然語言處理技術,基于知識庫對網頁表格數據進行抽取解析,使得結構化后的信息更加清晰、準確、和實用,為各種裝備性能參數的構建提供技術支持,具有很大的實用價值。

技術領域

本發明提供一種網頁表格信息抽取方法,屬于計算機科學中的信息處理技術領域,具體涉及一種基于知識驅動和自然語言處理技術的將網頁表格轉化為結構化三元組的方法。

背景技術

現代社會發展迅速、科技昌明,互聯網早已遍布人類社會的各個角落。大數據時代的到來使這個社會的海量數據變成了巨大的潛在財富,互聯網上存在著大量半結構化和非結構化的數據。非結構化的數據一般需要機器學習模型學習訓練,抽取其中的重要信息,需要消耗很大的算力。對于半結構化數據,則可通過建立規則等方式進行解析處理,相比之下簡單易行,同時也能得到豐富的信息。其中,網頁表格數據就是半結構化數據的一種,往往蘊含著巨大的價值。

長期的科研生產過程中,人們發現三元組的表達能力非常豐富,幾乎所有事情都可以自然或者強行的表達成三元組,比如,“今天天氣真冷”就可以表達為“天氣-狀態-冷”,而且三元組與后續的知識圖譜工作非常適配,如Neo4j等圖數據庫就是以三元組為存儲單位,圖譜的查詢推斷等工具使用三元組比普通的關系型數據庫來的方便的多。

現有的網頁表格抽取方法,一般通過將網頁表格表示為DOM樹,結合特定規則或方法實現表格數據抽取;對于將表格數據解析為實體、屬性、屬性值結構化三元組形式的還未見報道,而實體、屬性、屬性值形式的三元組則具有很高的實用價值。例如,在軍事領域,可以為軍事領域武器裝備知識圖譜的構建提供精準數據支持。

發明內容

本發明為開創性發明,目的是通過融合規則與自然語言處理技術的方法實現網頁表格數據結構化,具體地說是通過對網頁中的表格數據進行解析、抽取,準確識別行表頭、列表頭對應的是實體還是屬性,從而得到實體、屬性、屬性值結構化三元組。

本發明的目的通過以下技術方案實現:

一種基于知識驅動的網頁表格抽取與結構化處理方法,包括以下步驟:

步驟1)網頁解析,使用bs4庫解析爬取相關刊物網頁的HTML文件,根據table標簽判斷其中是否存在web表格;

步驟2)獲取表格,若在所述網頁數據中存在web表格,則獲取保存,具體方法為:根據table標簽依次定位到每個表格,獲取標簽為th、td的所有內容,其中th表示表頭,即表格的第一行,td表示表項,即除第一行外的表格內容;將每一個表格數據存為列表類型,列表中為子列表,存儲表格中每一行的數據,即將表格按行存儲;tr表示表格的一行,tr標簽內的td標簽均為該行的內容;定義表格中每行的第一個表項內容為行表頭,每列的第一個表項內容為列表頭;

步驟3)制定規則,獲取表格后,對每一行數據和每一列數據進行解析,判斷為實體還是屬性,考慮到各種裝備的性能參數大多是數值加單位的形式,故此可通過正則匹配實現模式的判斷,具體方法為:編寫基礎正則表達式,包括全大寫、全小寫、整數、浮點數、百分數、國際單位、月份、日期、年份間隔、表達式等;根據基礎正則表達式生成高級正則表達式,如:數字+單位、表達式+單位等;

步驟4)獲取表項模式,使用python?re模塊,根據步驟3)得到的高級正則表達式,對一個表格中的所有表項做正則匹配,按照存儲表格的格式同樣存儲每一個表項對應的標簽模式,對于未匹配到的,則標簽賦為“Not_Know”,默認表格第一行或第一列為候選實體,不做賦標簽處理;

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京理工大學,未經北京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202310420021.8/2.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 欧美日韩三区二区| 午夜裸体性播放免费观看| 欧美日韩国产一区二区三区在线观看 | 久久99精品国产麻豆婷婷洗澡| 欧美一级久久久| 亚洲欧美v国产一区二区| 国产资源一区二区三区| 偷拍自中文字av在线| 年轻bbwwbbww高潮| 一区二区三区四区国产| av毛片精品| 国产乱码精品一区二区三区中文 | 日韩欧美中文字幕精品| 91丝袜国产在线播放| 亚洲精品国产一区| 一区二区三区欧美在线| 欧美激情午夜| 久久精品国产综合| 一区二区精品在线| 一区不卡av| 国产呻吟久久久久久久92 | 国产一区二区三区国产| 国产在线不卡一| 色乱码一区二区三区网站| 免费a级毛片18以上观看精品| 人人要人人澡人人爽人人dvd| 久久久久久久久亚洲精品一牛| 国产一级二级在线| 国产欧美精品一区二区三区小说 | 欧美激情视频一区二区三区免费| 狠狠色噜噜狠狠狠狠| 国产精品久久久久免费a∨大胸| 午夜激情看片| 国产精品一区二区人人爽| 狠狠色狠狠色合久久伊人| 亚洲高清久久久| 欧美亚洲视频一区| 日韩精品中文字| 99精品一区二区| 自拍偷在线精品自拍偷写真图片| 久久精品国语| 中文丰满岳乱妇在线观看| 精品久久综合1区2区3区激情| 欧美精品一区二区三区在线四季| 久久天堂国产香蕉三区| 久久精品中文字幕一区| 欧美日韩国产在线一区| 欧美精品粉嫩高潮一区二区| 国产精品一区一区三区| 国产男女乱淫真高清视频免费| 日本午夜久久| 久久激情综合网| 狠狠色丁香久久综合频道日韩| 久久一级精品| 妖精视频一区二区三区| 中文字幕日韩精品在线| 日本神影院一区二区三区| 久久久综合亚洲91久久98| 日韩av电影手机在线观看| 国产91麻豆视频| 精品国产91久久久久久久| 中文字幕欧美日韩一区| 日本xxxx护士高潮hd| 欧美一区二区三区视频在线观看| 国产亚洲另类久久久精品| 在线国产精品一区二区| www色视频岛国| 性国产日韩欧美一区二区在线| 中文字幕理伦片免费看| 久久国产精品-国产精品| 毛片免费看看| 中文乱码在线视频| 欧美日韩一级二级三级| 色婷婷综合久久久中文一区二区| 国产一区二区综合| 欧美日韩国产精品一区二区亚洲| 日本一二区视频| 男人的天堂一区二区| 久爱视频精品| 国产精品二区一区| 日韩中文字幕亚洲精品欧美| 午夜国内精品a一区二区桃色| 久久精品亚洲精品| 夜色av网| 激情久久一区二区| 欧美激情综合在线| 国产在线欧美在线| 亚洲国产一区二| 毛片免费看看| 午夜国产一区二区| 一区二区三区免费高清视频| 欧美日韩亚洲国产一区| av素人在线| 国产盗摄91精品一区二区三区| 国产欧美一区二区精品久久久| 日本一区二区三区免费播放| 日韩精品999| 亚洲精品久久久中文| 国产精品一二三四五区| 91久久免费| 国产91免费在线| 91一区在线观看| 黄色国产一区二区| 国产欧美精品va在线观看| 亚洲精品日韩在线| 欧美高清视频一区二区三区| 欧美一级日韩一级| 99久久精品国产国产毛片小说| 国产精品久久久久久久久久久久久久久久 | av午夜影院| 91免费视频国产| 欧美精品乱码视频一二专区| 97一区二区国产好的精华液| 日本一区欧美| 久久99亚洲精品久久99| 91视频一区二区三区| 国产一区二区伦理| 亚洲精品www久久久| 国产高清在线精品一区二区三区| 亚洲一区二区三区加勒比| 久久综合伊人77777麻豆最新章节| 国产麻豆91视频| 亚洲五码在线| 欧美日韩一级二级三级| 中出乱码av亚洲精品久久天堂| 亚洲神马久久| 国产精自产拍久久久久久蜜| 91在线一区二区| 日韩欧美高清一区| 黄色av免费| 国产麻豆一区二区| 欧美精品xxxxx| 国产精品v欧美精品v日韩| 欧美日韩一级二级三级| 欧美一区二区精品久久911| 亚洲欧美日韩精品在线观看| 国91精品久久久久9999不卡| 欧美一区二区久久久| 午夜影院啊啊啊| 国产99久久久精品视频| 一区二区三区国产欧美| 久久精品国产亚洲7777| 亚洲激情中文字幕| 亚洲欧美制服丝腿| 乱淫免费视频| 日韩av电影手机在线观看| 96国产精品| 久久精品一区二区三区电影| 国产精品久久久久四虎| 色噜噜狠狠色综合久| 国产在线精品二区| 欧美一区二区三区不卡视频| 一区二区欧美在线| 亚洲国产精品女主播| 日韩中文字幕亚洲精品欧美| 久久国产精品免费视频| 97欧美精品| 国产真裸无庶纶乱视频| 午夜av男人的天堂| 国产精品视频免费一区二区| 中文字幕日本一区二区| 国产精品一区二区6| av国产精品毛片一区二区小说| 亚洲一区欧美| 国产精品欧美一区二区视频| 精品欧美一区二区在线观看| 国产精品美女久久久另类人妖| 久久精品色欧美aⅴ一区二区| 欧美日韩一级二级三级| 国产一区在线视频播放| 欧美午夜羞羞羞免费视频app | 国产欧美日韩精品一区二区三区| 免费毛片a| 午夜天堂电影| 亚洲免费精品一区二区| 99久久久国产精品免费调教网站 | 午夜激情电影在线播放| 国产在线一二区| 四季av中文字幕一区| 久草精品一区| 96精品国产| 亚洲二区在线播放视频| 久久99国产视频| 国产精品三级久久久久久电影| 日韩一级精品视频在线观看| 亚洲欧美日韩国产综合精品二区 | 欧美激情国产一区| 国产精品国产三级国产专区51区| 日本午夜一区二区| 国产欧美视频一区二区三区| 日本午夜一区二区| 国产欧美视频一区二区三区| 亚洲精品久久久久久久久久久久久久 | 国产精品久久久久久久四虎电影| 日韩精品中文字| 精品一区二区在线视频| 狠狠色噜噜综合社区| 一区二区三区国产精品| 国产日韩欧美精品| 性刺激久久久久久久久九色| 午夜影院啪啪| 久久精品色欧美aⅴ一区二区| 国产91清纯白嫩初高中在线观看 | 国产欧美日韩精品一区二区三区 | 久久精品亚洲精品| 欧美一区二区三区白人| 91精彩刺激对白露脸偷拍| 亚洲精品国产setv| 国产天堂一区二区三区| 亚洲自拍偷拍一区二区三区| 色综合欧美亚洲国产| 7777久久久国产精品| 精品福利一区| 精品午夜电影| 亚洲精品色婷婷| 天干天干天啪啪夜爽爽99| 日本午夜久久| 日本一二三四区视频| 91精品国产高清一区二区三区| 国产欧美日韩精品一区二区三区 | 久久国产这里只有精品| 久久综合伊人77777麻豆最新章节| 一区二区三区国产欧美| 岛国黄色网址| 日韩av一区不卡| 精品国产一区二区三区麻豆免费观看完整版 | 国产欧美精品久久| 岛国黄色av| 国产精品欧美一区乱破| 国产日韩欧美一区二区在线观看 | 午夜影院一级片| 久久狠狠高潮亚洲精品| 亚洲欧洲日本在线观看| 色噜噜狠狠色综合中文字幕| 男女午夜爽爽| 国产精品免费一区二区区| 国产精品一区二区在线看| 国产黄色网址大全| 午夜精品影视| 午夜影院一级| 久99精品| 亚洲欧美色一区二区三区| 日韩中文字幕区一区有砖一区| 午夜毛片影院| 国偷自产中文字幕亚洲手机在线| 欧美色图视频一区|