[發明專利]一種基于配置信息匹配及相似度提取網頁信息的方法在審
| 申請號: | 201711346436.6 | 申請日: | 2017-12-15 |
| 公開(公告)號: | CN108052619A | 公開(公告)日: | 2018-05-18 |
| 發明(設計)人: | 尚保林;王明興;徐曉松 | 申請(專利權)人: | 北京海致星圖科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 配置 信息 匹配 相似 提取 網頁 方法 | ||
本發明公開了一種基于配置信息匹配及相似度提取網頁信息的方法,提出了基于配置信息文本匹配及相似度計算實現的未知網頁表格信息提取方法,利用新穎技術手段實現對未知網頁表格細粒度的解析,通過自定義配置文件,獲取用戶想要的信息以及屏蔽不想要的信息,通過任意配置的外部文件,實現通用表格解析;提取網頁中的最小表格,通過利用現今自然語言處理領域的文本間匹配以及相似度計算方式,抽取目標信息、棄丟無效信息,直接通過文本計算的方式實現信息獲取,優于傳統技術只能處理標準表格的方案,實現了對多種特殊表格的處理。
技術領域
本發明涉及查詢方法技術領域,尤其涉及一種基于配置信息匹配及相似度提取網頁信息的方法。
背景技術
知識圖譜與圖數據挖掘中經常需要挖掘滿足給定結構的所有子圖,這個問題通常稱之為子圖同構、子圖匹配或子圖查詢。當前的子圖匹配算法多是基于單機的,效率比較低,不能使用多臺機器并行處理,能力有限,難以處理大規模數據。
發明內容
本發明的目的就在于為了解決上述問題而提供一種基于配置信息匹配及相似度提取網頁信息的方法。
本發明通過以下技術方案來實現上述目的:
本發明包括以下步驟:
S1:用戶自定義與表格解析過程相關的配置文件;
S2:順序讀取未知網頁URL,查詢數據庫中是否已存在相關配置文件以及網頁URL,若存在,直接讀取數據;若不存在,存儲其網頁源碼,利用JAVA中的Jsoup包將源碼解析為Document對象;
S3:從根節點處深度遞歸遍歷所有含table標簽的表格,尋找所有非重復最小表格;
S4:遍歷表格的第一行、第一列字段分別保存,獲取配置文件中用戶給出的字段列表,通過投票機制確定該表格屬性為橫向或者縱向。得到所有表格屬性并保存;
S5:將每個最小表格作為處理單位,將標簽table作為根節點root;
S6:若該表格為縱向表格,獲取root第一個非空子節點的標簽rowspan值,此值為表頭所占行數,根據表頭所占行數,獲取所有表頭字段propertyStr;
S7:遍歷表頭節點的所有非空兄弟節點
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京海致星圖科技有限公司,未經北京海致星圖科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711346436.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種復合陶瓷電容材料
- 下一篇:一種電動窗簾
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





