[發明專利]一種基于DOM樹路徑匹配的文章解析方法在審
| 申請號: | 202011344778.6 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112487319A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 龐文俊;陳繼;張長志;黃星;廖開楓;李小超;伊曉強 | 申請(專利權)人: | 清創網御(合肥)科技有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/958 |
| 代理公司: | 合肥律眾知識產權代理有限公司 34147 | 代理人: | 殷娟 |
| 地址: | 230000 安徽省合肥市經濟技術開發區習*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dom 路徑 匹配 文章 解析 方法 | ||
1.一種基于DOM樹路徑匹配的文章解析方法,其特征在于,系統模板庫中存儲有面向不同網站的特定解析模板;
通過網站W的網頁URL加載頁面上的文章,將該文章按照層級標簽解析成DOM樹,得到文章中的各個節點及其路徑;
將網站W的特定解析模板中不同節點的路徑與DOM樹各條路徑進行匹配,獲取匹配成功的DOM樹路徑對應的節點內容;
將特定解析模板中節點內容的正則表達式與與其匹配成功的DOM樹路徑對應的節點內容進行匹配,將匹配成功的節點內容存放到解析結果中;
將解析結果按統一格式封裝儲存。
2.根據權利要求1所述的一種基于DOM樹路徑匹配的文章解析方法,其特征在于,當對系統模板庫無對應特定解析模板的網站進行文章解析時,首先利用基礎解析模板解析文章,當該文章BOM樹中存在與基礎解析模板匹配不上的路徑時,確定解析結果中缺失部分節點;將缺失的節點及其路徑補充至基礎解析模板內,形成該網站的特定解析模板。
3.根據權利要求2所述的一種基于DOM樹路徑匹配的文章解析方法,其特征在于,系統模板庫是否存在某網站的特定解析模板的判斷方法為:
獲取該網站待解析文章的URL,截取其二級域名;
根據截取的二級域名判斷該網站是否存在特定解析模板。
4.根據權利要求2所述的一種基于DOM樹路徑匹配的文章解析方法,其特征在于,所述通用模板至少包括標題、作者、文章發布時間和內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清創網御(合肥)科技有限公司,未經清創網御(合肥)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344778.6/1.html,轉載請聲明來源鉆瓜專利網。





