[發明專利]一種基于DOM樹路徑匹配的文章解析方法在審
| 申請號: | 202011344778.6 | 申請日: | 2020-11-26 |
| 公開(公告)號: | CN112487319A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 龐文俊;陳繼;張長志;黃星;廖開楓;李小超;伊曉強 | 申請(專利權)人: | 清創網御(合肥)科技有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/958 |
| 代理公司: | 合肥律眾知識產權代理有限公司 34147 | 代理人: | 殷娟 |
| 地址: | 230000 安徽省合肥市經濟技術開發區習*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 dom 路徑 匹配 文章 解析 方法 | ||
本發明公開了一種基于DOM樹路徑匹配的文章解析方法,系統模板庫中存儲有面向不同網站的特定解析模板;通過網站W的網頁URL加載頁面上的文章,將該文章按照層級標簽解析成DOM樹,得到文章中的各個節點及其路徑;將網站W的特定解析模板中不同節點的路徑與DOM樹各條路徑進行匹配,獲取匹配成功的DOM樹路徑對應的節點內容;將特定解析模板中節點內容的正則表達式與與其匹配成功的DOM樹路徑對應的節點內容進行匹配,將匹配成功的節點內容存放到解析結果中;將解析結果按統一格式封裝儲存。針對不同網站配置特定解析模板,將不同網站上的文章通過特定解析模板解析成統一格式方便統計者進行信息統計。
技術領域
本發明涉及文章解析技術領域,更具體地說,涉及一種基于DOM樹路徑匹配的文章解析方法。
背景技術
不同網站文章的結構和格式存在一定差異,不便于統計人員進行數據統計,現無法將不同網站上檢索到的文章生成統一格式,各式各樣的文章格式大大增加了統計人員工作難度,降低了工作效率。
發明內容
本發明的目的在于提供一種基于DOM樹路徑匹配的文章解析方法,針對不同網站配置特定解析模板,將不同網站上的文章通過特定解析模板解析成統一格式方便統計者進行信息統計,用以解決上述背景技術中存在的技術問題。
本發明技術方案一種基于DOM樹路徑匹配的文章解析方法,系統模板庫中存儲有面向不同網站的特定解析模板;
通過網站W的網頁URL加載頁面上的文章,將該文章按照層級標簽解析成DOM樹,得到文章中的各個節點及其路徑;
將網站W的特定解析模板中不同節點的路徑與DOM樹各條路徑進行匹配,獲取匹配成功的DOM樹路徑對應的節點內容;
將特定解析模板中節點內容的正則表達式與與其匹配成功的DOM樹路徑對應的節點內容進行匹配,將匹配成功的節點內容存放到解析結果中;
將解析結果按統一格式封裝儲存。
在一個優選地實施例中,當對系統模板庫無對應特定解析模板的網站進行文章解析時,首先利用基礎解析模板解析文章,當該文章BOM樹中存在與基礎解析模板匹配不上的路徑時,確定解析結果中缺失部分節點;將缺失的節點及其路徑補充至基礎解析模板內,形成該網站的特定解析模板。
在一個優選地實施例中,系統模板庫是否存在某網站的特定解析模板的判斷方法為:
獲取該網站待解析文章的URL,截取其二級域名;
根據截取的二級域名判斷該網站是否存在特定解析模板。
在一個優選地實施例中,所述通用模板至少包括標題、作者、文章發布時間和內容。
本發明根據不同的網站配置特定解析模板,通過特定解析模板對文章進行解析得到對應的文章標題、作者、文章發表時間、內容等;生成統一的文章格式進行存儲,方便統計者進行信息統計;同時,能夠通過自學習的方式及時更新系統模板庫,提升系統的文章解析能力。
附圖說明
圖1為本發明文章解析過程流程圖。
具體實施方式
下面結合附圖和具體實施方式對本發明作進一步詳細的說明。本發明的實施例是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發明限于所公開的形式。很多修改和變化對于本領域的普通技術人員而言是顯而易見的。選擇和描述實施例是為了更好說明本發明的原理和實際應用,并且使本領域的普通技術人員能夠理解本發明從而設計適于特定用途的帶有各種修改的各種實施例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清創網御(合肥)科技有限公司,未經清創網御(合肥)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011344778.6/2.html,轉載請聲明來源鉆瓜專利網。





