[發明專利]一種網頁內容提取方法在審
| 申請號: | 201811479503.6 | 申請日: | 2018-12-05 |
| 公開(公告)號: | CN109635219A | 公開(公告)日: | 2019-04-16 |
| 發明(設計)人: | 賈顯伏;葉偉強 | 申請(專利權)人: | 云孚科技(北京)有限公司 |
| 主分類號: | G06F16/958 | 分類號: | G06F16/958;G06F16/951 |
| 代理公司: | 北京世譽鑫誠專利代理事務所(普通合伙) 11368 | 代理人: | 孫國棟 |
| 地址: | 100085 北京市海淀區上地信息路2號(北京實創*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 節點集合 網頁內容提取 人力成本 過濾 集合 標簽 文本 數據分析技術 計分公式 網頁內容 遍歷 | ||
1.一種網頁內容提取方法,其特征在于,包括:
過濾網頁內容中標簽為script及css的節點,生成基于DOM樹的第一節點集合;
從所述第一節點集合中提取標簽包含文本的節點,生成基于DOM樹的第二節點集合;
對所述第二節點集合中的各個節點進行過濾,生成基于DOM樹的第三節點集合,包括:
判斷所述第二節點集合中是否存在停用詞的數量是否小于設定的閾值的節點,如果是,則過濾掉所述節點;
判斷判斷所述第二節點集合中標簽為a或img的節點的密度是否大于設定的閾值,如果是,則過濾掉所述節點;
遍歷所述第三節點集合中的各個節點,依據設定的計分公式S=a+b+n×1,分別計算各個節點的得分并生成得分集合,其中,a為初始分、b為獎勵分、n為停用詞的數量。
從所述得分集合中獲取分數最高的節點,從所述節點中提取文本。
2.根據權利要求1所述的網頁內容提取方法,其特征在于,所述方法還包括:
若所述第二節點集合中各個節點的停用詞的數量均小于設定閾值,則從網頁內容的元標簽中提取該網頁內容的關鍵詞并從所述關鍵詞中提取文本。
3.根據權利要求1所述的網頁內容提取方法,其特征在于,所述方法還包括:
若所述第二節點集合中各個節點的標簽均為a或img,則從網頁內容的元標簽中提取該網頁內容的關鍵詞并從所述關鍵詞中提取文本。
4.根據權利要求1所述的網頁內容提取方法,其特征在于,所述方法還包括:
若得分集合中各個節點的得分相同,則從所述得分集合中獲取最后一個節點,從所述節點中提取文本。
5.根據權利要求1-4任一項所述的網頁內容提取方法,其特征在于,所述方法還包括:
若所述節點的分數存在變化,則按照設定的加分規則,實時對所述節點的父親節點及爺爺節點的分數進行更新。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云孚科技(北京)有限公司,未經云孚科技(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811479503.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:新聞發布與管理系統
- 下一篇:一種基于區塊鏈的信息記錄方法及系統





