[發明專利]一種自動抽取列表頁的方法有效
| 申請號: | 201810959317.6 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN109144513B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 龐一文 | 申請(專利權)人: | 上海嘉道信息技術有限公司 |
| 主分類號: | G06F8/40 | 分類號: | G06F8/40 |
| 代理公司: | 北京唯智勤實知識產權代理事務所(普通合伙) 11557 | 代理人: | 朱春野 |
| 地址: | 201821 上海市嘉定區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 抽取 列表 方法 | ||
1.一種自動抽取列表頁的方法,其特征在于:包括以下步驟:
(1)dom樹的生成:獲取待采集網站的網頁源碼;將所述網頁源碼解析成dom樹;根據dom樹進行前序遍歷,記錄所述dom樹中各葉子元素的節點路徑;提取并保存帶有文字的元素節點路徑;
(2)獲取步驟(1)中提取的帶有文字的元素節點的位置信息,根據所述元素節點的位置信息進行打分,并濾除不符合列表頁視覺可能性的元素節點;
(3)根據節點路徑的相似度和與符合列表頁信息約束條件的節點特征的相似度判斷多個節點之間是否具有相似指紋,將具有相似指紋的節點分類聚合,其中,所述列表頁信息至少包括標題和地址鏈接,所述相似指紋是指不同的節點之間均符合構成列表頁信息的某個約束條件;
(4)將具有多個相似指紋且所述相似指紋能夠構成完整列表頁信息的多個節點分類聚合成節點塊,構成列表頁的深度指紋;
(5)從所述列表頁的深度指紋中提取標題和地址鏈接的相似指紋;
(6)抽取列表頁,將封裝結果返回;
步驟(3)中符合列表頁信息約束條件的節點特征包括節點屬性標簽和節點文本信息標簽,其中,所述節點屬性標簽相似度與所述節點屬性的方差成反比,則所述節點屬性的方差:
其中,a表示單個節點的屬性向量,b表示該類下的所有節點平均屬性向量;
所述節點文本信息的相似度與文本字數的方差成反比,則所述節點文本字數的方差:
其中,表示所有節點中文字信息的詞的平均密度,n表示節點數量。
2.如權利要求1所述的一種自動抽取列表頁的方法,其特征在于:步驟(2)具體包括:
(2.1)采集html網頁的css和js文件,獲取所述節點的位置信息;
(2.2)計算每個網頁解析后的dom樹的元素節點的像素位置;
(2.3)判斷所述元素節點是否符合列表頁視覺可能性,具體包括:若所述元素節點是隱藏節點,所述元素節點是無效節點;若所述元素節點的像素位置距離網頁左邊和頂部的距離像素小于設置的閾值,所述元素節點是無效節點;所述元素節點的像素位置與所述網頁的的中心點的距離越遠,所述元素節點的分值越低,所述元素節點的分值與列表頁的抽取精度相關。
3.如權利要求1所述的一種自動抽取列表頁的方法,其特征在于:步驟4還包括:
(4.1)計算節點路徑前置深度比例,即節點深度指紋所組成的節點塊共同的節點路徑長度占最長節點路徑長度的比例:
(4.2)為深度指紋聚合的節點塊打分、排序,計算最有可能是列表頁的深度指紋,所述節點塊的分值:
f(x)=ratio(節點前置路徑比例)×∑σσ(word)αi;
其中,αi是衰減系數。
4.如權利要求1所述的一種自動抽取列表頁的方法,其特征在于:步驟(5)中,所述標題的指紋是指符合所述標題約束條件的特征,提取符合所述標題約束條件的相似指紋,以獲取標題文字。
5.如權利要求1所述的一種自動抽取列表頁的方法,其特征在于:還包括設置列表頁抽取規則,以及通過所述抽取規則抽取列表頁的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嘉道信息技術有限公司,未經上海嘉道信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810959317.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生成API的方法和系統
- 下一篇:JSON格式數據解析存儲方法及裝置





