[發明專利]一種自動抽取列表頁的方法有效
| 申請號: | 201810959317.6 | 申請日: | 2018-08-22 |
| 公開(公告)號: | CN109144513B | 公開(公告)日: | 2022-02-11 |
| 發明(設計)人: | 龐一文 | 申請(專利權)人: | 上海嘉道信息技術有限公司 |
| 主分類號: | G06F8/40 | 分類號: | G06F8/40 |
| 代理公司: | 北京唯智勤實知識產權代理事務所(普通合伙) 11557 | 代理人: | 朱春野 |
| 地址: | 201821 上海市嘉定區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 抽取 列表 方法 | ||
本發明涉及一種自動抽取列表頁的方法,包括以下步驟:將網頁源碼解析成dom樹;提取dom樹中帶有文字的元素節點路徑;元素節點的位置信息打分和濾除;提取節點的相似指紋;提取節點塊的深度指紋;提取標題和地址鏈接的相似指紋;抽取列表頁,將封裝結果返回。本發明能夠適用于大量的互聯網網站列表頁抽取,對大量列表頁都具有普適性,因此即使出現了網站改版,基于網頁結構的抽取方式依舊可以生效,節省了重新編寫抽取規則和維護規則所產生來的時間成本和人力成本。在基于網頁的結構抽取算法中,還增加了網頁上元素的位置像素信息作為特征,更加符合人對于列表頁的感官判斷,使得抽取結果更加符合目標。
技術領域
本發明涉及網絡技術領域,尤其涉及一種自動抽取列表頁的方法。
背景技術
傳統的列表頁抽取技術主要通過規則的形式,比較常用的比如通過正則表達式、xpath、css選擇器、甚至通過人工手動的形式將頁面上的信息采集下來。
單個網頁能夠通過諸如正則表達式的方式來精準的想要的信息采集下來,而像正則表達式、css選擇器這種方式本質是通過觀察網頁源碼的規則通過人進行總結,進而使用這些規則來抽取,這種方法在不同結構的網頁上是很難用同一套規則來抽取的,因為不同網頁需要不同的規則來支撐抽取,當用戶需要采集大量的網頁時,就需要依靠人工來編寫大量的規則,這種效率不僅低下,甚至在千、萬數量級的網站上時,僅僅依靠人工已經成為了完全不可能的事。不僅如此,依靠規則的抽取方式受限于網頁本身,當網站進行改版時,當初的規則也會變得不再適用,又需要要人工重新編寫規則,這也使得某些依賴開源信息采集的項目維護成本變得異常高。
發明內容
本發明所要解決的技術問題是提供一種適用度高且高效的自動抽取列表頁的方法。
為解決上述技術問題,本發明的技術方案是:一種自動抽取列表頁的方法,包括以下步驟:
(1)dom樹的生成:獲取待采集網站的網頁源碼;將所述網頁源碼解析成dom樹;根據dom樹進行前序遍歷,記錄所述dom樹中各葉子元素的節點路徑;提取并保存帶有文字的元素節點路徑;
(2)獲取步驟(1)中提取的帶有文字的元素節點的位置信息,根據所述元素節點的位置信息進行打分,并濾除不符合列表頁視覺可能性的元素節點;
(3)根據節點路徑的相似度和與符合列表頁信息約束條件的節點特征的相似度判斷多個節點之間是否具有相似指紋,將具有相似指紋的節點分類聚合,其中,所述列表頁信息至少包括標題和地址鏈接,所述相似指紋是指不同的節點之間均符合構成列表頁信息的某個約束條件;
(4)將具有多個相似指紋且所述相似指紋能夠構成完整列表頁信息的多個節點分類聚合成節點塊,構成列表頁的深度指紋;
(5)從所述列表頁的深度指紋中提取標題和地址鏈接的相似指紋;
(6)抽取列表頁,將封裝結果返回。
作為優選的技術方案,步驟(2)具體包括:
(2.1)采集html網頁的css和js文件,獲取所述節點的位置信息;
(2.2)計算每個網頁解析后的dom樹的元素節點的像素位置;
(2.3)判斷所述元素節點是否符合列表頁視覺可能性,具體包括:若所述元素節點是隱藏節點,所述元素節點是無效節點;若所述元素節點的像素位置距離網頁左邊和頂部的距離像素小于設置的閾值,所述元素節點是無效節點;所述元素節點的像素位置與所述網頁的的中心點的距離越遠,所述元素節點的分值越低,所述元素節點的分值與列表頁的抽取精度相關。
作為優選的技術方案,步驟(3)中符合列表頁信息約束條件的節點特征包括節點屬性標簽和節點文本信息標簽,其中,所述節點屬性標簽相似度與所述節點屬性的方差成反比,則所述節點屬性的方差:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海嘉道信息技術有限公司,未經上海嘉道信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810959317.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種生成API的方法和系統
- 下一篇:JSON格式數據解析存儲方法及裝置





