[發明專利]網頁類型的判斷方法及裝置在審
| 申請號: | 201710227221.6 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN108694193A | 公開(公告)日: | 2018-10-23 |
| 發明(設計)人: | 謝興波 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100086 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁類型 目標網頁 網頁鏈接 鏈接 網頁 判定目標 學習訓練 截取 申請 | ||
本申請公開了一種網頁類型的判斷方法及裝置。該方法包括:爬取目標網頁鏈接;從目標網頁鏈接中截取頂級域名;根據網頁類型模型和目標網頁鏈接的頂級域名,判定目標網頁鏈接對應網頁的網頁類型,其中,網頁類型模型為對多個網頁鏈接和每個網頁鏈接對應網頁的網頁類型進行學習訓練后生成的模型。通過本申請,解決了相關技術中針對網頁類型識別效率較低的問題。
技術領域
本申請涉及互聯網技術領域,具體而言,涉及一種網頁類型的判斷方法及裝置。
背景技術
網絡爬蟲會基于對不同的頁面類型采取的不同行為,通常將網頁劃分為兩個大類,即是內容頁面和列表頁面。對于內容頁面,網絡爬蟲通常采取的行為是抓取,即將該頁面的內容進行抓取、解析和保存等。對于列表頁面,網絡爬蟲通常采取的行為是下鉆,即獲取該頁面中的超鏈接,并繼續更深一層地抓取超鏈接中對應的頁面內容。由于行為上存在差異,若將兩種頁面混為一談就會造成額外的問題,如若將內容頁錯誤地看待為列表頁,則內容頁本身的內容將無法被解析和存儲,并且內容頁中的其他鏈接將成為繼續下鉆的邏輯,產生錯誤。因此,正確合理的對互聯網中這兩大類頁面進行區分,對于網絡爬蟲而言至關重要。
相關技術中的頁面類型識別方法,僅通過url來對網頁類型進行判斷,但是相關技術中僅通過url進行判斷的邏輯是基于規則的,即需要通過人工建立一些對url檢查的規則,來判斷url是否符合規則集合中的一個或多個,進而區分網頁的類型。這種人工建立規則的方式需要人工對規則的適應性進行檢查,人工總結規則,因此格外耗費成本,對網頁類型的識別效率也較低。此外,對于一個新的網站域名,之前人工總結的規則不再適用的可能性也很大。
針對相關技術中針對網頁類型識別效率較低的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種網頁類型的判斷方法及裝置,以解決相關技術中針對網頁類型識別效率較低的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種網頁類型的判斷方法。該方法包括:爬取目標網頁鏈接;從目標網頁鏈接中截取頂級域名;根據網頁類型模型和目標網頁鏈接的頂級域名,判定目標網頁鏈接對應網頁的網頁類型,其中,網頁類型模型為對多個網頁鏈接和每個網頁鏈接對應網頁的網頁類型進行學習訓練后生成的模型。
進一步地,網頁類型模型中包括:網頁鏈接、網頁鏈接對應網頁的網頁類型以及網頁鏈接與網頁鏈接對應網頁的網頁類型的對應關系,根據網頁類型模型和目標網頁鏈接的頂級域名,判定目標網頁鏈接對應網頁的網頁類型包括:判斷網頁類型模型是否訓練過目標網頁鏈接的頂級域名;若是,通過網頁類型模型中網頁鏈接與網頁類型的對應關系,確定目標網頁鏈接對應網頁的網頁類型;若否,獲取目標網頁鏈接對應網頁的html源碼;通過目標網頁鏈接對應網頁的html源碼確定目標網頁鏈接對應網頁的網頁類型。
進一步地,通過目標網頁鏈接對應網頁的html源碼確定目標網頁鏈接對應網頁的網頁類型包括:通過目標網頁鏈接對應網頁的html源碼構建網頁節點樹,其中,網頁節點樹由html源碼中多種類型的節點構建;從網頁節點樹中抽取網頁特征;利用網頁特征判斷目標網頁鏈接對應的網頁類型。
進一步地,通過目標網頁鏈接對應網頁的html源碼構建網頁節點樹包括:從html源碼中抽取目標類型節點;確定目標類型節點的層級結構;基于目標類型節點和層級結構生成節點樹;移除節點樹中不滿足預設條件的目標類型節點;以及在移除節點樹中不滿足預設條件的目標類型節點之后,對節點樹中的目標類型節點進行封裝處理,構建網頁節點樹。
進一步地,從目標網頁鏈接中截取頂級域名包括:獲取用于對目標網頁鏈接中頂級域名進行截取的正則表達式;以及采用正則表達式截取目標網頁鏈接對應網頁的頂級域名。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710227221.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:網頁類型的判斷方法及裝置
- 下一篇:一種構造數據對象的方法和裝置





