[發明專利]網頁類型的判斷方法及裝置有效
| 申請號: | 201710227194.2 | 申請日: | 2017-04-07 |
| 公開(公告)號: | CN108694192B | 公開(公告)日: | 2021-05-14 |
| 發明(設計)人: | 謝興波 | 申請(專利權)人: | 北京國雙科技有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/906;G06F16/80 |
| 代理公司: | 北京康信知識產權代理有限責任公司 11240 | 代理人: | 韓建偉;張永明 |
| 地址: | 100083 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網頁 類型 判斷 方法 裝置 | ||
本申請公開了一種網頁類型的判斷方法及裝置。該方法包括:獲取目標網頁的html源碼;通過html源碼構建節點樹,其中,節點樹由html源碼中多種類型的節點構建;從節點樹中抽取網頁特征,得到網頁特征集合;以及利用網頁特征集合中各個網頁特征對目標網頁的網頁類型進行判斷。通過本申請,解決了相關技術中識別頁面類型的準確性較低的問題。
技術領域
本申請涉及互聯網領域,具體而言,涉及一種網頁類型的判斷方法及裝置。
背景技術
網絡爬蟲會基于對不同的頁面類型采取的不同行為,通常將網頁劃分為兩個大類,即是內容頁面和列表頁面。對于內容頁面,網絡爬蟲通常采取的行為是抓取,即將該頁面的內容進行抓取、解析和保存等。對于列表頁面,網絡爬蟲通常采取的行為是下鉆,即獲取該頁面中的超鏈接,并繼續更深一層地抓取超鏈接中對應的頁面內容。由于行為上存在差異,若將兩種頁面混為一談就會造成額外的問題,如若將內容頁錯誤地看待為列表頁,則內容頁本身的內容將無法被解析和存儲,并且內容頁中的其他鏈接將成為繼續下鉆的邏輯,產生錯誤。因此,正確合理的對互聯網中這兩大類頁面進行區分,對于網絡爬蟲而言至關重要。相關技術中的網頁類型識別方法是基于統計的,基于統計頁面源碼中,連續文字出現的段落比例,并根據經驗分布情況設定閾值,當認為連續文字出現的比例大于閾值時,則認定這段連續的文字為頁面正文,當網頁中無頁面正文時,則認定該頁面為列表頁。因此僅僅可以作為一種實現的方案,但是方案本身存在很多問題。其中最大的問題,是相關技術將網頁源碼當作字符串或字符串數組進行處理,這一方式本身并不符合網頁的真正結構——樹型結構。因此,相關技術中識別頁面類型的準確性較低。
針對相關技術中識別頁面類型的準確性較低的問題,目前尚未提出有效的解決方案。
發明內容
本申請的主要目的在于提供一種網頁類型的判斷方法及裝置,以解決相關技術中識別頁面類型的準確性較低的問題。
為了實現上述目的,根據本申請的一個方面,提供了一種網頁類型的判斷方法。該方法包括:獲取目標網頁的html源碼;通過html源碼構建節點樹,其中,節點樹由html源碼中多種類型的節點構建;從節點樹中抽取網頁特征,得到網頁特征集合;以及利用網頁特征集合中各個網頁特征對目標網頁的網頁類型進行判斷。
進一步地,通過html源碼構建節點樹包括:從html源碼中抽取目標類型節點;確定目標類型節點的層級結構;基于目標類型節點和層級結構生成待處理節點樹;移除待處理節點樹中不滿足預設條件的目標類型節點;以及在移除待處理節點樹中不滿足預設條件的目標類型節點之后,對待處理節點樹中的目標類型節點進行封裝處理,構建節點樹。
進一步地,從節點樹中抽取網頁特征,得到網頁特征集合包括:對節點樹中的節點進行聚類處理,得到節點聚集集合;在各節點聚集集合中抽取影響判斷網頁類型的網頁特征;通過抽取到的網頁特征組成網頁特征集合。
進一步地,在獲取目標網頁的html源碼之前,該方法還包括:爬取多個網頁并獲取對多個網頁所屬網頁類型進行標記的標記結果;對每個網頁進行處理,獲取每個網頁的網頁特征;根據每個網頁所屬網頁類型的標記結果計算每個網頁特征的分值;對每個網頁特征的分值和每個網頁所屬網頁類型進行訓練,得到分類模型。
進一步地,利用網頁特征集合中各個網頁特征對目標網頁的網頁類型進行判斷包括:獲取網頁特征集合中每個網頁特征的分值;通過分類模型確定每個網頁特征的權重值;根據每個網頁特征的權重值和每個網頁特征的分值計算目標網頁的類型綜合值;以及根據類型綜合值判定目標網頁的網頁類型。
為了實現上述目的,根據本申請的另一方面,提供了一種網頁類型的判斷裝置。該裝置包括:第一獲取單元,用于獲取目標網頁的html源碼;構建單元,用于通過html源碼構建節點樹,其中,節點樹由html源碼中多種類型的節點構建;抽取單元,用于從節點樹中抽取網頁特征,得到網頁特征集合;以及判斷單元,用于利用網頁特征集合中各個網頁特征對目標網頁的網頁類型進行判斷。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京國雙科技有限公司,未經北京國雙科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710227194.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:在BIM模型中快速檢索構件信息的方法
- 下一篇:網頁類型的判斷方法及裝置





