[發明專利]頁面體裁劃分方法、裝置、可讀存儲介質及電子設備有效
| 申請號: | 201811447611.5 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109726338B | 公開(公告)日: | 2020-01-17 |
| 發明(設計)人: | 張文豪 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/951;G06F16/80 |
| 代理公司: | 11447 北京英創嘉友知識產權代理事務所(普通合伙) | 代理人: | 魏嘉熹;南毅寧 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 分組 內容節點 可讀存儲介質 電子設備 特征路徑 權重 多個頁面 劃分結果 頁面結構 頁面特征 閾值時 預設 | ||
本公開涉及一種頁面體裁劃分方法、裝置、可讀存儲介質及電子設備,所述方法包括:根據頁面URL對多個頁面進行分組;針對每一頁面分組,在當前頁面分組下的頁面數量達到預設的數量閾值時,生成當前頁面分組下的各個頁面對應的dom樹;針對每一頁面分組,根據當前頁面分組下的各個dom樹,確定能夠代表當前頁面分組對應的頁面結構的第一特征路徑,并至少根據所述第一特征路徑確定當前頁面分組中的內容節點;確定所述內容節點的權重;根據內容節點的權重,確定所述當前頁面分組對應的頁面體裁。由此,可以有效避免單頁面特征進行頁面體裁劃分的片面性,有效提高頁面體裁劃分方法的適用范圍,提高頁面體裁劃分結果的準確性。
技術領域
本公開涉及數據處理領域,具體地,涉及一種頁面體裁劃分方法、裝置、可讀存儲介質及電子設備。
背景技術
隨著互聯網技術的快速發展,針對大數據量的頁面的處理尤為重要。現有技術中,可以比較簡單的獲取到頁面的源代碼。然而,在抓取頁面的內容時,通常需要對屬于同一類別的頁面內容進行抓取。而現有技術中通常根據某一頁面的特征確定該頁面的所述類別,其準確性較低。
發明內容
本公開的目的是提供一種可以快速且準確地進行頁面體裁劃分方法、裝置、可讀存儲介質及電子設備。
為了實現上述目的,根據本公開的第一方面,提供一種頁面體裁劃分方法,所述方法包括:
根據頁面URL對多個頁面進行分組,其中,每個頁面分組分別對應于一種頁面結構;
針對每一頁面分組,在當前頁面分組下的頁面數量達到預設的數量閾值時,生成當前頁面分組下的各個頁面對應的dom樹;
針對每一頁面分組,根據當前頁面分組下的各個dom樹,確定能夠代表當前頁面分組對應的頁面結構的第一特征路徑,并至少根據所述第一特征路徑確定當前頁面分組中的內容節點;
確定所述內容節點的權重,其中,所述權重用于表征所述內容節點所包含的信息的變化程度;
根據內容節點的權重,確定所述當前頁面分組對應的頁面體裁。
根據本公開的第二方面,提供一種頁面體裁劃分裝置,所述裝置包括:
分組模塊,用于根據頁面URL對多個頁面進行分組,其中,每個頁面分組分別對應于一種頁面結構;
生成模塊,用于針對每一頁面分組,在當前頁面分組下的頁面數量達到預設的數量閾值時,生成當前頁面分組下的各個頁面對應的dom樹;
第一確定模塊,用于針對每一頁面分組,根據當前頁面分組下的各個dom樹,確定能夠代表當前頁面分組對應的頁面結構的第一特征路徑,并至少根據所述第一特征路徑確定當前頁面分組中的內容節點;
第二確定模塊,用于確定所述內容節點的權重,其中,所述權重用于表征所述內容節點所包含的信息的變化程度;
第三確定模塊,用于根據內容節點的權重,確定所述當前頁面分組對應的頁面體裁。
根據本公開的第三方面,提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現上述第一方面所述方法的步驟。
根據本公開的第四方面,提供一種電子設備,包括:
存儲器,其上存儲有計算機程序;
處理器,用于執行所述存儲器中的所述計算機程序,以實現上述第一方面所述方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811447611.5/2.html,轉載請聲明來源鉆瓜專利網。





