[發明專利]頁面體裁劃分方法、裝置、可讀存儲介質及電子設備有效
| 申請號: | 201811447611.5 | 申請日: | 2018-11-29 |
| 公開(公告)號: | CN109726338B | 公開(公告)日: | 2020-01-17 |
| 發明(設計)人: | 張文豪 | 申請(專利權)人: | 北京字節跳動網絡技術有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/951;G06F16/80 |
| 代理公司: | 11447 北京英創嘉友知識產權代理事務所(普通合伙) | 代理人: | 魏嘉熹;南毅寧 |
| 地址: | 100041 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 頁面 分組 內容節點 可讀存儲介質 電子設備 特征路徑 權重 多個頁面 劃分結果 頁面結構 頁面特征 閾值時 預設 | ||
1.一種頁面體裁劃分方法,其特征在于,所述方法包括:
根據頁面URL對多個頁面進行分組,其中,每個頁面分組分別對應于一種頁面結構;
針對每一頁面分組,在當前頁面分組下的頁面數量達到預設的數量閾值時,生成當前頁面分組下的各個頁面對應的dom樹;
針對每一頁面分組,根據當前頁面分組下的各個dom樹,確定能夠代表當前頁面分組對應的頁面結構的第一特征路徑,并至少根據所述第一特征路徑確定當前頁面分組中的內容節點;
確定所述內容節點的權重,其中,所述權重用于表征所述內容節點所包含的信息的變化程度;
根據內容節點的權重,確定所述當前頁面分組對應的頁面體裁;
其中,所述根據當前頁面分組下的各個dom樹,確定能夠代表當前頁面分組對應的頁面結構的第一特征路徑,包括以下中的至少一者:
將在不同dom樹中具有相同文本和路徑的節點分為一組,當該組節點中的節點數量與當前頁面分組下的dom樹總數的比值超過第一閾值時,將該組節點中的每個節點在所屬dom樹中的路徑進行合并,獲得所述第一特征路徑;
將在所屬dom樹中只出現一次,且在不同dom樹中具有相同標簽屬性和路徑的節點分為一組,當該組節點中的節點數量與當前頁面分組下的dom樹總數的比值超過第一閾值時,將該組節點中的每個節點在所屬dom樹中的路徑進行合并,獲得所述第一特征路徑;
將在所屬dom樹中只出現一次,且在不同dom樹中具有相同標簽屬性和路徑的節點子網分為一組,當該組節點子網中的節點子網數量與當前頁面分組下的dom樹總數的比值超過第一閾值時,將該組節點子網中的每個節點子網在所屬dom樹中的路徑進行合并,獲得所述第一特征路徑。
2.根據權利要求1所述的方法,其特征在于,所述內容節點的權重至少包括所述內容節點對應的文本權重;
通過以下公式確定所述內容節點的文本權重:
其中,Pweight表示所述內容節點的文本權重;
variability表示所述內容節點的文本變化度,其中,所述內容節點對應的文本為包含該內容節點的路徑上對應的同級節點的文本的集合,所述文本變化度為該文本的集合中不同文本的個數與當前頁面分組下包含該內容節點的dom樹的總數的比值;
length表示所述內容節點的文本平均長度;
Cweighti表示所述內容節點的第i個子節點的文本權重;
n表示所述內容節點的子節點的總個數;
α表示預設系數,其中,α的取值范圍為(0.5,1)。
3.根據權利要求1所述的方法,其特征在于,在確定出所述第一特征路徑之后,所述方法還包括:
將所述第一特征路徑上的至少一個節點分別作為目標節點,執行如下操作:
確定當前頁面分組下包括該目標節點且該目標節點在其中具有子節點的dom樹為目標dom樹;
當所述目標dom樹為多個時,從多個所述目標dom樹中的各條候選路徑中,根據候選路徑的子節點之間的相似度參數,確定能夠被合并的候選路徑,并對確定出的能夠被合并的候選路徑進行合并,獲得第二特征路徑,其中,所述候選路徑為所述目標dom樹中,所述目標節點與該目標節點的一個子節點形成的路徑;
所述至少根據所述第一特征路徑確定當前頁面分組中的內容節點,包括:
根據所述第一特征路徑和所述第二特征路徑,確定當前頁面分組中的內容節點。
4.根據權利要求1所述的方法,其特征在于,所述權重至少包括文本權重;
所述根據內容節點的權重,確定所述當前頁面分組對應的頁面體裁,包括:
根據所述內容節點的權重,確定所述內容節點的類型,其中,所述類型至少包括第一類型和第二類型,所述第一類型的內容節點的文本權重大于預設的第一權重閾值,第二類型的內容節點的文本權重小于預設的第二權重閾值,所述第二權重閾值小于所述第一權重閾值;
根據所述內容節點的類型確定所述當前頁面分組對應的頁面體裁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京字節跳動網絡技術有限公司,未經北京字節跳動網絡技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811447611.5/1.html,轉載請聲明來源鉆瓜專利網。





