[發明專利]用于生成多個頁面所對應的頁面結構模板的方法和設備有效
| 申請號: | 201210244912.4 | 申請日: | 2012-07-13 |
| 公開(公告)號: | CN103544176B | 公開(公告)日: | 2018-08-10 |
| 發明(設計)人: | 李楠;張建榮 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京漢昊知識產權代理事務所(普通合伙) 11370 | 代理人: | 羅朋;周建華 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 生成 頁面 對應 結構 模板 方法 設備 | ||
本發明的目的是提供一種用于生成多個頁面所對應的頁面結構模板的生成設備。具體地,獲取多個訓練頁面;根據所述訓練頁面的頁面結構特征,對所述多個訓練頁面進行聚類處理,以獲得相應的頁面簇;根據所述頁面簇中所包括的所述訓練頁面,確定所述頁面簇所對應的頁面公共樹;識別所述頁面公共樹中節點的節點屬性信息,以獲得與所述頁面簇相對應的頁面結構模板。與現有技術相比,本發明通過根據訓練頁面的頁面結構特征,對多個訓練頁面進行聚類,獲得相應的頁面簇,確定頁面簇所對應的頁面公共樹,進而通過識別頁面公共樹中節點的節點屬性信息來生成相應頁面結構模板,提高了提取頁面信息的效率和頁面結構模板的穩定性,進一步提升了用戶的瀏覽體驗。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種用于生成多個頁面所對應的頁面結構模板的技術。
背景技術
互聯網的飛速發展為人們提供了大量的信息和資源,人們通常利用搜索引擎從海量互聯網信息中進行信息搜索,通常,搜索引擎將經網絡爬蟲抓取到的數據按一定模板展現在網頁中,用戶通過用戶終端便可進行瀏覽。然而,當用戶使用用戶終端進行網頁瀏覽時,現有的通過為每個頁面單獨配置模板以提取網頁中符合需要的主體內容和網頁元素,來獲得適合用戶終端展現的頁面。但當原始頁面的樣式布局發生變化時,需重新為該原始頁面重新配置模板,原來配置的模板穩定性差,不僅浪費了大量人力物力,而且還降低了提取頁面信息的效率,影響了用戶的瀏覽體驗。
發明內容
本發明的目的是提供一種用于生成多個頁面所對應的頁面結構模板的方法與設備。
根據本發明的一個方面,提供了一種用于生成多個頁面所對應的頁面結構模板的方法,該方法包括以下步驟:
a獲取多個訓練頁面;
b根據所述訓練頁面的頁面結構特征,對所述多個訓練頁面進行聚類處理,以獲得與所述多個訓練頁面相對應的一個或多個頁面簇,其中,所述頁面簇至少包括一個所述訓練頁面;
c根據所述頁面簇中所包括的所述訓練頁面,確定所述頁面簇所對應的頁面公共樹,其中,所述頁面公共樹包含于所述頁面簇中的每一個訓練頁面;
d識別所述頁面公共樹中節點的節點屬性信息,以獲得與所述頁面簇相對應的頁面結構模板。
根據本發明的另一方面,還提供了一種用于生成多個頁面所對應的頁面結構模板的生成設備,該生成設備包括:
頁面獲取裝置,用于獲取多個訓練頁面;
聚類裝置,用于根據所述訓練頁面的頁面結構特征,對所述多個訓練頁面進行聚類處理,以獲得與所述多個訓練頁面相對應的一個或多個頁面簇,其中,所述頁面簇至少包括一個所述訓練頁面;
公共樹確定裝置,用于根據所述頁面簇中所包括的所述訓練頁面,確定所述頁面簇所對應的頁面公共樹,其中,所述頁面公共樹包含于所述頁面簇中的每一個訓練頁面;
模板確定裝置,用于識別所述頁面公共樹中節點的節點屬性信息,以獲得與所述頁面簇相對應的頁面結構模板。
根據本發明的又一個方面,還提供了一種搜索引擎,包括如前述根據本發明另一個方面的用于生成多個頁面所對應的頁面結構模板的生成設備。
根據本發明的再一個方面,還提供了一種搜索引擎插件,包括如前述根據本發明另一個方面的用于生成多個頁面所對應的頁面結構模板的生成設備。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210244912.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種苔干風味食品的制備方法
- 下一篇:機械鐘表的游絲





