[發明專利]識別站點同源關系的方法、裝置、設備和計算機存儲介質有效
| 申請號: | 201710442512.7 | 申請日: | 2017-06-13 |
| 公開(公告)號: | CN107451180B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 鄒紅建;方高林;付立波 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 站點 同源 關系 方法 裝置 設備 計算機 存儲 介質 | ||
1.一種識別站點同源關系的方法,其特征在于,所述方法包括:
抓取頁面并進行解析,獲取頁面信息,所述頁面信息包括各頁面的頁面站點與各頁面中各圖片的圖片站點、各頁面的頁面時間與各頁面中各圖片的圖片時間以及各頁面站點的字面名稱與各圖片站點的字面名稱中的至少一種;
統計所獲取的頁面信息,得到對應各頁面站點的熵值與各圖片站點的熵值、各頁面站點與各圖片站點之間的互信息、各頁面站點與各圖片站點的時間差值期望以及各頁面站點的字面名稱與各圖片站點的字面名稱中的至少一個;
根據所述各頁面站點的熵值與各圖片站點的熵值、所述各頁面站點與各圖片站點之間的互信息、所述各頁面站點與各圖片站點的時間差值期望以及所述各頁面站點的字面名稱與各圖片站點的字面名稱中的至少一個,識別具有同源關系的頁面站點以及圖片站點。
2.根據權利要求1所述的方法,其特征在于,所述統計所獲取的頁面信息,得到對應各頁面站點的熵值以及各圖片站點的熵值包括:
根據所述頁面信息中各頁面的頁面站點,對各頁面站點進行聚簇;
根據所述各頁面中圖片的圖片站點,對各圖片站點進行聚簇;
根據所述各頁面站點的聚簇結果,計算得到對應各頁面站點的熵值;
根據所述各圖片站點的聚簇結果,計算得到對應各圖片站點的熵值。
3.根據權利要求2所述的方法,其特征在于,所述根據所述頁面信息中各頁面的頁面站點進行聚簇以及對各頁面中圖片的圖片站點進行聚簇包括:
根據頁面站點對圖片站點進行聚簇,得到各頁面站點所對應的所有頁面中各圖片的圖片站點集合;
根據圖片站點對頁面站點進行聚簇,得到引用各圖片站點的所有頁面的頁面站點集合;
利用所述圖片站點集合計算各頁面站點的熵值;
利用所述頁面站點集合計算各圖片站點的熵值。
4.根據權利要求1所述的方法,其特征在于,所述統計所獲取的頁面信息,得到各頁面站點與各圖片站點的時間差值期望包括:
根據所獲取頁面的頁面信息,獲取各頁面的頁面時間以及頁面中各圖片的圖片時間;
計算各頁面的頁面時間與該頁面中所引用圖片的圖片時間的差值,作為對應各頁面與各圖片的時間差值;
根據所述各頁面與各圖片的時間差值計算各頁面站點與各圖片站點的時間差值期望。
5.根據權利要求4所述的方法,其特征在于,所述頁面中各圖片的圖片時間為:將最早出現該圖片的頁面的頁面時間作為該圖片的圖片時間。
6.根據權利要求1所述的方法,其特征在于,所述根據所述各頁面站點的熵值與各圖片站點的熵值,識別具有同源關系的頁面站點以及圖片站點包括:
若某頁面站點的熵值符合預設熵值要求且該頁面站點對應的某圖片站點的頻率符合預設頻率要求,則確定所述某頁面站點和所述某圖片站點具有同源關系;或者,
若某圖片站點的熵值符合預設熵值要求且該圖片站點對應的某頁面站點的頻率符合預設頻率要求,則確定所述某圖片站點和所述某頁面站點具有同源關系。
7.根據權利要求1所述的方法,其特征在于,所述根據所述各頁面站點與各圖片站點之間的互信息,識別具有同源關系的頁面站點以及圖片站點包括:
計算各頁面站點與各圖片站點之間的互信息;
將所述各頁面站點與各圖片站點之間的互信息與預設閾值進行比較,確定具有同源關系的頁面站點以及圖片站點。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710442512.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:針對增加區塊的整體勘誤的區塊鏈的查詢方法及系統
- 下一篇:頁面渲染方法和裝置





