[發明專利]識別站點同源關系的方法、裝置、設備和計算機存儲介質有效
| 申請號: | 201710442512.7 | 申請日: | 2017-06-13 |
| 公開(公告)號: | CN107451180B | 公開(公告)日: | 2021-02-19 |
| 發明(設計)人: | 鄒紅建;方高林;付立波 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953 |
| 代理公司: | 北京鴻德海業知識產權代理有限公司 11412 | 代理人: | 袁媛 |
| 地址: | 100085 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 識別 站點 同源 關系 方法 裝置 設備 計算機 存儲 介質 | ||
本發明提供一種識別站點同源關系的方法、裝置、設備和計算機存儲介質,識別站點同源關系的方法包括:抓取頁面并進行解析,獲取頁面信息;統計所獲取的頁面信息,得到對應各頁面站點的熵值與各圖片站點的熵值、各頁面站點與各圖片站點之間的互信息、各頁面站點與各圖片站點的時間差值期望以及各頁面站點與各圖片站點的字面名稱中的至少一個;根據所述各頁面站點的熵值與各圖片站點的熵值、所述各頁面站點與各圖片站點之間的互信息、所述各頁面站點與各圖片站點的時間差值期望以及所述各頁面站點與各圖片站點的字面名稱中的至少一個,識別具有同源關系的頁面站點以及圖片站點。本發明能夠識別站點同源關系,并能夠提高識別的準確率。
【技術領域】
本發明涉及互聯網技術領域,尤其涉及一種識別站點同源關系的方法、裝置、設備和計算機存儲介質。
【背景技術】
信息檢索(Information Retrieval)是指從信息資源的集合中查找所需文獻或查找所需文獻中包含的信息內容的過程。圖片搜索引擎(Image Search Engine)就是用于查找互聯網圖片信息的信息檢索工具。搜索引擎讓人們從海量資源中獲取信息變得便捷。隨著社會發展和技術進步,網絡上的圖片資源尤其是高清圖片越來越豐富,大部分頁面都包含一張或多張圖片。在其他條件相同的情況下,圖片和頁面來自同一站點,用戶體驗較好,也減少了引用外部站點圖片出現死鏈的風險。
識別站點同源關系時,最基本的方法是字符串匹配,即對頁面和圖片的來源站點的名稱進行字符串比較。這種方法只能解決站點名稱字面相同的站點同源關系。針對站點名稱字面不同的情況,還可以人工收集并維護站點同源關系列表,該關系列表單純根據字面匹配,對站點名稱字面不同的站點同源關系無法召回。當前網絡發展日新月異,通過人工收集整理的方法,費時費力,且不能保證召回。因此,識別頁面站點與圖片站點之間是否具有同源關系具有很重要的現實意義。
【發明內容】
有鑒于此,本發明提供了一種識別站點同源關系的方法、裝置、設備和計算機存儲介質,用于識別具體同源關系的頁面站點以及圖片站點,并提高了站點同源關系識別的準確率。
本發明為解決技術問題而采用的技術方案是提供一種識別站點同源關系的方法,所述方法包括:抓取頁面并進行解析,獲取頁面信息;統計所獲取的頁面信息,得到對應各頁面站點的熵值與各圖片站點的熵值、各頁面站點與各圖片站點之間的互信息、各頁面站點與各圖片站點的時間差值期望以及各頁面站點的字面名稱與各圖片站點的字面名稱中的至少一個;根據所述各頁面站點的熵值與各圖片站點的熵值、所述各頁面站點與各圖片站點之間的互信息、所述各頁面站點與各圖片站點的時間差值期望以及所述各頁面站點的字面名稱與各圖片站點的字面名稱中的至少一個,識別具有同源關系的頁面站點以及圖片站點
根據本發明一優選實施例,所述頁面信息包括以下至少一種:各頁面的頁面站點與各頁面中各圖片的圖片站點,各頁面的頁面時間與各頁面中各圖片的圖片時間,各頁面站點的字面名稱與各圖片站點的字面名稱。
根據本發明一優選實施例,所述對所獲取的頁面信息進行統計,得到對應各頁面站點的熵值以及各圖片站點的熵值包括:根據所述頁面信息中各頁面的頁面站點,對各頁面站點進行聚簇;根據所述各頁面中圖片的圖片站點,對各圖片站點進行聚簇;根據所述各頁面站點的聚簇結果,計算得到對應各頁面站點的熵值;根據所述各圖片站點的聚簇結果,計算得到對應各圖片站點的熵值。
根據本發明一優選實施例,所述根據所述頁面信息中各頁面的頁面站點以及各頁面中圖片的圖片站點,對各頁面站點以及各圖片站點進行聚簇包括:根據頁面站點對圖片站點進行聚簇,得到各頁面站點所對應的所有頁面中各圖片的圖片站點集合;根據圖片站點對頁面站點進行聚簇,得到引用各圖片站點的所有頁面的頁面站點集合;利用所述圖片站點集合計算各頁面站點的熵值;利用所述頁面站點集合計算各圖片站點的熵值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710442512.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:針對增加區塊的整體勘誤的區塊鏈的查詢方法及系統
- 下一篇:頁面渲染方法和裝置





