[發明專利]用于識別網站的方法、裝置及服務器有效
| 申請號: | 201710057271.4 | 申請日: | 2017-01-26 |
| 公開(公告)號: | CN106844685B | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 鄒紅建;方高林;付立波 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/953;G06F40/30 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 網站 方法 裝置 服務器 | ||
1.一種用于識別網站的方法,其特征在于,所述方法包括:
獲取待識別網站的網頁集合;
基于網頁中的圖文信息,識別所述網頁集合中的異常網頁,其中,所述異常網頁中的圖片信息與文本信息的相關度小于相關度閾值;
確定識別出的異常網頁在所述網頁集合中的比率;
根據所確定的比率,確定所述待識別網站是否為垃圾網站。
2.根據權利要求1所述的方法,其特征在于,所述基于網頁中的圖文信息,識別所述網頁集合中的異常網頁,包括:
確定待聚簇網頁集合,并利用聚簇算法對所述待聚簇網頁集合中的網頁中的圖片進行聚簇,得到圖片簇,其中,所述待聚簇網頁集合包括所述網頁集合中的網頁和除所述待識別網站之外的其它預設網站的網頁;
確定所述圖片簇中的圖片所屬的網頁;
基于對應文本集合中的異常對應文本,識別所述異常網頁,其中,所述對應文本集合包括所述圖片簇中的圖片所屬的網頁對應的文本,所述異常對應文本與所述對應文本集合中的除所述異常對應文本之外的其它對應文本的語義相似度小于第一語義相似度閾值。
3.根據權利要求2所述的方法,其特征在于,所述基于對應文本集合中的異常文本,識別所述異常網頁,包括:
提取所述圖片簇中的各個圖片所屬的網頁中的文本,生成文本集合;
識別所述文本集合中的異常文本,其中,所述異常文本與所述文本集合中的除所述異常文本之外的其它文本的語義相似度小于第二語義相似度閾值;
響應于識別出的異常文本提取自所述網頁集合中的網頁,將所述異常文本所屬的網頁識別為所述異常網頁。
4.根據權利要求3所述的方法,其特征在于,所述識別所述文本集合中的異常文本,包括:
基于所述文本集合中各個文本之間的語義相似度,對所述各個文本對應的文本特征向量進行聚類運算,得到聚類中心;
確定與所述聚類中心的距離大于預設距離閾值的文本特征向量;
將所確定的文本特征向量對應的文本識別為異常文本。
5.根據權利要求2所述的方法,其特征在于,所述基于對應文本集合中的異常文本,識別所述異常網頁,包括:
對于所確定的每個網頁,解析該網頁并提取該網頁各個文本域中的子文本;
根據文本域對提取的子文本進行劃分,生成多個與文本域相關聯的子文本集合;
對于多個子文本集合中的每個子文本集合,識別該子文本集合中的異常子文本,其中,所述異常子文本與該子文本集合中的除所述異常子文本之外的其它子文本的語義相似度小于第三語義相似度閾值。
6.根據權利要求5所述的方法,其特征在于,所述基于對應文本集合中的異常文本,識別所述異常網頁,還包括:
對于所述網頁集合中每個網頁,確定該網頁中的異常子文本數量與該網頁的文本域總數量的比值,并響應于所述比值大于異常文本域閾值,識別該網頁為異常網頁。
7.根據權利要求2所述的方法,其特征在于,所述基于對應文本集合中的異常文本,識別所述異常網頁,包括:
對于所確定的每個網頁,獲取該網頁作為搜索結果呈現時的搜索式,解析所獲取的搜索式并提取關鍵詞生成搜索文本;
對于包括各個圖片所屬的網頁的搜索文本的搜索文本集合,識別搜索文本集合中的異常搜索文本,其中,所述異常搜索文本與所述搜索文本集合中除所述異常搜索文本之外的其它搜索文本的語義相似度小于第四語義相似度閾值;
響應于識別出的異常搜索文本對應的網頁為所述網頁集合中的網頁,確定識別出的異常搜索文本對應的網頁為所述異常網頁。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710057271.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型垃圾箱
- 下一篇:一種分類垃圾收集裝置





