[發明專利]垃圾錨文本識別方法及裝置有效
| 申請號: | 201310529335.8 | 申請日: | 2013-10-30 |
| 公開(公告)號: | CN104598460B | 公開(公告)日: | 2018-11-02 |
| 發明(設計)人: | 付昭 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海波拓知識產權代理有限公司 31264 | 代理人: | 王春麗 |
| 地址: | 518044 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 垃圾 文本 識別 方法 裝置 | ||
1.一種垃圾錨文本識別方法,其特征在于,所述垃圾錨文本識別方法,包括:
接收輸入的待測錨文本,根據所述待測錨文本獲取所述待測錨文本所指向的網頁;
判斷所述待測錨文本所指向的網頁是否是政府類網站的網頁或教育類網站的網頁;
若所述待測錨文本所指向的網頁是政府類網站的網頁或教育類網站的網頁,所述待測錨文本含有垃圾詞匯并且所述待測錨文本不含有機構名稱,則將所述待測錨文本識別為垃圾錨文本。
2.根據權利要求1所述的垃圾錨文本識別方法,其特征在于,所述垃圾詞匯包括游戲類詞匯、色情類詞匯、繳費充值類詞匯、廣告類詞匯中的至少一個,所述機構包括行政機構、企事業機構中的至少一個。
3.根據權利要求1所述的垃圾錨文本識別方法,其特征在于,判斷所述待測錨文本所指向的網頁是否是政府類網站的網頁或教育類網站的網頁之后,還包括:
若所述待測錨文本所指向的網頁不是政府類網站的網頁或教育類網站的網頁,則判斷所述待測錨文本所指向的網頁是否是權威網站的網頁;
若所述待測錨文本所指向的網頁是權威網站的網頁,則將所述待測錨文本識別為正常錨文本;
若所述待測錨文本所指向的網頁不是權威網站的網頁,則判斷所述待測錨文本是否含有機構名稱;
若所述待測錨文本含有機構名稱,則將所述待測錨文本識別為正常錨文本;
若所述待測錨文本不含有機構名稱,則判斷所述待測錨文本是否含有品牌詞;
若所述待測錨文本含有品牌詞,并且所述待測錨文本所指向的網頁網址的頂級域名與待測錨文本含有的品牌詞對應的品牌網網址的頂級域名不相同,則將所述待測錨文本識別為垃圾錨文本。
4.根據權利要求1所述的垃圾錨文本識別方法,其特征在于,還包括:
得到所述待測錨文本的所有父鏈及所述所有父鏈的個數,得到所述所有父鏈中屬于垃圾網址的個數;
根據所述所有父鏈的個數和所述所有父鏈中屬于垃圾網址的個數計算出所述所有父鏈中屬于垃圾網址的個數占所述所有父鏈的個數的比例,判斷所述比例是否大于一預設值;
若所述比例大于所述預設值,則將所述待測錨文本識別為垃圾錨文本。
5.根據權利要求1、3、4中任一項所述的垃圾錨文本識別方法,其特征在于,還包括:
將垃圾錨文本的權重設置為零或設置為小于一設定值。
6.一種垃圾錨文本識別裝置,其特征在于,所述垃圾錨文本識別裝置,包括:
接收模塊,用于接收輸入的待測錨文本,根據所述待測錨文本獲取所述待測錨文本所指向的網頁;
判斷模塊,用于判斷所述待測錨文本所指向的網頁是否是政府類網站的網頁或教育類網站的網頁;
第一垃圾錨識別模塊,用于若所述待測錨文本所指向的網頁是政府類網站的網頁或教育類網站的網頁,所述待測錨文本含有垃圾詞匯并且所述待測錨文本不含有機構名稱,則將所述待測錨文本識別為垃圾錨文本。
7.根據權利要求6所述的垃圾錨文本識別裝置,其特征在于,所述垃圾詞匯包括游戲類詞匯、色情類詞匯、繳費充值類詞匯中的至少一個,所述機構包括行政機構、企事業機構中的至少一個。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310529335.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:基于分布式文件系統的分級存儲方法及系統
- 下一篇:分布式共享內存系統





