[發(fā)明專利]一種惡意消息云檢測方法和服務器在審
| 申請?zhí)枺?/td> | 201210575781.8 | 申請日: | 2012-12-26 |
| 公開(公告)號: | CN103902889A | 公開(公告)日: | 2014-07-02 |
| 發(fā)明(設(shè)計)人: | 陶思南 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F21/55 | 分類號: | G06F21/55;G06F17/30 |
| 代理公司: | 深圳市深佳知識產(chǎn)權(quán)代理事務所(普通合伙) 44285 | 代理人: | 唐華明 |
| 地址: | 518031 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 惡意 消息 檢測 方法 服務器 | ||
1.一種惡意消息云檢測方法,其特征在于,所述方法包括:
獲取需要鑒別的網(wǎng)頁地址;
從獲取的所述網(wǎng)頁地址中爬取網(wǎng)頁中的數(shù)據(jù);
對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取作為鑒別依據(jù)的數(shù)據(jù);
根據(jù)獲取的作為鑒別依據(jù)的數(shù)據(jù),識別網(wǎng)頁中的消息為惡意消息;
對識別出的惡意消息進行攔截。
2.根據(jù)權(quán)利要求1所述方法,其特征在于,所述從獲取的所述網(wǎng)頁地址中爬取網(wǎng)頁中的數(shù)據(jù),至少可以包括:超文本標記語言文件,客戶端腳本語言文件,文檔對象模型文件,或者層疊樣式表單文件其中任意一種或者任意組合。
3.根據(jù)權(quán)利要求1所述方法,其特征在于,所述對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取作為鑒別依據(jù)的數(shù)據(jù),具體包括:
對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取網(wǎng)頁中消息的超鏈接,獲取消息鏈接指向的頁面的內(nèi)容,通過頁面渲染生成頁面對應的消息效果圖片;
所述根據(jù)獲取的作為鑒別依據(jù)的數(shù)據(jù),識別網(wǎng)頁中的消息為惡意消息,具體包括:
對生成頁面對應的消息效果圖片進行識別,提取消息效果圖片中出現(xiàn)的文字或者物體,與惡意消息圖片庫中的內(nèi)容進行比較,識別出為惡意消息。
4.根據(jù)權(quán)利要求3所述方法,其特征在于,所述提取消息效果圖片中出現(xiàn)的文字,與惡意消息圖片庫中的內(nèi)容進行比較,識別出為惡意消息,具體包括:
提取消息效果圖片中出現(xiàn)的文字,通過貝葉斯分類方法,關(guān)鍵詞模型,或者決策樹方法對所述文字進行判別,判斷頁面為惡意消息頁面。
5.根據(jù)權(quán)利要求1所述方法,其特征在于,所述對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取作為鑒別依據(jù)的數(shù)據(jù),具體包括:
爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取瀏覽器中顯示的頁面圖片;
所述根據(jù)獲取的作為鑒別依據(jù)的數(shù)據(jù),識別網(wǎng)頁中的消息為惡意消息,具體包括:
將該頁面圖片與預先存儲的惡意消息的種子頁面圖片進行相似度的匹配,命中相似度的圖片判定為惡意消息。
6.根據(jù)權(quán)利要求1所述方法,其特征在于,所述對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取作為鑒別依據(jù)的數(shù)據(jù),具體包括:
對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,獲取頁面文字,對頁面文字進行分詞,得到頁面文字的語義信息;
所述根據(jù)獲取的作為鑒別依據(jù)的數(shù)據(jù),識別網(wǎng)頁中的消息為惡意消息,具體包括:
根據(jù)語義信息與預先存儲的惡意消息的語義信息進行對比,判定為惡意消息。
7.根據(jù)權(quán)利要求1所述方法,其特征在于,所述對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取作為鑒別依據(jù)的數(shù)據(jù),具體包括:
爬取網(wǎng)頁中的數(shù)據(jù)進行解析,獲取頁面文字;
根據(jù)獲取的作為鑒別依據(jù)的數(shù)據(jù),識別網(wǎng)頁中的消息為惡意消息,具體包括:
所述將頁面文字與預先存儲的惡意消息的文件內(nèi)容進行相似度匹配,命中相似度的文字判定為惡意消息。
8.根據(jù)權(quán)利要求1所述方法,其特征在于,所述對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取作為鑒別依據(jù)的數(shù)據(jù);具體包括:
對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,獲取消息頁面的文字內(nèi)容;
所述根據(jù)獲取的作為鑒別依據(jù)的數(shù)據(jù),識別網(wǎng)頁中的消息為惡意消息,具體包括:
通過貝葉斯分類方法、關(guān)鍵詞模型、或者決策樹方法,判斷消息頁面的文字內(nèi)容為惡意消息。
9.一種服務器,其特征在于,所述服務器包括:第一獲取單元,爬蟲單元,解析單元,識別單元,和攔截單元;
所述第一獲取單元,用于獲取需要鑒別的網(wǎng)頁地址;
所述爬蟲單元,用于從獲取的所述網(wǎng)頁地址中爬取網(wǎng)頁中的數(shù)據(jù);
所述解析單元,用于對爬取網(wǎng)頁中的數(shù)據(jù)進行解析,以獲取作為鑒別依據(jù)的數(shù)據(jù);
所述識別單元,用于根據(jù)獲取的作為鑒別依據(jù)的數(shù)據(jù),識別網(wǎng)頁中的消息為惡意消息;
所述攔截單元,用于對識別出的惡意消息進行攔截。
10.根據(jù)權(quán)利要求9所述服務器,其特征在于,所述第一獲取單元,具體用于所述從獲取的所述網(wǎng)頁地址中爬取網(wǎng)頁中的數(shù)據(jù),至少可以包括:超文本標記語言文件,客戶端腳本語言文件,文檔對象模型文件,或者層疊樣式表單文件其中任意一種或者任意組合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210575781.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:旋轉(zhuǎn)升降伸縮皮帶機
- 下一篇:推力軸承
- 惡意特征數(shù)據(jù)庫的建立方法、惡意對象檢測方法及其裝置
- 用于檢測惡意鏈接的方法及系統(tǒng)
- 惡意信息識別方法、惡意信息識別裝置及系統(tǒng)
- 主動式移動終端惡意軟件網(wǎng)絡(luò)流量數(shù)據(jù)集獲取方法及系統(tǒng)
- 一種大數(shù)據(jù)告警平臺系統(tǒng)及其方法
- 一種追溯惡意進程的方法、裝置及存儲介質(zhì)
- 一種相似惡意軟件推薦方法、裝置、介質(zhì)和設(shè)備
- 軟件惡意行為檢測方法及系統(tǒng)
- 惡意樣本增強方法、惡意程序檢測方法及對應裝置
- 惡意語音樣本的確定方法、裝置、計算機設(shè)備和存儲介質(zhì)





