[發明專利]一種垃圾消息的識別方法、裝置和系統有效
| 申請號: | 200910131229.8 | 申請日: | 2009-04-10 |
| 公開(公告)號: | CN101534261A | 公開(公告)日: | 2009-09-16 |
| 發明(設計)人: | 張利明;聞波 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;G06F17/30 |
| 代理公司: | 北京挺立專利事務所 | 代理人: | 葉樹明 |
| 地址: | 英屬開曼群島大開曼*** | 國省代碼: | 開曼群島;KY |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 垃圾 消息 識別 方法 裝置 系統 | ||
技術領域
本申請涉及網絡通信技術領域,特別涉及一種垃圾消息的識別方法、裝 置和系統。
背景技術
隨著通信技術的發展,各種通訊系統的發明使用大大方便了用戶之間的 相互交流。兩個或兩個以上的客戶端可以通過通訊網絡進行連接,即時地傳 遞文字、檔案、語音和視頻信息。
然而,在大量的通訊消息中存在著相當一部分無用的、甚至帶有欺騙性 質的垃圾消息,不僅給通訊系統中的服務器增加了額外的負擔,也給處于客 戶端的用戶造成了極其惡劣的影響。用戶接收到垃圾消息后,需要花費大量 的時間用于確認接收到的消息是否有用以及刪除確認無用的垃圾消息,甚至 還會由于大量的垃圾消息的聚集而錯過正常消息的接收,嚴重干擾了用戶之 間的正常交流。同時,大量的垃圾消息也會影響即時通訊系統運營商的信譽, 給網絡監管帶來困難,甚至會使運營商的生產環境短時間內癱瘓,使運營商 蒙受巨額的經濟損失。
現有技術中,通常采用預設的關鍵詞對接收到的通訊消息進行過濾,以 識別垃圾消息,具體步驟包括:首先,通過對大量的垃圾消息的分析,總結 垃圾消息中常用到的一些關鍵詞,組成關鍵詞庫,放置到即時通訊系統服務 器或客戶端中,關鍵詞可以是“中獎”、“服裝大甩賣”、“匯款”、“轉 讓”等詞語,在很大程度上表明該信息是以宣傳、廣告、詐騙等為目的的垃 圾信息;其次,接收到通訊消息后,提取該通訊消息的消息內容,以供查驗; 最后,對照關鍵詞庫,查驗接收到的通訊消息的信息內容中是否含有關鍵詞 庫內存儲的關鍵詞,如果該消息內容中含有關鍵詞,則判定該通訊消息為垃 圾消息,對該通訊消息進行丟棄;如果該消息內容中不含有關鍵詞,則判定 該通訊消息為正常消息。
另外,還采用預設的正則表達式(regular?expression)對接收到的通訊消 息的消息內容中的某種格式進行匹配,以識別垃圾消息。正則表達式描述了 一種字符串匹配的模式,可以用于檢查一個字符串是否含有某種子字符串、 將匹配的子字符串做替換或者從某個字符串中取出符合某個條件的子字符串 等。正則表達式判斷消息內容中是否存在匹配的關鍵特征,如網址、電話號 碼、即時通訊聯系號碼等信息,如果消息內容中存在匹配的關鍵特征,則判 定該通訊消息為垃圾消息。
現有技術也可以對上述兩種識別垃圾消息的方法進行組合,綜合使用預 設的關鍵詞和正則表達式,過濾接收到的通訊消息,以識別垃圾消息。
在實現本申請的過程中,發明人發現現有技術至少存在以下問題:
現有技術中,通過對消息內容進行規則匹配識別垃圾消息,識別的準確 率取決于關鍵詞和正則表達式的設定是否合適。關鍵詞和正則表達式一般是 根據經驗設定或者從已經標記為垃圾消息的消息中選取,具有一定的隨意性, 無法識別不在關鍵詞范圍內或關鍵詞出現頻率較低的垃圾消息。而符合垃圾 消息的部分特征、但不屬于垃圾消息的消息,卻容易被誤判為垃圾消息。例 如,某些垃圾消息中包含“視頻聊天”的詞語,如果把“視頻聊天”設定為 關鍵詞來識別垃圾消息,則用戶希望邀請其他人進行視頻聊天的、包含“視 頻聊天”的正常消息就會被誤判為垃圾消息。因此,現有的垃圾消息的識別 方法,僅僅對消息內容進行機械式的識別,沒有考慮到消息發送的場景,對 垃圾消息的識別結果存在很大的誤判率和漏判率。
發明內容
本申請提供一種垃圾消息的識別方法、裝置和系統,提高了識別垃圾消 息的準確率。
本申請提供一種垃圾消息的識別方法,包括:
提取通訊消息中的發送方信息;
根據所述提取的發送方信息,判斷所述通訊消息的發送方是否為可預期 發送方,如果所述通訊消息的發送方不是所述可預期發送方,則識別所述通 訊消息為垃圾消息,或繼續對所述通訊消息進行識別。
本申請還提供一種通訊設備,包括:
提取模塊,用于提取通訊消息中的發送方信息;
第一判斷模塊,用于根據所述提取模塊提取的發送方信息,判斷所述通 訊消息的發送方是否為可預期發送方;
識別模塊,用于在所述第一判斷模塊判斷所述通訊消息的發送方不是所 述可預期發送方時,識別所述通訊消息為垃圾消息,或繼續對所述通訊消息 進行識別。
本申請還提供一種通訊系統,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910131229.8/2.html,轉載請聲明來源鉆瓜專利網。





