[發明專利]一種樣本數據獲取方法、裝置及系統有效
| 申請號: | 201410130898.4 | 申請日: | 2014-04-02 |
| 公開(公告)號: | CN103942282B | 公開(公告)日: | 2018-01-02 |
| 發明(設計)人: | 葉森 | 申請(專利權)人: | 新浪網技術(中國)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04L12/58 |
| 代理公司: | 北京同達信恒知識產權代理有限公司11291 | 代理人: | 郭潤湘 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 數據 獲取 方法 裝置 系統 | ||
技術領域
本發明涉及互聯網通信領域,尤其涉及一種樣本數據獲取方法、裝置及系統。
背景技術
隨著互聯網技術的快速發展,電子郵件以方便、快速的優點成為提供信息交換的一種重要通信方式。用戶可以通過電子郵件傳送信件、資料等各種信息,還可以得到大量免費的新聞、專題郵件等。電子郵件的快速傳播以及信息多樣化的特點也成為了一些商家或個人宣傳產品、服務或傳播各種商業信息的手段,隨之便出現了垃圾郵件,即在未經用戶許可的情況下,強行批量發送到用戶郵箱中的電子郵件。如果垃圾郵件帶有攻擊性和破壞性,不僅對個人電腦的系統安全構成威脅,同樣對郵件服務器也造成威脅。隨著垃圾郵件的問題日益嚴重,反垃圾郵件技術應運而生,實現對垃圾郵件的有效過濾。
在對垃圾郵件進行過濾之前,首先要采集垃圾郵件的樣本數據。現有的垃圾郵件樣本數據獲取方式主要為:用戶在查看郵件時,當查收到批量推送的廣告、電子雜志或連環信等郵件時,如果用戶不感興趣,會將這些郵件標記為垃圾郵件,后臺的工作人員通過查看用戶已標記的垃圾郵件,判斷已標記的垃圾郵件是否為真正的垃圾郵件,通過服務器將判斷后的垃圾郵件的郵件數據信息存儲到數據庫中,作為垃圾郵件樣本數據,郵件數據信息包括郵件的發件人、標題、內容關鍵字、來源地址等信息。
上述垃圾郵件樣本數據的獲取方法中,如果用戶在收到垃圾郵件一段時間之后才登錄郵箱,對垃圾郵件進行標記,推送垃圾郵件不及時,不能滿足對收集垃圾郵件的數量大的要求,并且由人工參與垃圾郵件樣本數據的獲取,使得垃圾郵件樣本數據獲取效率低。
發明內容
本發明實施例提供一種樣本數據獲取方法、裝置及系統,用以解決現有技術中存在的垃圾郵件樣本數據獲取效率低的問題。
本發明實施例提供一種樣本數據獲取方法,包括:
搜索服務器接收郵箱服務器收發郵件過程中提取的待收發郵件的郵件信息,所述郵件信息為表征所述待收發郵件關鍵屬性的信息;
針對每個待收發郵件的郵件信息,為該待收發郵件分配索引標識,并將分配的索引標識與對應的至少一個郵件信息的對應關系存儲到索引數據庫中;
按照預設的匹配規則,從所述索引數據庫中確定與預設的垃圾郵件關鍵屬性信息匹配的郵件信息,作為垃圾郵件樣本數據。
采用本發明實施例提供的上述方法,由于搜索服務器將郵箱服務器發送的待收發郵件的郵件信息存儲在索引數據庫中,根據不同的需求按照預設的匹配規則可以在該索引數據庫中自動獲取想要的垃圾郵件樣本數據,不需要人工參與垃圾郵件樣本的分撿,提高了垃圾郵件樣本數據的獲取效率。
進一步的,所述垃圾郵件關鍵屬性信息為垃圾郵件關鍵字;
所述按照預設的匹配規則,從所述索引數據庫中確定與預設的垃圾郵件關鍵屬性信息匹配的郵件信息,作為垃圾郵件樣本數據,具體包括:
在所述索引數據庫中查找與所述垃圾郵件關鍵字相同的郵件信息;
將查找到的郵件信息所屬郵件的索引標識對應的所有郵件信息,確定為垃圾郵件樣本數據。
進一步的,所述預設垃圾郵件關鍵屬性信息為多個垃圾郵件來源地址;
所述按照預設的匹配規則,從所述索引數據庫中確定與預設的垃圾郵件關鍵屬性信息匹配的郵件信息,作為垃圾郵件樣本數據,具體包括:
統計多個垃圾郵件來源地址各自在所述索引數據庫中所屬郵件的郵件數量;
將所述郵件數量大于預設閾值的垃圾郵件來源地址所屬郵件的索引標識對應的所有郵件信息,確定為垃圾郵件樣本數據。
進一步的,所述按照預設的匹配規則,從所述索引數據庫中確定與預設的垃圾郵件關鍵屬性信息匹配的郵件信息,具體包括:
使用搜索應用程序編程接口API調用所述索引數據庫,并按照預設的匹配規則從所述索引數據庫的郵件信息中,確定與預設的垃圾郵件關鍵屬性信息匹配的郵件信息。
進一步的,所述待收發郵件的郵件信息包括待收發郵件的郵件標題、郵件發件人地址、郵件內容關鍵字中的至少一個信息。
本發明實施例提供一種樣本數據獲取裝置,包括:
接收單元,用于接收郵箱服務器收發郵件過程中提取的待收發郵件的郵件信息,所述郵件信息為表征所述待收發郵件關鍵屬性的信息;
存儲單元,用于用于針對每個待收發郵件的所述郵件信息,為該待收發郵件分配索引標識,并將分配的索引標識與對應的至少一個郵件信息的對應關系存儲到索引數據庫中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新浪網技術(中國)有限公司,未經新浪網技術(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410130898.4/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





