[發明專利]一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法及系統無效
| 申請號: | 200810044485.9 | 申請日: | 2008-05-30 |
| 公開(公告)號: | CN101594313A | 公開(公告)日: | 2009-12-02 |
| 發明(設計)人: | 程紅蓉;何興高;曾志華;周俊怡;劉偉;黨建軍 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L9/36 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 潛在 語義 索引 垃圾郵件 判斷 分類 過濾 方法 系統 | ||
技術領域
本發明涉及互聯網技術,具體涉及一種垃圾郵件過濾的技術及系統。
背景技術
隨著互聯網的快速發展,電子郵件已經成為人們在日常生活中信息交互的重要工具。與此同時,垃圾郵件在網絡上也逐漸呈現泛濫之勢。大量的商業郵件、政治宣傳郵件在沒有得到用戶許可的情況下發送到用戶的郵箱中,耗費了大量的網絡資源、增加了用戶的使用成本。尤其近年來通過電子郵件傳播計算機病毒的情況不斷出現,更是增加了垃圾郵件的危害性。中國互聯網協會負責人表示,根據有關統計調查,我國網民平均每周收到16封電子郵件,其中垃圾郵件占8.3封,垃圾郵件數量已經與正常郵件數量相當,并大有超過正常郵件的趨勢。
目前基于內容的垃圾郵件過濾主要包括基于規則的方法和基于概率統計的方法。基于規則的方法主要有決策樹方法、粗糙集(Rough?Sets)方法。基于規則的方法通過訓練得到顯式規則。規則方法學習的過程實際上是歸納總結的過程,通過考查一個個的訓練樣本,歸納總結出其中規律性的東西來形成規則。規則方法的主要優點是可以生成人類理解的規則。缺點是在規律性不明顯的應用領域效果較差。基于統計的方法主要有Bayes統計方法和支持向量機(Support?Vector?Machine,簡稱SVM)
目前大多數反垃圾郵件所使用的技術都是“靜態”的,也就是說只需把信息做少許改變就很容易避過這些反垃圾郵件軟件。為了更有力地抗擊垃圾郵件,我們需要一種可以自適應的新技術。這種技術必須能夠適應垃圾郵件制造者不斷變化的策略。它同樣也應適合對垃圾郵件進行保護的特殊組織。基于潛在語義索引的實時分類垃圾郵件技,具有智能學習功能,在過濾垃圾郵件方面能表現出高準確率和高速度。
發明內容
本發明實施例的目的是提供一種基于潛在語義索引垃圾郵件過濾垃圾郵件的技術、方法及系統。使用基于潛在語義索引的垃圾郵件過濾技術能夠很好的判斷、分類、過濾垃圾郵件。
為了解決現有技術存在的問題,本發明的實施方式提出了一種基于潛在語義索引的垃圾郵件過濾方法和系統,該系統分成兩個子系統:潛在語義空間生成系統和郵件判斷、分類、過濾系統
(一)潛在語義空間生成系統的步驟包括:
1、中文和英文分詞模塊;
2、詞語文檔矩陣生成模塊;
3、權重計算模塊;
4、詞語文檔矩陣奇異值分解模塊;
5、語義空間更新模塊。
(二)郵件判斷、分類、過濾系統的步驟包括:
1、待判斷的郵件中文和英文分詞模塊;
2、將文本郵件映射到潛在語義空間;
3、語義空間中文檔向量之間的相似度計算;
4、根據相似度判斷、分類、過濾郵件。
從本發明實施例提供的以上技術方案可以看出,本發明實施例通過訓練已知的正常或者垃圾郵件集,生成潛在語義空間。并且隨著時間的推移,收集到的更多更好的郵件集之后通過某種算法實現及時的更新。不斷更新的語義空間更加能夠判斷垃圾郵件,保證潛在語義空間的實時性。
附圖說明
圖1為本發明潛在語義空間生成系統。
圖2為本發明潛在語義判斷、分類、過濾垃圾郵件郵件系統。
具體實施方式
為使本發明的目的、技術方案、及優點更加清楚明白,以下參照附圖并舉實施例,對本發明進一步詳細說明。
如圖1所示,本發明為潛在語義空間生成系統,它的具體流程包括:
步驟101、對于收到的郵件內容分詞
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810044485.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移動設備管理代理系統
- 下一篇:通風法防凍雨輸電導線





