[發明專利]一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法及系統無效
| 申請號: | 200810044485.9 | 申請日: | 2008-05-30 |
| 公開(公告)號: | CN101594313A | 公開(公告)日: | 2009-12-02 |
| 發明(設計)人: | 程紅蓉;何興高;曾志華;周俊怡;劉偉;黨建軍 | 申請(專利權)人: | 電子科技大學 |
| 主分類號: | H04L12/58 | 分類號: | H04L12/58;H04L9/36 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610054四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 潛在 語義 索引 垃圾郵件 判斷 分類 過濾 方法 系統 | ||
1、一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法及系統,其特征在于,包括:中文和英文分詞;詞語--文檔矩陣生成;權重計算;詞語文檔矩陣奇異值分解;語義空間更新;將文本郵件映射到潛在語義空間;語義空間中文檔向量之間的相似度計算;對待判斷的郵件進行判斷、分類、過濾。
2、如權利要求1所述的一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法,其特征在于,所述中英文分詞包括:英文郵件分詞根據郵件內容中英文單詞之間的空格或空格來分,分成一個一個的單詞后,并且過濾掉一些沒有意義的詞語,保存到一個hash鏈表中。將中文郵件體的內容進行一些預處理,去掉一些沒有用的詞語。將中文文本郵件內容提取出來,先進行分句處理,再進行分詞處理。
3、如權利要求1所述的一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法,其特征在于,所述詞語--文檔矩陣包括:收集到的文本郵件訓練集合中的所有出現的詞語對應Termi,文檔郵件集中的每一份郵件對應docj,這樣就生成了詞語--文檔矩陣。
4、如權利要求1所述的一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法,所述詞語-文檔矩陣添加權重包括:詞語局部權重(LW(i,j));詞語全局權重GWT(i);文檔全局權重GWD(j);三種權重計算公式相乘作為詞語的總的權重。
5、如權利要求1所述的一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法,所述對加權重后的詞語-文檔矩陣做奇異值分解包括:經過奇異值分解方法(SVD)處理后,可以把矩陣(Dd×n)T和對角矩陣Sn×n的乘積生成新的矩陣的行視為代表文檔的向量,即文檔空間。同樣把矩陣Tt×n和對角矩陣Sn×n的乘積生成新的矩陣的列視為代表詞語的向量,即詞語空間。通常把上述文檔空間、詞語空間統稱為潛在語義空間(LSA?Space)。
6、如權利要求1所述的一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法,所述潛在語義空間的更新方法包括:利用數學條件分布公式,可以在之前訓練集合中已經生成的潛在語義空間的基礎上生成新的潛在語義空間,實現語義空間的實時、快速、準確更新。
7、如權利要求1所述的一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法,所述將文本郵件映射到潛在語義空間包括:使未參與SVD的文檔能以低維向量的表現形式參與與其它文檔的相關度對比;潛在語義空間中的文本郵件的語義是通過它與同一潛在予以空間中的其它文本郵件文檔之間的相關性呈現出來的;利用余弦相關度的計算公式計算郵件文檔之間的相關度。
8、如權利要求1所述的一種基于潛在語義索引的垃圾郵件判斷、分類、過濾方法,所述對待判斷的郵件進行判斷、分類、過濾包括:選取正常郵件和垃圾郵件文本相關度之中最大的一個,待判斷的郵件與正常郵件的相關度大,就表明待判斷的郵件更像是正常郵件;與垃圾郵件的相關度大,就表明待判斷的郵件更像是垃圾郵件。選取正常郵件和垃圾郵件文本相關度之中最大的前r個最大值。分別計算正常郵件相關度和垃圾郵件相關度最大值之間的數學期望,得到數學期望值,根據數學期望值來判斷待判斷的郵件是正常郵件還是垃圾郵件。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于電子科技大學,未經電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810044485.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:移動設備管理代理系統
- 下一篇:通風法防凍雨輸電導線





