[發明專利]面向垃圾短信分類的離線模型改進與選擇方法有效
| 申請號: | 201710409006.8 | 申請日: | 2017-06-02 |
| 公開(公告)號: | CN107256245B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 毛鶯池;齊海;賈必聰;李曉芳;平萍;徐淑芳 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 垃圾 短信 分類 離線 模型 改進 選擇 方法 | ||
1.一種面向垃圾短信分類的離線模型改進與選擇方法,其特征在于,包括以下步驟:
(1)特征選擇與擴展,使用特征選擇方法選擇特征,構造特征詞向量,使用特征詞向量模型表示原始短信文本,具體步驟為:
(1.1)基于統計閾值和平均信息增益的頻繁詞特征選擇,閾值是可調參數,根據閾值選擇頻繁詞作為特征詞集,根據特征詞集的平均信息增益變化情況決定是否繼續調整閾值;
(1.2)基于N-Gram算法的雙字詞和組合詞特征選擇,基于N-Gram算法產生文字片斷序列,根據步驟(1.1)得到的最優統計閾值過濾掉非頻繁序列,將剩余的序列構建關聯矩陣,矩陣元素為對應行列組合序列在垃圾短信文本中的出現頻度,根據一定的標準篩選組合文字序列;
(1.3)非修飾性實詞組合成元組特征,遍歷所有的垃圾短信文本尋找名詞+動詞\形容詞組合,根據一定的標準對所得元組特征進行篩選;
(1.4)基于累積信息增益的特征選擇,對由以上步驟得到的詞和組合詞特征的合并結果,選擇累積信息增益達到原始特征詞信息增益總和的95%的特征詞,進而構建特征詞向量;
(2)離線分類算法及改進的調優訓練與測試,對離線分類算法作面向垃圾短信分類的改進,根據各離線分類算法及改進對步驟(1)所得的訓練集和測試集進行數據準備,使用訓練集對各離線算法及改進進行調優訓練和測試,具體步驟為:
(2.1)對離線分類算法作面向垃圾短信分類的改進,包括基于特定數據格式的LR,特定數據格式為:label index1:value1 index2:value2...,使用該特定數據格式,LR在計算系數向量和實例的內積時公式為:
w代表系數向量(矩陣),xi表示第i個實例向量(矩陣),l為第i個實例的長度即非零特征的數目,indexj代表實例向量xi第j個非零特征的下標,由于采用0、1詞典模型,因此非零特征的值為1,其中label為實例類別標簽,通常為整數,index是有序的非零特征的索引,value是對應的特征取值,由于采用詞典模型,因此非零特征的值為1;差異化損失的AdaBoost決策時,在垃圾短信分類中,正常短信誤判代價高于垃圾短信誤判,因此提出差異化損失的改進,在每次迭代更新訓練樣本的權重時,如果在上一次迭代正確分類,更新式為如果在上一次迭代錯誤分類,更新式為
其中,wm,i是第m次迭代第i個實例向量的權重,Zm是規范化因子,αm是第m個基分類器的權重;wm+1,i是第m+1次迭代第i個實例向量的權重;e是自然底數;
(2.2)根據各離線分類算法及改進對步驟(1)所得的訓練集和測試集進行數據準備;
(2.3)使用訓練集對各離線算法及改進進行調優訓練和測試,采用交叉驗證調優SVM的模型參數,采用網格搜索尋找GBDT的最優參數,具體是:按照參數重要性次序進行調優,如果只對一個參數調優,那么根據該參數的取值區間構造參數向量,遍歷向量中的所有取值,根據預測結果選最優;如果同時對兩個參數進行調優,那么根據兩個參數的取值區間構造二維的參數矩陣,形如網格,每個網格對應兩個參數的取值組合,遍歷所有的網格,基于預測結果選擇最優參數組合,對于LR和AdaBoost,通過調整迭代次數得到最優模型,最優使用各個最優模型對測試集進行預測,其中GBDT為Gradient promotion decision tree梯度提升決策樹;
(3)基于評價指標的離線分類算法選擇,提出面向垃圾短信分類的評價指標,使用該評價指標對步驟(2)所得到的測試結果進行分析并選擇最優離線分類算法,具體步驟為:
(3.1)提出面向垃圾短信分類的評價指標,包括準確率accuracy、正確率召回率和其中TP為真實類別為1(垃圾短信)并且預測為1的樣本數目,FP為真實類別為0而預測為1的樣本數目,FN為真實類別為1而預測為0的樣本數目;
(3.2)使用步驟(3.1)提出的評價指標對步驟(2)所得到的測試結果進行分析并選擇最優離線分類算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710409006.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法和系統
- 下一篇:基于卷積神經網絡的印花織物圖像檢索方法





