[發明專利]面向垃圾短信分類的離線模型改進與選擇方法有效
| 申請號: | 201710409006.8 | 申請日: | 2017-06-02 |
| 公開(公告)號: | CN107256245B | 公開(公告)日: | 2020-05-05 |
| 發明(設計)人: | 毛鶯池;齊海;賈必聰;李曉芳;平萍;徐淑芳 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 李玉平 |
| 地址: | 211100 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 面向 垃圾 短信 分類 離線 模型 改進 選擇 方法 | ||
本發明公開了一種面向垃圾短信分類的離線模型改進與選擇方法,包括以下步驟:(1)特征選擇與擴展,使用特征選擇方法選擇特征,構造特征詞向量,使用特征詞向量模型表示原始短信文本;(2)離線分類算法及改進的調優訓練與測試,對離線分類算法作面向垃圾短信分類的改進,根據各離線分類算法及改進對步驟(1)所得的訓練集和測試集進行數據準備,使用訓練集對各離線算法及改進進行調優訓練和測試;(3)基于評價指標的離線分類算法選擇,提出面向垃圾短信分類的評價指標,使用該評價指標對步驟(2)所得到的測試結果進行分析并選擇最優離線分類算法。
技術領域
本發明涉及一種離線文本分類算法,具體涉及一種面向垃圾短信分類的離線 模型改進與選擇方法,屬于基于文本內容的垃圾短信識別技術領域。
背景技術
在文本分類問題中最重要的是選擇和訓練文本分類模型,文本分類的性能在 很大程度上取決于文本分類模型。近來,研究人員基于機器學習,結合統計學、 信息學等多學科理論提出各種各樣的文本分類模型。
樸素貝葉斯分類算法是基于統計學的機器學習方法,被廣泛應用于文本分類 問題。該算法基于特征獨立性假設,雖然實際問題中特征之間往往存在相關性, 但是該假設簡化了樸素貝葉斯分類模型的計算。在基于內容的垃圾短信分類問題 中,樸素貝葉斯分類算法取得了很好的預測性能。
決策分類樹算法也是文本分類問題的常用算法,它使用訓練數據集學習一棵 決策分類樹,樹中的每個節點對應一個特征,節點的每個分支對應基于該節點特 征的一個劃分,樹的葉子節點對應類別標簽。目前有很多決策樹構造方法,例如 基于信息增益的ID3算法、基于信息增益比的C4.5算法和基于基尼指數的CART 算法等。決策樹分類算法應用于文本分類問題得到一組規則,沿著這些規則對測 試文本的對應特征進行判斷,最終可以確定測試文本的類別。
感知機由Schutze等人首次應用到文本分類問題中。后來,應用于文本分類 問題的感知機算法經過大量的改進和優化,例如POSITIVE WINNOW、 BALANCED WINNOW、WIDROW-HOFF等等。感知機實際上是最簡單的神經 網絡,二者的區別在于,感知機學習得到的是線性分類模型,而神經網絡得到的 是非線性的分類模型,但是感知機卻能取得與神經網絡近似的分類性能,并且訓 練時間復雜度較低。
KNN算法基于距離度量函數選擇與測試樣本距離最近的k個訓練樣本,然 后使用多數表決的方法決定測試樣本的類別。無需訓練,但是分類誤差也較大, 如果k值選擇得過小,容易受到噪聲數據的影響,如果k值選擇得過大,這時與 測試樣本距離較大(不相似)的訓練樣本也會對預測起作用,產生錯誤的預測結 果。在文本分類問題中,使用更多的是KNN與其他分類算法結合的分類模型, 例如最近鄰和聚類算法、最近鄰和最大后驗估計等。
支持向量機分類算法被廣泛應用于文本分類問題中,并且大量實驗表明支持 向量機是準確率很高的分類模型。
近來,集成分類器越來越受到關注,其基本思想是“三個臭皮匠賽過一個諸 葛亮”,多個分類器的預測結果一定比單個分類器的更加可信,學習多個弱分類 器,最后綜合每個弱分類器的分類結果作為最終預測結果。分類器集成規則主要 有多數表決規則(Majority Voting)、動態分類器選擇(dynamicselection)、 線性加權組合規則(Weighted Linear Combination)、自適應分類器組合規則 (AdaptiveCombination)等。AdaBoost就是一種構建集成分類器的算 法,該算法通過動態改變樣本權重分布學習多個弱分類器,采用的集成規則是線 性加權組合規則,根據弱分類器的分類誤差率計算權值。
面向垃圾短信特征信息較為穩定的靜態短信數據,本發明對離線分類算法進 行改進和選擇,其中離線分類算法包括:LR、AdaBoost決策樹、SVM和GBDT, 提出面向垃圾短信分類的評價指標,并基于評價指標進行離線模型選擇。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710409006.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據處理方法和系統
- 下一篇:基于卷積神經網絡的印花織物圖像檢索方法





