[發明專利]短信過濾、分類方法及系統無效
| 申請號: | 200910077123.4 | 申請日: | 2009-01-16 |
| 公開(公告)號: | CN101784022A | 公開(公告)日: | 2010-07-21 |
| 發明(設計)人: | 柳呈文 | 申請(專利權)人: | 北京炎黃新星網絡科技有限公司 |
| 主分類號: | H04W4/14 | 分類號: | H04W4/14;G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100085 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 短信 過濾 分類 方法 系統 | ||
技術領域:
本發明用于垃圾短信的攔截,尤其涉及電信運營商短信中心短信過濾和二次分類的方法及系統。
背景技術:
手機短信已經成為國人一種非常重要的通訊形式,然而我們在享受拇指間便捷的同時不得不隨時面對“垃圾短信”的騷擾。垃圾短信不僅給我們帶來騷擾,更嚴重的是垃圾短信變成了一些不法分子散布和傳播違法犯罪信息的工具。
目前常用短信過濾方法及機制主要有:基于關鍵詞過濾、基于內容過濾、基于短信發送量及發送方分析過濾等。其中大多數過濾方式沿用了通用垃圾信息處理方式,如貝葉斯、SVM、人工神經網絡等算法,任何一種方式應用都有一定的弊端。如,關鍵詞過濾的誤報率及漏報率較高,諸如:“某某公司長期提供某某服務”,這條短信文本如果用“公司”,“長期”,“提供”,“服務”等詞作為關鍵詞單一過濾,會存在誤識別率高或漏識別率高的現象。同一主叫號碼的發送頻次過濾機制,如采用多個號碼分批次發送,這樣可以逃避同一主叫號碼的發送頻次過濾機制。而且,目前常用短信過濾功能是對整體垃圾短信進行不區分地完全過濾方式,不能針對用戶進行個性化定制,比如:某用戶想要獲得“房產類”短信,則“房產類”短信對于該用戶不應當作垃圾短信處理。如何結合多種過濾算法及機制,保證較低誤報率及漏報率,并且能夠方便客戶定制信息,能夠真正的防范垃圾短信濫發是急待解決的問題。
發明內容:
本發明專利為了克服上述技術中的不足,在傳統垃圾短信過濾的基礎上,創新性提出基于發送量特征及垃圾短信內容特征方式,結合“漢字正則表達式”、及“改進型貝葉斯算法“過濾垃圾短信的方法,在提高垃圾短信識別準確率的同時,降低了垃圾短信的誤報率和漏報率。本發明將垃圾短信進行二次分類,方便用戶個性化設置,有選擇地屏蔽垃圾信息。
為實現上述發明目的,本發明的垃圾短信過濾方法,包括以下步驟:
步驟1,對短信文本進行預處理(關鍵字處理,黑白名單處理)。
步驟2,發送量匹配,匹配發送的內容與發送數量。
步驟3,運用“漢字正則表達式”及“詞典加詞性“方法進行詞法分詞。
步驟4,使用垃圾短信分類器的分類,運用“漢字正則表達式”定義的短信特征規則,
通過改進型貝葉斯算法進行計算概率,識別垃圾/非垃圾短信。
步驟5,使用短信類型歸屬分類器的分類,對已識別的垃圾短信進行分類處理。
步驟2中發送量匹配,是指目標短信與一定時間內發送短信內容進行比較與匹配,計算相應的加權值,作為進一步計算的參數。
步驟4中“漢字正則表達式”定義的短信特征規則是指,基于短信文本長度、電話號碼、地址、網址(單位)及數字符號比率、詞組概率之間的關系規律,來判斷是否為垃圾短信的策略。
步驟4中改進型貝葉斯算法是指在傳統貝葉斯算法基礎上,將各特征屬性的相關度作為權值進一步融合到算法中。
步驟5中短信類型歸屬分類器是對已判斷為垃圾短信的信息,進行二次分類的功能。
本發明創新地結合以上算法及機制,將各種方法的優勢相結合,有效過濾垃圾短信的同時,采用分類定制方式,將對于用戶需要的短信免除過濾,是更加人性化用于垃圾短信過濾的系統性方法。
附圖說明:
圖1是本發明提供的短信過濾、分類系統的工作流程圖
圖2是本發明提供的短信過濾、分類方法的原理流程圖
圖3是本發明提供的短信過濾和二次分類流程圖
具體實施方式:
本發明提供了短信過濾和二次分類的方法步驟如下:
步驟1,對短信文本進行預處理(關鍵字處理,黑白名單處理)。
分詞前,首先需要對短信內容進行預處理,包括刪除、規范、標記等處理內容。預處理可以起到語義分割的作用,提高分詞的準確性,對垃圾短信內容一些重要特征進行標記,為后續分析奠定基礎。
首先刪除或標記短信內容中無效的部分,減少干擾,提高后續處理的效率。
針對短信內容進行統一轉換,如全角數字符號轉換成統一的半角標準數字符號,針對短信內容中一些特別的變化進行識別,如“O”表示“0”、“I”表示“1”等。
對一些重要標識,如電話號碼、地址、單位名稱、人名、網址郵箱等重要垃圾短信內容特征進行提取和標識。
在預處理算法中,使用“漢字正則表達式”,對標點符號、英文、數字等處理更為靈活,同時根據短信內容的最新變化,添加新的規則帶來了便利。
系統分兩級采用黑白名單和關鍵詞過濾,一級是系統統一提供的黑白名單和關鍵詞,用戶級用戶可以根據自身的需要設置。
步驟2,發送量匹配,匹配發送的內容與發送數量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京炎黃新星網絡科技有限公司,未經北京炎黃新星網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910077123.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種客運汽車遙控綜合報警提示器
- 下一篇:基于網絡智能無線控制系統的保險箱





