[發明專利]一種基于智能算法的垃圾短信過濾方法在審
| 申請號: | 201610120287.0 | 申請日: | 2016-03-03 |
| 公開(公告)號: | CN107155178A | 公開(公告)日: | 2017-09-12 |
| 發明(設計)人: | 李剛 | 申請(專利權)人: | 深圳市新悅藍圖網絡科技有限公司 |
| 主分類號: | H04W4/14 | 分類號: | H04W4/14;H04W12/12;H04L29/06 |
| 代理公司: | 北京宣言律師事務所11509 | 代理人: | 杜秀軍 |
| 地址: | 518000 廣東省深圳市沙*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 智能 算法 垃圾 短信 過濾 方法 | ||
技術領域
本發明涉及軟件信息安全技術領域。更具體地,涉及一種基于智能算法的垃圾短信過濾方法。
背景技術
眾所周知,手機用戶經常會遇到垃圾短信,往往給手機用戶帶來諸多不便。因此,需要將垃圾短信過濾掉。現有技術中,垃圾短信攔截策略相對單一,絕大多數垃圾短信過濾方法采用電話號碼黑名單或垃圾詞匯黑名單等形式來實現。現有技術的上述垃圾短信過濾方法的缺點是簡單粗暴,容易導致誤判現象的發生,且誤判率較高。
因此,需要提供一種基于智能算法的垃圾短信過濾方法。
發明內容
本發明的目的在于提供一種基于智能算法的垃圾短信過濾方法。
為達到上述目的,本發明采用下述技術方案:
一種基于智能算法的垃圾短信過濾方法,該垃圾短信過濾方法包括如下步驟:
S1:獲得原始短信樣本中垃圾短信出現的概率和非垃圾短信出現的概率;
S2:獲得樣本詞匯集合;
S3:對于樣本詞匯集合中的任意一個獨立詞匯,通過統計的方法分別計算得到該獨立詞匯在垃圾短信樣本中出現的概率以及該獨立詞匯在非垃圾短信樣本中出現的概率;
S4:對于樣本詞匯集合中的任意一個獨立詞匯,利用貝葉斯公式計算得到包含該獨立詞匯的任意一條短信為垃圾短信的概率;
S5:當任意一條待過濾短信中出現所述樣本詞匯集合中的多個獨立詞匯時,對于該條待過濾短信中每一個獨立詞匯,重復所述步驟S4,分別計算得到僅包含該獨立詞匯的任意一條短信為垃圾短信的概率,然后獲得包含該獨立詞匯的任意一條短信為非垃圾短信的概率;
S6:計算所述步驟S5得到的包含該條待過濾短信中每一個獨立詞匯的任 意一條短信為垃圾短信的概率的乘積,得到該條待過濾短信為非垃圾短信的概率,然后獲得該條待過濾短信為垃圾短信的概率。
優選地,所述垃圾短信過濾方法在所述步驟S6之后還包括如下步驟:
S7:通過編碼設定號碼黑白名單、號碼段黑名單以及基于行為的號碼白名單,獲得黑白名單庫;
S8:利用布隆過濾算法對黑白名單庫進行信息壓縮,并利用判別接口和刪除接口對布隆過濾算法表進行操作,以實現對待過濾短信的判別和對黑白名單庫的升級。
進一步優選地,所述步驟S1為:獲取原始短信樣本,通過人工標記的方式將原始短信樣本區分為垃圾短信樣本和非垃圾短信樣本,并通過統計的方法分別計算得到原始短信樣本中垃圾短信出現的概率和非垃圾短信出現的概率。
進一步優選地,所述步驟S2為:對垃圾短信樣本和非垃圾短信樣本進行分詞,獲得在垃圾短信樣本和非垃圾短信樣本之一中出現的所有獨立詞匯,且在垃圾短信樣本和非垃圾短信樣本之一中出現的所有獨立詞匯構成樣本詞匯集合。
進一步優選地,所述貝葉斯公式為:
其中,P(S|W)為包含該獨立詞匯W的任意一條短信為垃圾短信的概率;P(W|S)為樣本詞匯集合J中的任意一個獨立詞匯W在垃圾短信樣本S中出現的概率;P(W|H)為樣本詞匯集合J中的任意一個獨立詞匯W在非垃圾短信樣本H中出現的概率;P(S)為原始短信樣本中垃圾短信出現的概率;P(H)為原始短信樣本中非垃圾短信出現的概率。
進一步優選地,所述黑白名單庫包括號碼黑白名單、號碼段黑名單和基于行為的號碼白名單。
更進一步優選地,所述號碼黑白名單為:將已有的發送短信的號碼庫中的角色進行收集并設置成號碼黑白名單,其中詐騙和廣告推銷類為黑名單,快遞和市政類為白名單;所述號碼段黑名單為:對廣告營銷類專用號碼段進行垃圾短信概率權限增加,針對1069廣告營銷類短信通道進行更低閾值的垃圾短信判別;所述基于行為的號碼白名單為:將用戶本機聯系人、用戶主動去電號碼、用戶主動發送短信號碼、以及用戶主動回復短信號碼設置為基于 行為的號碼白名單。
更進一步優選地,對于基于行為的號碼白名單中的任意一條短信,無需利用貝葉斯公式計算該條短信為垃圾短信的概率,直接將該條短信判定為非垃圾短信。
進一步優選地,所述步驟S1中,利用搜索引擎獲取所述原始短信樣本。
進一步優選地,所述步驟S7中,用戶解鎖開始使用手機后更新所述黑白名單庫。
本發明的有益效果如下:
與現有技術相比,本發明的所述垃圾短信過濾方法首次將貝葉斯公式引入垃圾短信過濾中,結合綜合性的策略整合,從而能夠實現對垃圾短信的智能過濾,避免誤判現象的發生,提高垃圾短信過濾的準確性。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市新悅藍圖網絡科技有限公司,未經深圳市新悅藍圖網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610120287.0/2.html,轉載請聲明來源鉆瓜專利網。





