[發(fā)明專利]一種基于智能算法的垃圾短信過濾方法在審
| 申請(qǐng)?zhí)枺?/td> | 201610120287.0 | 申請(qǐng)日: | 2016-03-03 |
| 公開(公告)號(hào): | CN107155178A | 公開(公告)日: | 2017-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 李剛 | 申請(qǐng)(專利權(quán))人: | 深圳市新悅藍(lán)圖網(wǎng)絡(luò)科技有限公司 |
| 主分類號(hào): | H04W4/14 | 分類號(hào): | H04W4/14;H04W12/12;H04L29/06 |
| 代理公司: | 北京宣言律師事務(wù)所11509 | 代理人: | 杜秀軍 |
| 地址: | 518000 廣東省深圳市沙*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 智能 算法 垃圾 短信 過濾 方法 | ||
1.一種基于智能算法的垃圾短信過濾方法,其特征在于,該垃圾短信過濾方法包括如下步驟:
S1:獲得原始短信樣本中垃圾短信出現(xiàn)的概率和非垃圾短信出現(xiàn)的概率;
S2:獲得樣本詞匯集合;
S3:對(duì)于樣本詞匯集合中的任意一個(gè)獨(dú)立詞匯,通過統(tǒng)計(jì)的方法分別計(jì)算得到該獨(dú)立詞匯在垃圾短信樣本中出現(xiàn)的概率以及該獨(dú)立詞匯在非垃圾短信樣本中出現(xiàn)的概率;
S4:對(duì)于樣本詞匯集合中的任意一個(gè)獨(dú)立詞匯,利用貝葉斯公式計(jì)算得到包含該獨(dú)立詞匯的任意一條短信為垃圾短信的概率;
S5:當(dāng)任意一條待過濾短信中出現(xiàn)所述樣本詞匯集合中的多個(gè)獨(dú)立詞匯時(shí),對(duì)于該條待過濾短信中每一個(gè)獨(dú)立詞匯,重復(fù)所述步驟S4,分別計(jì)算得到僅包含該獨(dú)立詞匯的任意一條短信為垃圾短信的概率,然后獲得包含該獨(dú)立詞匯的任意一條短信為非垃圾短信的概率;
S6:計(jì)算所述步驟S5得到的包含該條待過濾短信中每一個(gè)獨(dú)立詞匯的任意一條短信為垃圾短信的概率的乘積,得到該條待過濾短信為非垃圾短信的概率,然后獲得該條待過濾短信為垃圾短信的概率。
2.根據(jù)權(quán)利要求1所述的基于智能算法的垃圾短信過濾方法,其特征在于,所述垃圾短信過濾方法在所述步驟S6之后還包括如下步驟:
S7:通過編碼設(shè)定號(hào)碼黑白名單、號(hào)碼段黑名單以及基于行為的號(hào)碼白名單,獲得黑白名單庫;
S8:利用布隆過濾算法對(duì)黑白名單庫進(jìn)行信息壓縮,并利用判別接口和刪除接口對(duì)布隆過濾算法表進(jìn)行操作,以實(shí)現(xiàn)對(duì)待過濾短信的判別和對(duì)黑白名單庫的升級(jí)。
3.根據(jù)權(quán)利要求1或2所述的基于智能算法的垃圾短信過濾方法,其特征在于,所述步驟S1為:獲取原始短信樣本,通過人工標(biāo)記的方式將原始短信樣本區(qū)分為垃圾短信樣本和非垃圾短信樣本,并通過統(tǒng)計(jì)的方法分別計(jì)算得到原始短信樣本中垃圾短信出現(xiàn)的概率和非垃圾短信出現(xiàn)的概率。
4.根據(jù)權(quán)利要求1或2所述的基于智能算法的垃圾短信過濾方法,其特征在于,所述步驟S2為:對(duì)垃圾短信樣本和非垃圾短信樣本進(jìn)行分詞,獲得在垃圾短信樣本和非垃圾短信樣本之一中出現(xiàn)的所有獨(dú)立詞匯,且在垃圾短 信樣本和非垃圾短信樣本之一中出現(xiàn)的所有獨(dú)立詞匯構(gòu)成樣本詞匯集合。
5.根據(jù)權(quán)利要求1或2所述的基于智能算法的垃圾短信過濾方法,其特征在于,所述貝葉斯公式為:
其中,P(S|W)為包含該獨(dú)立詞匯W的任意一條短信為垃圾短信的概率;P(W|S)為樣本詞匯集合J中的任意一個(gè)獨(dú)立詞匯W在垃圾短信樣本S中出現(xiàn)的概率;P(W|H)為樣本詞匯集合J中的任意一個(gè)獨(dú)立詞匯W在非垃圾短信樣本H中出現(xiàn)的概率;P(S)為原始短信樣本中垃圾短信出現(xiàn)的概率;P(H)為原始短信樣本中非垃圾短信出現(xiàn)的概率。
6.根據(jù)權(quán)利要求2所述的基于智能算法的垃圾短信過濾方法,其特征在于,所述黑白名單庫包括號(hào)碼黑白名單、號(hào)碼段黑名單和基于行為的號(hào)碼白名單。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市新悅藍(lán)圖網(wǎng)絡(luò)科技有限公司,未經(jīng)深圳市新悅藍(lán)圖網(wǎng)絡(luò)科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610120287.0/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
H04W 無線通信網(wǎng)絡(luò)
H04W4-00 專門適用于無線通信網(wǎng)絡(luò)的業(yè)務(wù)或設(shè)施
H04W4-02 .利用用戶或終端位置的業(yè)務(wù)
H04W4-06 .廣播選擇分發(fā);到用戶組的業(yè)務(wù);單向選呼業(yè)務(wù)
H04W4-12 .消息傳送,例如SMS[短消息業(yè)務(wù)];郵箱;通告,例如,通知用戶通信請(qǐng)求的狀態(tài)或進(jìn)展
H04W4-16 .與通信相關(guān)的補(bǔ)充業(yè)務(wù),例如,呼叫轉(zhuǎn)移或呼叫保持
H04W4-18 .信息格式或內(nèi)容轉(zhuǎn)換,例如,為了向用戶或終端無線傳送的目的,由網(wǎng)絡(luò)對(duì)發(fā)送或接收的信息進(jìn)行適應(yīng)修改





