[發明專利]用于識別大量號碼低頻發送垃圾短信情況的方法有效
| 申請號: | 201110375767.9 | 申請日: | 2011-11-23 |
| 公開(公告)號: | CN103139730A | 公開(公告)日: | 2013-06-05 |
| 發明(設計)人: | 狄衛華 | 申請(專利權)人: | 上海粱江通信系統股份有限公司 |
| 主分類號: | H04W4/14 | 分類號: | H04W4/14;H04W12/12 |
| 代理公司: | 上海兆豐知識產權代理事務所(有限合伙) 31241 | 代理人: | 章蔚強 |
| 地址: | 200070 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 識別 大量 號碼 低頻 發送 垃圾 短信 情況 方法 | ||
技術領域
本發明涉及一種識別發送垃圾短信情況的方法,尤其涉及一種用于識別大量號碼低頻發送垃圾短信情況的方法。
背景技術
短信息服務作為移動通信網絡的一種基本業務,在為用戶提供便捷消息通信服務的同時,也為信息垃圾的傳播提供了渠道。目前,垃圾短信有著愈演愈烈的趨勢,垃圾短信不但帶來用戶投訴的不良影響,還存在著惡意欠費問題,因此需要對垃圾短信進行實時監控攔截。
隨著對垃圾短信治理力度的加大,垃圾短信的發送行為也逐漸變化,目前發現了一種使用大量號碼低速發送垃圾短信的情況,具有以下特征:1、購買大量手機號碼同時低速發送垃圾短信;2、每個號碼選取多條垃圾短信循環或隨機發送;3、不同號碼發送的具有相同垃圾信息的垃圾短信內容不盡相同,中間隨機加入干擾字符或文字。
對于上述的大量號碼低速發送垃圾短信的情況,現有的基于頻次和內容的攔截方式都不能有效進行識別。
發明內容
本發明的目的在于克服現有技術的缺陷而提供一種用于識別大量號碼低頻發送垃圾短信情況的方法,通過內容特征相似度的方法,將短信內容中提煉出的初步內容生成對應的內容特征,并對內容特征進行累加計數,定期統計識別短信內容特征的發送次數滿足用戶設置的最小閾值的內容特征,對滿足要求的所有內容特征逐個查找對應的主叫號碼集合,然后根據設定的主叫號碼離散規則來判斷是否將主叫號碼集合中的各主叫號碼加入到嫌疑名單,從而有效識別出大量號碼發送垃圾短信的情況并避免對正常短信的誤攔,克服了現有短信攔截技術只能識別單一主叫發送垃圾短信的情況。
實現上述目的的技術方案是:
一種用于識別大量號碼低頻發送垃圾短信情況的方法,包括下列步驟:
步驟S0,設定剔除規則、相似度計算規則、相似度最小閾值、發送次數最小閾值、統計周期以及主叫號碼離散規則;
步驟S1,讀取短信信息,包括主叫號碼和短信內容;
步驟S2,根據所述剔除規則,排除短信內容中的干擾元素,生成初步內容特征;
步驟S3,若現有的內容特征集合為空,將初步內容特征作為其自身的內容特征保存到內容特征集合中,并將該內容特征的發送次數設置為1;
若現有的內容特征集合不為空,根據所述的相似度計算規則,計算初步內容特征和現有的內容特征集合中逐個內容特征的相似度,并與所述的相似度最小閾值逐個比較,根據比較結果,生成對應于該初步內容特征的內容特征,并保存到內容特征集合中,同時對該內容特征的發送次數進行累加;
步驟S4,判斷此刻時間與上一次統計時間的時間差,是否大于或者等于所述的統計周期,若是,則進入步驟S5;若否,則進入步驟S1;
步驟S5,提取當前內容特征集合中發送次數大于或者等于所述的發送次數最小閾值的內容特征;
步驟S6,對于步驟S5中選取的所有內容特征,按順序依次選擇其中一個內容特征,追溯該內容特征對應的主叫號碼集合;
步驟S7,判斷步驟S6中生成的主叫號碼集合中的不同主叫號碼個數是否符合設定的主叫號碼離散規則,若符合,進入步驟S8;若不符合,進入步驟S9;
步驟S8,將步驟S6中生成的主叫號碼集合中的主叫號碼加入到嫌疑名單;
步驟S9,檢查步驟S5中選取的所有內容特征是否均處理完畢,若未處理完畢,進入步驟S6。
上述的用于識別大量號碼低頻發送垃圾短信情況的方法,其中,所述步驟S3中現有的內容特征集合不為空時,
若由計算所得的相似度均小于所述的相似度最小閾值,則將所述的初步內容特征作為其自身的內容特征保存到內容特征集合中,并將該內容特征的發送次數設置為1;
若由計算所得的相似度中至少有一個大于或者等于所述的相似度最小閾值,則選取相似度最大的內容特征作為所述的初步內容特征的內容特征,并將該內容特征的發送次數加1。
上述的用于識別大量號碼低頻發送垃圾短信情況的方法,其中,所述剔除規則為:剔除短信內容中的干擾字符或干擾文字,其中,剔除的干擾字符或干擾文字需要預先進行設定。
上述的用于識別大量號碼低頻發送垃圾短信情況的方法,其中,所述相似度計算規則為:S(A,B)=f(A∩B)*2*100/(f(A)+f(B)),其中,函數S(A,B)表示相似度,函數f(A)和f(B)分別表示集合A和集合B的元素個數,函數f(A∩B)表示集合A和集合B的交集元素的個數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海粱江通信系統股份有限公司,未經上海粱江通信系統股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110375767.9/2.html,轉載請聲明來源鉆瓜專利網。





