[發明專利]一種垃圾短信的攔截方法和攔截裝置有效

申請號：	202011498137.6	申請日：	2020-12-17
公開（公告）號：	CN112632219B	公開（公告）日：	2022-10-04
發明（設計）人：	李根;賁衛國;王揚;郭超;黃鵬;王科峰;于波;宋微;劉佳	申請（專利權）人：	中國聯合網絡通信集團有限公司
主分類號：	G06F16/33	分類號：	G06F16/33;G06F16/35;H04W4/14;H04W12/128
代理公司：	北京同立鈞成知識產權代理有限公司 11205	代理人：	陳洪艷;劉芳
地址：	100033 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種垃圾短信攔截方法裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種垃圾短信的攔截方法，其特征在于，包括：

步驟一：獲取第一垃圾短信樣本庫，所述第一垃圾短信樣本庫中的垃圾短信劃分為T個類別，所述T類別中第T_i個類別的垃圾短信劃分為M_i個簇，T_i為小于或等于T的正整數，M_i為正整數；

步驟二：獲取嫌疑垃圾短信樣本庫，所述嫌疑垃圾短信樣本庫中的嫌疑垃圾短信樣本的類別屬于所述T個類別；

步驟三：計算所述嫌疑垃圾短信樣本庫中的每個嫌疑垃圾短信樣本與所述第一垃圾短信樣本庫中與所述每個嫌疑垃圾短信樣本中屬于同一類別的垃圾短信的相似度，根據計算得到的所述相似度確定所述每個嫌疑垃圾短信樣本的簇為所述每個嫌疑垃圾短信樣本所屬的類別中的第一簇，將所述嫌疑垃圾短信樣本加入所述第一垃圾短信樣本庫中的所述第一簇中，得到第二垃圾短信樣本庫；

步驟四：判斷所述第二垃圾短信樣本庫中的每個類別中的簇的數量是否小于或等于簇數量閾值且每個簇中的垃圾短信之間的最小相似度高于或等于相似度閾值；

步驟五：若所述第二垃圾短信樣本庫中的任意一個類別中的簇的數量大于簇數量閾值或任意一個簇中的垃圾短信之間的最小相似度小于相似度閾值，則判斷計算所述每個嫌疑垃圾短信樣本所屬的所述第一簇的迭代次數是否小于或等于次數閾值；

步驟六：若所述迭代次數小于或等于所述次數閾值，則從所述第二垃圾短信樣本庫中獲取第一子庫和第二子庫，所述第一子庫包括所述第二垃圾短信樣本庫中指定類別中根據各個簇相應的權值從大到小的排序中后P個簇中的垃圾短信樣本和指定簇中的垃圾短信樣本，所述指定類別為T個類別中簇的數量大于簇數量閾值的類別，P為所述指定類別中簇的數量與所述簇數量閾值的差，所述指定簇是指垃圾短信之間的最小相似度小于所述相似度閾值的簇，所述第一子庫中的每個垃圾短信樣本的類別更新為垃圾短信分類模型分類得到的類別，所述第二子庫包括第二垃圾短信樣本庫中除第一子庫以外的垃圾短信樣本；

步驟七：將所述嫌疑垃圾短信樣本庫更新為所述第一子庫，將所述第一垃圾短信樣本庫更新為所述第二子庫，重新從步驟三開始執行；

步驟八：若所述第二垃圾短信樣本庫中的任意一個類別中的簇的數量小于或等于所述簇數量閾值且任意一個簇中的垃圾短信之間的最小相似度大于或等于所述相似度閾值，或者，若所述迭代次數大于所述次數閾值，則從所述第二垃圾短信樣本庫中提取目標簇中的垃圾短信樣本，得到垃圾短信負樣本，所述目標簇是指包含至少兩個垃圾短信樣本的簇；

步驟九：在所述垃圾短信負樣本中加入正常短信正樣本，得到訓練樣本；

步驟十：使用所述訓練樣本對神經網絡模型進行訓練，得到更新后的分類模型；

步驟十一：基于所述更新后的分類模型進行垃圾短信攔截。

2.根據權利要求1所述的方法，其特征在于，所述嫌疑垃圾短信樣本庫中包括以下至少一種：垃圾短信分類模型輸出的垃圾短信樣本，用戶投訴的垃圾短信樣本或者管理員添加的垃圾短信樣本。

3.根據權利要求1所述的方法，其特征在于，所述計算所述嫌疑垃圾短信樣本庫中的每個嫌疑垃圾短信樣本與所述第一垃圾短信樣本庫中與所述每個嫌疑垃圾短信樣本屬于同一類別的垃圾短信的相似度，根據計算得到的相似度確定所述每個嫌疑垃圾短信樣本的簇為所述每個嫌疑垃圾短信樣本所屬的類別中的第一簇，將所述嫌疑垃圾短信樣本加入所述第一垃圾短信樣本庫中的所述第一簇中，得到第二垃圾短信樣本庫，包括：

如果所述嫌疑垃圾短信樣本庫中的每個嫌疑垃圾短信樣本與所述第一垃圾短信樣本庫中的同一所述類別屬性的任意一個垃圾短信樣本的相似度不大于K，所述每個嫌疑垃圾短信樣本所屬的所述第一簇為新增加的單獨的一個簇，將所述嫌疑垃圾短信樣本加入所述第一垃圾短信樣本庫中的所述第一簇中，得到第二垃圾短信樣本庫；

如果所述嫌疑垃圾短信樣本庫中的每個嫌疑垃圾短信樣本與所述第一垃圾短信樣本庫中的同一所述類別屬性的一個垃圾短信樣本的相似度大于K，所述每個嫌疑垃圾短信樣本所屬的所述第一簇為的所述一個垃圾短信樣本所屬的簇，將所述嫌疑垃圾短信樣本加入所述第一垃圾短信樣本庫中的所述第一簇中，得到第二垃圾短信樣本庫；

所述K為大于0的自然數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于中國聯合網絡通信集團有限公司，未經中國聯合網絡通信集團有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202011498137.6/1.html，轉載請聲明來源鉆瓜專利網。