[發(fā)明專利]一種垃圾短信的攔截方法和攔截裝置有效
| 申請?zhí)枺?/td> | 202011498137.6 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112632219B | 公開(公告)日: | 2022-10-04 |
| 發(fā)明(設(shè)計)人: | 李根;賁衛(wèi)國;王揚;郭超;黃鵬;王科峰;于波;宋微;劉佳 | 申請(專利權(quán))人: | 中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;H04W4/14;H04W12/128 |
| 代理公司: | 北京同立鈞成知識產(chǎn)權(quán)代理有限公司 11205 | 代理人: | 陳洪艷;劉芳 |
| 地址: | 100033 *** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 垃圾 短信 攔截 方法 裝置 | ||
本申請?zhí)岢隽艘环N垃圾短信的攔截方法和攔截裝置。本申請?zhí)岢龅募夹g(shù)方案中,將新的垃圾短信變種加入到已有的垃圾短信樣本庫中,重新訓(xùn)練模型,進(jìn)而對原有模型進(jìn)行了更新,使得更新后的模型能夠根據(jù)垃圾短信內(nèi)容變化而變化,從而在遇到新的變種短信時可以準(zhǔn)確識別,提升了對垃圾短信變種的識別率;此外,通過動態(tài)形成不同權(quán)重的簇來影響分類模型的訓(xùn)練,使得更新后的分類模型可以提高對高頻垃圾短信的靈敏程度,而降低對低頻垃圾短信的靈敏程度。
技術(shù)領(lǐng)域
本申請涉及短信技術(shù)領(lǐng)域,尤其涉及一種垃圾短信的攔截方法和攔截裝置。
背景技術(shù)
隨著通訊業(yè)務(wù)的發(fā)展,手機的普及和短信的資費的下降,用戶使用短信傳遞信息越來越多。但是,用戶接收廣告短信、詐騙短信等垃圾短信的次數(shù)也越來越多,垃圾短信越來越泛濫。垃圾短信的泛濫已經(jīng)嚴(yán)重影響到用戶對短信使用的感受,甚至超出了用戶的忍受限度,因此,針對垃圾短信進(jìn)行治理已經(jīng)刻不容緩。
目前,垃圾短信的攔截方式為基于神經(jīng)網(wǎng)絡(luò)模型進(jìn)行攔截,即根據(jù)大量的垃圾短信樣本和非垃圾短信樣本訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)模型,然后利用訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)模型對垃圾短信進(jìn)行分類識別,對識別出的垃圾短信進(jìn)行攔截。
但是,當(dāng)遇到垃圾短信的未知變種時,基于神經(jīng)網(wǎng)絡(luò)模型的攔截方法的攔截率會降低。例如,垃圾短信的發(fā)送者會根據(jù)垃圾短信發(fā)送的成功與否情況,更改部分文字,文字順序,采用拼接字、合體字、同音字、同型字等等手段迷惑欺騙基于神經(jīng)網(wǎng)絡(luò)模型的攔截系統(tǒng)。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N垃圾短信的攔截方法,可以提高垃圾短信的攔截成功率。
第一方面,本申請?zhí)峁┮环N垃圾短信的攔截方法。該攔截方法包括:步驟一:獲取第一垃圾短信樣本庫,所述第一垃圾短信樣本庫中的垃圾短信劃分為T個類別,所述T類別中第Ti個類別的垃圾短信劃分為Mi個簇,Ti為小于或等于T的正整數(shù),Mi為正整數(shù);步驟二:獲取嫌疑垃圾短信樣本庫,所述嫌疑垃圾短信樣本庫中的嫌疑垃圾短信樣本的類別屬于所述T個類別;步驟三:計算嫌疑垃圾短信樣本庫中的每個嫌疑垃圾短信樣本與第一垃圾短信樣本庫中與每個嫌疑垃圾短信樣本中屬于同一類別的垃圾短信的相似度,根據(jù)計算得到的相似度確定每個嫌疑垃圾短信樣本的簇為每個嫌疑垃圾短信樣本所屬的類別中的第一簇,將嫌疑垃圾短信樣本加入第一垃圾短信樣本庫中的第一簇中,得到第二垃圾短信樣本庫;步驟四:判斷第二垃圾短信樣本庫中的每個類別中的簇的數(shù)量是否小于或等于簇數(shù)量閾值且每個簇中的垃圾短信之間的最小相似度高于或等于相似度閾值;步驟五:若第二垃圾短信樣本庫中的任意一個類別中的簇的數(shù)量大于簇數(shù)量閾值或任意一個簇中的垃圾短信之間的最小相似度小于相似度閾值,則判斷計算每個嫌疑垃圾短信樣本所屬的所述第一簇的迭代次數(shù)是否小于或等于次數(shù)閾值;步驟六:若迭代次數(shù)小于或等于次數(shù)閾值,則從第二垃圾短信樣本庫中獲取第一子庫和第二子庫,所述第一子庫包括所述第二垃圾短信樣本庫中指定類別中權(quán)值小的P個簇中的垃圾短信樣本和指定簇中的垃圾短信樣本,所述指定類別為T個類別中簇的數(shù)量大于簇數(shù)量閾值的類別,所述P個簇包括指定類別中除前數(shù)量閾值個簇以外的簇,所述指定簇是指垃圾短信之間的最小相似度小于所述相似度閾值的簇,所述第一子庫中的每個垃圾短信樣本的類別更新為垃圾短信分類模型分類得到的類別,所述第二子庫包括第二垃圾短信樣本庫中除第一子庫以外的垃圾短信樣本;步驟七:將嫌疑垃圾短信樣本庫更新為所述第一子庫,將第一垃圾短信樣本庫更新為第二子庫,重新從步驟三開始執(zhí)行;步驟八:若第二垃圾短信樣本庫中的任意一個類別中的簇的數(shù)量小于或等于簇數(shù)量閾值且任意一個簇中的垃圾短信之間的最小相似度大于或等于相似度閾值,或者,若迭代次數(shù)大于次數(shù)閾值,則從第二垃圾短信樣本庫中提取目標(biāo)簇中的垃圾短信樣本,得到垃圾短信負(fù)樣本,所述目標(biāo)簇是指包含至少兩個垃圾短信樣本的簇;步驟九:在垃圾短信負(fù)樣本中加入正常短信正樣本,得到訓(xùn)練樣本;步驟十:使用訓(xùn)練樣本對神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到更新后的分類模型;步驟十一:基于更新后的分類模型進(jìn)行垃圾短信攔截。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司,未經(jīng)中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498137.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





