[發明專利]垃圾短信規則庫構建方法、裝置及電子設備在審
| 申請號: | 201811097273.7 | 申請日: | 2018-09-17 |
| 公開(公告)號: | CN110909526A | 公開(公告)日: | 2020-03-24 |
| 發明(設計)人: | 高喆;康楊楊;周笑添;孫常龍;劉曉鐘;司羅 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/289;G06F16/20 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 蘇培華 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 垃圾 短信 規則 構建 方法 裝置 電子設備 | ||
本申請公開了垃圾短信規則庫構建方法和裝置,以及電子設備。其中,方法包括:確定垃圾短信集對應的至少一個候選規則;根據正常短信集,確定所述候選規則的正常短信相關度;根據所述正常短信相關度,從至少一個候選規則中確定垃圾短信規則。采用這種處理方式,使得自動挖掘垃圾短信中適合建立規則庫的詞集合,通過由多個關鍵詞組合而成的垃圾短信規則識別垃圾短信,可以確保識別出由多個關鍵詞組合起來才能確定的隱晦的垃圾短信,避免誤殺只包括單個詞的正常短信;因此,可以有效提升規則準確度。同時,由于垃圾短信規則包括多個關鍵詞;因此,可以有效提升泛化性。
技術領域
本申請涉及自然語言處理技術領域,具體涉及垃圾短信規則庫構建方法和裝置,以及電子設備。
背景技術
一種典型的短信發送場景是,商家通過網絡平臺向消費者發送短信,以便于將商品促銷等信息及時送至消費者處,從而確保商家銷售計劃的有效實施,并提升用戶體驗。然而,伴隨著這些有益效果的同時,也出現了大量垃圾短信。垃圾短信泛濫,已經嚴重影響到消費者正常生活、網絡平臺形象乃至社會穩定。
隨著互聯網技術的不斷發展,越來越多的網絡平臺利用短信內容安全系統對商對客(Business-to-Customer,B2C)的短信進行內容分析,并進行智能短信攔截和通道優化。其中,垃圾短信過濾功能是短信內容安全系統的一個重要功能,而垃圾短信規則庫又是過濾垃圾短信的第一道關卡,前置于機器學習模型,具有效率高,速度快的優點。目前,一種典型的垃圾短信規則庫構建方案是,通過算法自動構建單個關鍵詞形式的垃圾短信規則庫。采用這種處理方式挖掘出來的垃圾短信規則只包括單個關鍵詞,只要短信中包括該單個關鍵詞就會被視為垃圾短信。
然而,在實現本發明過程中,發明人發現上述現有技術方案至少存在如下問題:利用單個關鍵詞形式的垃圾短信規則過濾垃圾短信,存在誤殺率高且泛化性差的問題,也就是說,單個關鍵詞形式的垃圾短信規則具有準確度低且泛化性差的問題。因此,如何自動化挖掘出多個關鍵詞形式的垃圾短信規則成為本領域技術人員需要迫切解決的問題。
發明內容
本申請提供垃圾短信規則庫構建方法,以解決現有技術存在的誤殺率高且泛化性差的問題。本申請另外提供垃圾短信規則庫構建裝置,以及電子設備。
本申請提供一種垃圾短信規則庫構建方法,包括:
確定垃圾短信集對應的至少一個候選規則;
根據正常短信集,確定所述候選規則的正常短信相關度;
根據所述正常短信相關度,從所述至少一個候選規則中確定垃圾短信規則。
可選的,所述確定垃圾短信集對應的至少一個候選規則,包括:
確定所述垃圾短信集對應的至少一個頻繁項集;
根據所述至少一個頻繁項集,確定所述候選規則。
可選的,所述確定所述垃圾短信集對應的至少一個頻繁項集,包括:
對所述垃圾短信執行分詞,得到垃圾短信詞;
根據所述垃圾短信詞,構建所述垃圾短信集對應的頻繁模式樹;
通過頻繁項集挖掘算法,從所述頻繁模式樹中獲取所述至少一個頻繁項集。
可選的,所述根據正常短信集,確定所述候選規則的正常短信相關度,包括:
確定所述候選規則與所述正常短信集中各個正常短信之間的文本相似度;
根據所述文本相關度,確定所述正常短信相關度。
可選的,還包括:
對所述正常短信執行分詞,得到正常短信詞;
根據所述正常短信集,生成所述正常短信詞對應的正常短信倒排索引;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811097273.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種煙霧屏蔽裝置及艾灸艙
- 下一篇:光纖軟板固定裝置





