[發明專利]一種垃圾短信鑒別的方法、裝置、存儲介質和設備在審
| 申請號: | 201811315359.2 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN109885645A | 公開(公告)日: | 2019-06-14 |
| 發明(設計)人: | 李佳;李強 | 申請(專利權)人: | 北京奇虎科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F17/22 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 房德權 |
| 地址: | 100088 北京市西城區新*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 拼音 垃圾短信 存儲介質 拼音組合 匹配 短信鑒別 文本轉化 漏檢率 短信 預設 | ||
本發明實施例提供了一種垃圾短信鑒別的方法、裝置、存儲介質和設備,用于降低垃圾短信的漏檢率。所述方法包括:將短信的文本轉化為對應的第一拼音;判斷所述第一拼音中是否存在與預設關鍵詞對應的第二拼音匹配的拼音組合;如果所述第一拼音中存在與所述第二拼音匹配的所述拼音組合,將所述短信鑒別為垃圾短信。
技術領域
本發明涉及信息安全技術領域,尤其涉及一種垃圾短信鑒別的方法、裝置、存儲介質和設備。
背景技術
隨著用戶對信息安全的需求增長,垃圾短信鑒別技術也日益普及化和精準化。其中一種鑒別方法為從短信文本中識別預設關鍵詞,如果從該短信文本中識別到了預設關鍵詞,則將該短信鑒別為垃圾短信,反之,如果從該短信文本中未識別到預設關鍵詞,則將該短信鑒別為非垃圾短信。
然而,垃圾短信發送者為了規避以上鑒別方法,將短信文本中的關鍵詞部分或全部文本以其他形式替代。舉例來說,對于邀請用戶刷單的垃圾短信,其預設關鍵詞通常為“刷單”,而為了規避“刷單”這個關鍵詞,發送者會將“刷單”替換為“刷單”,即將簡體“單”字替換為其繁體。進而在鑒別過程中,由于“刷單”并不能與“刷單”匹配上,從而導致該條垃圾短信被漏檢。
所以,現有技術中垃圾短信的漏檢率還很高。
發明內容
本發明實施例提供了一種垃圾短信鑒別的方法、裝置、存儲介質和設備,用于降低垃圾短信的漏檢率。
第一方面,本發明提供了一種垃圾短信鑒別的方法,包括:
將短信的文本轉化為對應的第一拼音;
判斷所述第一拼音中是否存在與預設關鍵詞對應的第二拼音匹配的拼音組合;
如果所述第一拼音中存在與所述第二拼音匹配的所述拼音組合,將所述短信鑒別為垃圾短信。
可選的,在所述將短信的文本轉化為對應的第一拼音之前,還包括:
對所述短信的文本進行分詞,獲得一個或多個詞組;
所述將短信的文本轉化為對應的第一拼音,包括:
將分詞得到的每個所述詞組轉化為對應的拼音組合。
可選的,所述拼音組合包括所述詞組中每個字的拼音和所述詞組的拼音。
可選的,所述第二拼音也包括所述預設關鍵詞中每個字的拼音和所述預設關鍵詞詞組的拼音,所述判斷所述第一拼音中是否存在與預設關鍵詞對應的第二拼音匹配的拼音組合,包括:
按照相同順位,比較所述拼音組合中每個字的拼音與所述第二拼音中每個字的拼音,判斷所述拼音組合中每個字的拼音是否與所述第二拼音中每個字的拼音均匹配;
判斷所述拼音組合中所述詞組的拼音是否與所述預設關鍵詞詞組的拼音匹配;
如果所述拼音組合中每個字的拼音與所述第二拼音中每個字的拼音均匹配,且所述拼音組合中所述詞組的拼音與所述預設關鍵詞詞組的拼音匹配,則表示所述拼音組合與所述第二拼音匹配,所述第一拼音中存在與所述第二拼音匹配的所述拼音組合。
可選的,如果所述第二拼音存在相似拼音,所述判斷所述第一拼音中是否存在與預設關鍵詞對應的第二拼音匹配的拼音組合,包括:判斷所述第一拼音中是否存在與所述第二拼音一致、或者與所述第二拼音的相似拼音一致的所述拼音組合,如果所述第一拼音中存在與所述第二拼音一致、或者與所述第二拼音的相似拼音一致的所述拼音組合,則表示所述第一拼音中存在與所述預設關鍵詞對應的第二拼音匹配的拼音組合;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇虎科技有限公司,未經北京奇虎科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811315359.2/2.html,轉載請聲明來源鉆瓜專利網。





