[發明專利]一種短信類型識別方法、系統及短信管理平臺在審
| 申請號: | 201611227867.6 | 申請日: | 2016-12-27 |
| 公開(公告)號: | CN106803096A | 公開(公告)日: | 2017-06-06 |
| 發明(設計)人: | 姚鐸;夏天;高小勇;苗路平 | 申請(專利權)人: | 上海大漢三通通信股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司11227 | 代理人: | 羅滿 |
| 地址: | 201203 上海市浦東新區自由貿易試驗區*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 短信 類型 識別 方法 系統 管理 平臺 | ||
1.一種短信類型識別方法,其特征在于,包括:
獲取待檢測短信;
提取所述待檢測短信中的特征詞,并為每個特征詞分配相應的權重,得到與所述待檢測短信對應的目標特征向量;
分別計算所述目標特征向量與預先創建的正常短信特征模型向量和垃圾短信特征模型向量之間相似度,得到相應的第一相似度和第二相似度;其中,所述正常短信特征模型向量為對預先獲取的歷史正常短信集進行學習訓練后得到的向量,所述垃圾短信特征模型向量為對預先獲取的歷史垃圾短信集進行學習訓練后得到的向量;
利用所述第一相似度和所述第二相似度,確定出所述待檢測短信的短信類型。
2.根據權利要求1所述的短信類型識別方法,其特征在于,所述正常短信特征模型向量的創建過程,包括:
對所述歷史正常短信集中的每一正常短信均進行分詞處理以及過濾停用詞,得到與所述歷史正常短信集對應的第一分詞集;其中,所述第一分詞集中包括N個分詞包,N值與所述歷史正常短信集中的短信數量相一致,每個分詞包中包括至少一個分詞;
為所述第一分詞集的每個分詞包中的每個分詞分配相應的權重,得到第一賦權分詞集;
利用信息增益方法,對所述第一賦權分詞集中的冗余分詞進行過濾,得到相應的第一特征詞集;
利用所述第一特征詞集以及所述第一特征詞集中所反映的短信ID、分詞和權重之間的映射關系,構造相對應的稀疏矩陣,得到第一稀疏矩陣;
分別對所述第一稀疏矩陣中的每一維度進行算術平均,得到所述正常短信特征模型向量。
3.根據權利要求2所述的短信類型識別方法,其特征在于,所述為所述第一分詞集的每個分詞包中的每個分詞分配相應的權重的過程,包括:
結合所述歷史正常短信集中每一正常短信的短信發送方和/或預先獲取到的正常短信關鍵詞和/或詞頻和/或逆文檔頻率,計算所述第一分詞集中每個分詞對應的權重,并將得到的各個權重分配給相應的分詞。
4.根據權利要求1所述的短信類型識別方法,其特征在于,所述垃圾短信特征模型向量的創建過程,包括:
對所述歷史垃圾短信集中的每一垃圾短信均進行分詞處理以及過濾停用詞,得到與所述歷史垃圾短信集對應的第二分詞集;其中,所述第二分詞集中包括M個分詞包,M值與所述歷史垃圾短信集中的短信數量相一致,每個分詞包中包括至少一個分詞;
為所述第二分詞集的每個分詞包中的每個分詞分配相應的權重,得到第二賦權分詞集;
利用信息增益方法,對所述第二賦權分詞集中的冗余分詞進行過濾,得到相應的第二特征詞集;
利用所述第二特征詞集以及所述第二特征詞集中所反映的短信ID、分詞和權重之間的映射關系,構造相對應的稀疏矩陣,得到第二稀疏矩陣;
分別對所述第二稀疏矩陣中的每一維度進行算術平均,得到所述垃圾短信特征模型向量。
5.根據權利要求1至4任一項所述的短信類型識別方法,其特征在于,所述利用所述第一相似度和所述第二相似度,確定出所述待檢測短信的短信類型的過程,包括:
判斷所述第一相似度是否大于所述第二相似度,如果是,則確定所述待檢測短信的短信類型為正常短信,如果否,則確定所述待檢測短信的短信類型為垃圾短信。
6.根據權利要求1至4任一項所述的短信類型識別方法,其特征在于,所述利用所述第一相似度和所述第二相似度,確定出所述待檢測短信的短信類型的過程,包括:
計算所述第一相似度與所述第二相似度之間的差的絕對值,得到相似度差值;
判斷所述相似度差值是否大于預設閾值;
若所述相似度差值大于所述預設閾值,則判斷所述第一相似度是否大于所述第二相似度,如果是,則確定所述待檢測短信的短信類型為正常短信,如果否,則確定所述待檢測短信的短信類型為垃圾短信;
若所述相似度差值小于或等于所述預設閾值,則禁止對所述待檢測短信進行類型識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海大漢三通通信股份有限公司,未經上海大漢三通通信股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611227867.6/1.html,轉載請聲明來源鉆瓜專利網。





