[發明專利]分類模型訓練、偽基站短信識別方法和裝置有效
| 申請號: | 201710951809.6 | 申請日: | 2017-10-13 |
| 公開(公告)號: | CN110019791B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 吳文亮 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 何平;鄧云鵬 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 分類 模型 訓練 基站 短信 識別 方法 裝置 | ||
1.一種分類模型訓練方法,其特征在于,所述方法包括:
提取短信樣本集中各短信樣本的內容特征和相應的基站信號特征;
對應每個短信樣本,從所述基站信號特征中提取信號強度特征和信號位置特征,將根據相應的內容特征得到的內容識別結果、根據相應的基站信號特征得到的基站識別結果、所述信號強度特征和所述信號位置特征分別映射為向量元素,組合映射得到的各所述向量元素,以生成相應的樣本特征向量;
將生成的各所述短信樣本相應的樣本特征向量構成樣本特征數據集,將所述樣本特征數據集分為第一樣本特征數據集和第二樣本特征數據集,所述第一樣本特征數據集不同于所述第二樣本特征數據集;
根據所述第一樣本特征數據集中的樣本特征數據訓練第一分類模型;
通過訓練完成的第一分類模型,對所述第二樣本特征數據集中的樣本特征數據進行分類,得到分類為疑似偽基站短信類的樣本特征數據;
根據分類為疑似偽基站短信類的樣本特征數據訓練用于偽基站短信分類的第二分類模型。
2.根據權利要求1所述的方法,其特征在于,所述將根據相應的內容特征得到的內容識別結果、根據相應的基站信號特征得到的基站識別結果、所述信號強度特征和所述信號位置特征分別映射為向量元素,組合映射得到的各所述向量元素,包括:
將相應的內容識別結果和基站識別結果分別按照各自所屬的識別結果類型映射為向量元素;
將相應的信號強度特征和信號位置特征分別按照各自所屬的特征區間映射為向量元素。
3.根據權利要求1至2中任一項所述的方法,其特征在于,所述通過訓練完成的第一分類模型,對所述第二樣本特征數據集中的樣本特征數據進行分類,得到分類為疑似偽基站短信類的樣本特征數據,包括:
將所述第二樣本特征數據集中的樣本特征數據依次輸入訓練完成的第一分類模型;
在所述第一分類模型輸出的分類結果為疑似偽基站短信類時,則保留當前輸入的樣本特征數據;
所述根據分類為疑似偽基站短信類的樣本特征數據訓練第二分類模型,包括:
根據當前保留的樣本特征數據訓練第二分類模型。
4.一種偽基站短信識別方法,其特征在于,所述方法包括:
讀取短信;
提取所述短信的內容特征和相應的基站信號特征,從所述基站信號特征中提取信號強度特征和信號位置特征,將根據所述內容特征得到的內容識別結果、根據所述基站信號特征得到的基站識別結果、所述信號強度特征和所述信號位置特征分別映射為向量元素,組合映射得到的各所述向量元素,以生成與所述短信相應的特征向量;
將所述特征向量輸入第一分類模型;
當所述第一分類模型輸出的分類結果為疑似偽基站短信類時,將所述特征向量輸入第二分類模型;
通過所述第二分類模型輸出所述短信是否為偽基站短信的分類結果。
5.根據權利要求4所述的方法,其特征在于,所述內容識別結果包括內容本地識別結果和內容云端識別結果;所述基站識別結果包括基站本地識別結果和基站云端識別結果;
所述方法還包括:
在本地查詢所述內容特征對應的內容本地識別結果,及所述基站信號特征對應的基站本地識別結果;
獲取從服務器請求得到的所述內容特征對應的內容云端識別結果,及所述基站信號特征對應的基站云端識別結果。
6.根據權利要求5所述的方法,其特征在于,所述在本地查詢所述內容特征對應的內容本地識別結果,及所述基站信號特征對應的基站本地識別結果,包括:
確定所述內容特征所屬的內容特征類型;
查詢所述內容特征類型所映射至的內容本地識別結果;
將所述基站信號特征與預設基站信號特征比較,得到基站本地識別結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710951809.6/1.html,轉載請聲明來源鉆瓜專利網。





