[發明專利]一種信息處理方法及裝置在審
| 申請號: | 201410832128.4 | 申請日: | 2014-12-26 |
| 公開(公告)號: | CN105786792A | 公開(公告)日: | 2016-07-20 |
| 發明(設計)人: | 鄧超;張峰;粟栗;冉鵬 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 張穎玲;孟桂超 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 信息處理 方法 裝置 | ||
1.一種信息處理方法,其特征在于,所述方法包括:
根據待標定短信的文本內容,生成所述待標定短信的指紋;
將所述待標定短信的指紋同時與垃圾短信黑指紋庫和正常短信白指紋庫中 的指紋進行比對;
根據與所述垃圾短信黑指紋庫中指紋的比對結果及與所述正常短信白指紋 庫中指紋的比對結果,標定所述待標定短信為垃圾短信或正常短信。
2.根據權利要求1所述的方法,其特征在于,所述生成所述待標定短信的 指紋之前,所述方法還包括:
對所述文本內容進行預處理及去噪聲處理;
相應地,根據預處理及去噪聲處理后的文本內容,生成所述待標定短信的 指紋。
3.根據權利要求2所述的方法,其特征在于,所述對文本內容進行預處理 及去噪聲處理,包括:
對短信文本內容進行英文字符剔除、以及電話號碼和數字剔除的去噪聲操 作。
4.根據權利要求1所述的方法,其特征在于,所述生成所述待標定短信的 指紋,為:
將所述待標定短信的文本內容,生成SimHash編碼,以作為所述待標定短 信的指紋。
5.根據權利要求1所述的方法,其特征在于,所述將所述待標定短信的指 紋同時與垃圾短信黑指紋庫和正常短信白指紋庫中的指紋進行比對之前,所述 方法還包括:
依據對所有疑似短信的人工標定結果,建立所述垃圾短信黑指紋庫和正常 短信白指紋庫。
6.根據權利要求5所述的方法,其特征在于,建立所述垃圾短信黑指紋庫 和正常短信白指紋庫后,且將所述待標定短信的指紋同時與垃圾短信黑指紋庫 和正常短信白指紋庫中的指紋進行比對之前,所述方法還包括:
將建立指紋庫時所用的垃圾短信集對所述正常短信白指紋庫進行沖突檢 測;根據檢測結果對所述正常短信白指紋庫中的指紋進行糾正;
將建立指紋庫時所用的正常短信集對所述垃圾短信黑指紋庫進行沖突檢 測;根據檢測結果對所述垃圾短信黑指紋庫中的指紋進行糾正。
7.根據權利要求2所述的方法,其特征在于,將所述待標定短信的指紋同 時與垃圾短信黑指紋庫和正常短信白指紋庫中的指紋進行比對之前,所述方法 還包括:
確定預處理及去噪聲處理后的文本內容對應的字符串長度大于設置的字符 串長度門限時,將所述待標定短信的指紋同時與垃圾短信黑指紋庫和正常短信 白指紋庫中的指紋進行比對。
8.根據權利要求2所述的方法,其特征在于,所述將所述待標定短信的指 紋同時與垃圾短信黑指紋庫和正常短信白指紋庫中的指紋進行比對,包括:
將預處理及去噪聲處理后的文本內容對應的字符串作為索引,將所述待標 定短信的指紋同時與垃圾短信黑指紋庫和正常短信白指紋庫中的指紋進行比 對。
9.根據權利要求8所述的方法,其特征在于,所述將所述待標定短信的指 紋同時與垃圾短信黑指紋庫和正常短信白指紋庫中的指紋進行比對,為:
將所述標定短信的指紋同時與垃圾短信黑指紋庫和正常短信白指紋庫中的 指紋進行比對,得到對應的指紋相似度;
將得到的指紋相似度與對應的指紋相似度測度海明距離進行比較,從而確 定對比結果。
10.根據權利要求1所述的方法,其特征在于,所述根據與所述垃圾短信 黑指紋庫中指紋的比對結果及與所述正常短信白指紋庫中指紋的比對結果,標 定所述待標定短信為垃圾短信或正常短信,包括:
當與所述垃圾短信黑指紋庫中指紋的比對結果為比對成功,且與所述正常 短信白指紋庫中指紋的比對結果為比對失敗時,標定所述待標定短信為垃圾短 信;或者,
當與所述垃圾短信黑指紋庫中指紋的比對結果為比對失敗,且與所述正常 短信白指紋庫中指紋的比對結果為比對成功時,標定所述待標定短信為正常短 信;或者,
當與所述垃圾短信黑指紋庫中指紋的比對結果為比對失敗,且與所述正常 短信白指紋庫中指紋的比對結果為比對失敗時,標定所述待標定短信為待人工 標定短信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410832128.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種人機交互中自然語言意圖理解方法
- 下一篇:遠程閱讀PDF文件的方法





