[發明專利]一種非正常短消息識別方法及裝置有效
| 申請號: | 201410247352.7 | 申請日: | 2014-06-05 |
| 公開(公告)號: | CN105323732B | 公開(公告)日: | 2018-12-04 |
| 發明(設計)人: | 張濱;婁濤;廖珺;林華生;賈強 | 申請(專利權)人: | 中國移動通信集團公司 |
| 主分類號: | H04W4/14 | 分類號: | H04W4/14 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 李睿;張穎玲 |
| 地址: | 100032 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 正常 短消息 識別 方法 裝置 | ||
本發明公開了一種非正常短消息識別方法,所述方法包括:獲取在第Q個標注周期內的第一短消息集合,所述第一短消息集合為在所述第Q個標注周期內的經過人工標注的短消息的集合;獲取所述第一短消息集合中對每一條短消息的人工標注記錄;依據所述標注記錄,為每一條短消息配置相應的標注序列;依據所述標注序列,確定在所述第Q個標注周期內與所述標注序列相對應的短消息是否為非正常短消息;同時,本發明還公開了一種非正常短消息識別裝置。本發明能夠解決由于人工標注出錯而帶來的垃圾短信識別準確率不高的問題,進而可提高在海量數據系統中垃圾短信識別的效率及準確率。
技術領域
本發明涉及到識別技術,具體涉及一種非正常短消息識別方法及裝置。
背景技術
隨著通信技術的發展,用戶之間不僅可以通過終端電話聯系對方,還可以通過短消息方式聯系對方。隨著短消息的流行,各種違法短信、不良短信、陷阱短信、廣告短信等非正常短消息(垃圾短信)嚴重干擾終端用戶的日常生活。
為避免垃圾短信對用戶產生的困惑,運營商通常在服務器側應用垃圾短信識別方法,通過該方法識別出垃圾短息,并將識別出的非垃圾短信發送至終端側。
目前,在服務器側,通常采用的垃圾短信識別方法為:
依據獲取的垃圾短信訓練集,建立垃圾短信識別模型;根據所建立的模型,對服務器側收集的短信進行逐條的判斷,從而確定哪條短信為垃圾短信。其中,垃圾短信訓練集雖然能夠突顯垃圾短信的特征,但它是由人工標注完成的,比較適合于短信數量不多的情況。對于海量數據系統,短信量較大,同時考慮到同一條短信在不同的時間或由不同的人來標注該短信是否是垃圾短信,可能會產生不同的標注結果,如何在海量數據系統中,降低由人工標注所帶來的標注誤差,進而提升垃圾短信識別的準確率成為了亟待解決的問題。
發明內容
為解決現有存在的技術問題,本發明實施例提供一種非正常短消息識別方法及裝置,能夠解決由人工標注所帶來的標注誤差,有效提高海量數據系統中垃圾短信識別效率及準確率。
本發明實施例的技術方案是這樣實現的:
本發明實施例提供了一種非正常短消息識別方法,所述方法還包括:
獲取在第Q個標注周期內的第一短消息集合,所述第一短消息集合為在所述第Q個標注周期內的經過人工標注的短消息的集合;
獲取所述第一短消息集合中對每一條短消息的人工標注記錄;
依據所述標注記錄,為每一條短消息配置相應的標注序列;
依據所述標注序列,確定在所述第Q個標注周期內與所述標注序列相對應的短消息是否為非正常短消息;其中,Q為正整數。
上述方案中,所述方法還包括:
為所述第一短消息集合中的每一條短消息配置的標注序列的元素的個數等于所述短消息在所述第Q個標注周期內被人工標注的總次數M;
配置所述標注序列的每一元素的取值為與所述標注記錄一一對應的預設值;
相應的,依據所述標注序列,確定在所述第Q個標注周期內與所述標注序列相對應的短消息是否為非正常短消息,包括:
依據所述標注序列的元素的取值,確定在所述第Q個標注周期內與所述標注序列相對應的短消息是否為非正常短消息。
上述方案中,所述預設值包括第一預設值及第二預設值,且所述標注記錄表征所述短消息在第m次標注為非正常短消息時,配置所述標注序列的第m個元素取值為第一預設值;所述標注記錄表征所述短消息在第m次標注為正常短消息時,配置所述標注序列的第m個元素取值為第二預設值;其中,m∈{1~M中的正整數};
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國移動通信集團公司,未經中國移動通信集團公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410247352.7/2.html,轉載請聲明來源鉆瓜專利網。





