[發明專利]一種基于中文分詞識別不規則垃圾短信的方法有效
| 申請號: | 201210533577.X | 申請日: | 2012-12-12 |
| 公開(公告)號: | CN103874033B | 公開(公告)日: | 2017-11-24 |
| 發明(設計)人: | 肖克華 | 申請(專利權)人: | 上海粱江通信系統股份有限公司 |
| 主分類號: | H04W4/14 | 分類號: | H04W4/14;H04M1/725;G06F17/27 |
| 代理公司: | 上海兆豐知識產權代理事務所(有限合伙)31241 | 代理人: | 章蔚強 |
| 地址: | 200070 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 中文 分詞 識別 不規則 垃圾 短信 方法 | ||
技術領域
本發明涉及一種垃圾短信的識別方法,尤其涉及一種基于中文分詞識別不規則垃圾短信的方法。
背景技術
目前,短信息服務作為移動通信網絡的一種基本業務,在為用戶提供便捷消息通信服務的同時,也成為反動、涉黃和詐騙等非法短信的發送渠道。在垃圾短信治理領域,具有申請號:200710036831.4的專利《一種基于信令處理技術的短信凈化系統》,該專利定義的系統由若干臺連接于七號信令網中信令鏈路的信令消息檢測處理裝置MPM和一業務管理中心CSM構成。MPM對流經的短信消息進行分析處理,根據業務規則與黑白名單,實現短信的選通與攔截處理,將相關消息傳送給CSM,CSM進行頻次統計、業務規則與用戶數據管理與同步。
在MPM和CSM系統中,針對垃圾短信的發送特征多為詐騙或者廣告,采用發送行為分析(流量)和文本特征分析(關鍵字等)方式進行短信治理,對于垃圾短信的發現和治理是一定成效的。而在短信內容過濾上,一般按照短信的編碼順序,分析短信,判斷是否符合關鍵字過濾規則,也就是在手機上通??吹降膹淖蟮接业亩绦排帕蟹绞健5?,為了規避關鍵字過濾,垃圾短信出現了采用了不規則排列方式,如仿照古文從上至下的文本排列方式,區別與正常短信排列方式,以逃避關鍵字過濾。
對于此種不規則垃圾短信,目前多采用單個關鍵字組合聯合判定的方式,判定短信是否符合關鍵字規則,即把關鍵字“發票”拆分為“發”和“票”兩個關鍵字,同時符合“發”和“票”的短信等同于“發票”。此種方法雖然一定程度上識別出符合關鍵字的不規則垃圾短信,但也同時造成部分不是包含“發票”的正常短信被判別為垃圾短信,降低了垃圾短信識別的準確率。
發明內容
本發明的目的在于提供一種基于中文分詞識別不規則垃圾短信的方法,該方法采用中文分詞技術,從橫向和豎向兩方面分別分析短信的詞語組成,分別計算短信權重,判定是否為不規則垃圾短信,對于通過豎排試圖規避內容過濾的短信,判定為不規則短信后,可以根據豎排的讀取方式,過濾短信,避免了垃圾短信的漏判,進而提高垃圾短信的查全率和查準率。
實現上述目的的技術方案是:
一種基于中文分詞識別不規則垃圾短信的方法,包括下列步驟:
步驟S1,接收短信,讀取短信內容;
步驟S2,根據短信內容,按照從左到右的橫向排列方式,進行中文分詞;
步驟S 3,按步驟S2的中文分詞結果,記錄單詞個數W1,W1為正整數,計算短信橫排權重Q1=1/(1+W1);
步驟S4,根據不規則排列短信用控制字符控制每行短信字符數的特點,計算上述接收的短信的不規則區域,將不規則區域中的短信內容按照豎向排列方式讀取,按照讀取的短信內容,將上述接收的短信轉換為橫向排列的短信;
步驟S5,對步驟S4中轉換得到的短信,按照從左到右的橫向排列方式進行中文分詞;
步驟S6,按步驟S5的中文分詞結果,記錄單詞個數W2,W2為正整數,計算短信豎排權重Q2=1/(1+W2);
步驟S7,比較短信橫排權重Q1與短信豎排權重Q2,若Q1<Q2,進入步驟S8b;若Q1>=Q2,進入步驟S8a;
步驟S8a,判定短信為正常排列短信;
步驟S8b,判定短信為不規則排列短信。
上述的基于中文分詞識別不規則垃圾短信的方法,其中,所述步驟S4中,所述的計算上述接收的短信的不規則區域,指:計算每行字符的個數,按照每行的字符個數模型,確定短信的不規則區域。
上述的基于中文分詞識別不規則垃圾短信的方法,其中,所述的每行的字符個數模型,指:等長規則或者等差規則,其中,等長規則指:當前行的字符個數和上一行的字符個數相等;等差規則指:當前行的字符個數與上一行的字符個數的差等于同一個常數。
上述的基于中文分詞識別不規則垃圾短信的方法,其中,所述的不規則排列短信包括:豎排短信、橫豎混排短信和豎排異形短信。
上述的基于中文分詞識別不規則垃圾短信的方法,其中,根據判定的短信類型,采用內容分析匹配關鍵字,依據規則識別出是否符合關鍵字,從而識別是否為垃圾短信。
上述的基于中文分詞識別不規則垃圾短信的方法,其中,所述方法基于連接于七號信令網中信令鏈路的信令消息檢測處理裝置以及連接所述信令消息檢測處理裝置的業務管理中心。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海粱江通信系統股份有限公司,未經上海粱江通信系統股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201210533577.X/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種回收電話線裝置
- 下一篇:一種刀具修磨加工裝置





