[發明專利]一種實現中文短信模糊匹配關鍵字的方法無效
| 申請號: | 201110242396.7 | 申請日: | 2011-08-23 |
| 公開(公告)號: | CN102323929A | 公開(公告)日: | 2012-01-18 |
| 發明(設計)人: | 肖克華 | 申請(專利權)人: | 上海粱江通信技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海兆豐知識產權代理事務所(有限合伙) 31241 | 代理人: | 章蔚強 |
| 地址: | 200070 上海市*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實現 中文 短信 模糊 匹配 關鍵字 方法 | ||
技術領域
本發明涉及一種實現中文短信模糊匹配關鍵字的方法,具體地說,對于給定的關鍵字,該方法除了能精確識別包含該關鍵字的短信外,還可以對內容中包含干擾字符、繁體字、形近字、拆分字和諧音字的短信也能夠匹配該關鍵字。
背景技術
短信息服務作為移動通信網絡的一種基本業務,在為用戶提供便捷消息通信服務的同時,也為信息垃圾的傳播提供了渠道。而且垃圾短信息有著愈演愈烈的趨勢,垃圾短信不但帶來用戶投訴而產生的不良影響,還帶來惡意欠費的問題,因此需要對垃圾短信進行實時監控攔截。
為了防止被監測,垃圾短信的制造者采用很多方式(如繁簡體混合、形近字、諧音字、拆分字等)對內容進行處理,同時在其中混淆一些無意義的字符,用來欺騙攔截算法,以防止所發送的短信被監測和封堵。
現有的文本的模式匹配多采用精確匹配的模式,隨著時間的推移,尤其是對模糊匹配的需求,這些技術都不太適合現實的需求。
發明內容
本發明的目的在于克服現有技術的缺陷而提供一種實現中文短信模糊匹配關鍵字的方法,通過對短信內容采用繁簡體轉換、中文轉換拼音、形近字轉換和拆分字轉換等,并按照功能組合模糊匹配關鍵字的方法,提高垃圾短信過濾的查全率。
實現上述目的的技術方案是:
一種實現中文短信模糊匹配關鍵字的方法,其中,所述方法基于一導入了包括拆分字組合字典、形近字轉換字典、繁簡體轉換字典、漢字拼音字典和近音轉換字典的系統,所述方法包括以下步驟:
步驟S1,關鍵字設置,錄入需要過濾的關鍵字;
步驟S2,關鍵字模糊轉換,按照所述關鍵字的功能開關組合,轉換該關鍵字為各級別的模糊關鍵字;所述關鍵字的功能開關組合包括以下功能中的一個或多個:中文繁簡體轉換功能、中文轉拼音功能、近音轉換功能、形近字轉換功能、拆分字組合功能和干擾字符過濾功能;
步驟S3,短信采集,將需要匹配的短信輸入所述系統;
步驟S4,短信內容模糊轉換,按照所述模糊關鍵字所處的級別,將所述短信的內容轉換成與所述模糊關鍵字同一級別的模糊短信;
步驟S5,匹配有效性檢查,將轉換后的所述模糊短信與轉換后的所述模糊關鍵字匹配;
步驟S6,匹配結果輸出,如果步驟S5中所述模糊短信與所述模糊關鍵字有相互匹配的字符,則過濾此條短信;否則判定為正常短信,對此短信做放通處理;繼續處理下一條短信。
上述的實現中文短信模糊匹配關鍵字的方法,其中,所述步驟S4包括以下步驟:
步驟S41,過濾干擾字符,按照所述模糊關鍵字所處的級別,判斷是否需要過濾干擾字符,如果不需要過濾,則跳過此步驟;否則,啟用過濾開關,掃描所述短信,過濾掉該短信內容中無意義的干擾字符;
步驟S42,拆分字組合,按照所述模糊關鍵字所處的級別,判斷是否需要拆分組合,如果不需要拆分組合,則跳過此步驟;否則,啟用組合開關,掃描所述短信,如果發現滿足所述拆分字組合字典中的字符組合,則轉換此字符組合為字典中的標準字符;
步驟S43,形近字轉換,按照所述模糊關鍵字所處的級別,判斷是否需要形近轉換,如果不需要形近轉換,則跳過此步驟;否則,啟用形近開關,掃描所述短信,如果發現滿足所述形近字轉換字典中的形近轉換字符,則轉換此字符為字典中的標準字符;
步驟S44,繁簡轉換,按照所述模糊關鍵字所處的級別,判斷是否需要繁簡轉換,如果不需要繁簡轉換,則跳過此步驟;否則,啟用繁簡開關,掃描所述短信,如果發現滿足所述繁簡體轉換字典中的字符,則轉換此字符為字典中的對應的標準字符;
步驟S45,漢字轉拼音,按照所述模糊關鍵字所處的級別,判斷是否需要拼音轉換,如果不需要拼音轉換,則跳過此步驟;否則,啟用拼音開關,掃描所述短信,發現滿足所述漢字拼音字典中的字符,則轉換此字符為字典中對應的標準拼音;
步驟S46,近音轉換,按照所述模糊關鍵字所處的級別,判斷是否需要近音轉換,如果不需要近音轉換,則跳過此步驟;否則,啟用近音開關,掃描所述短信,發現滿足近音轉換字典中的字符,則轉換此拼音為字典中對應的標準拼音。
上述的實現中文短信模糊匹配關鍵字的方法,其中,所述步驟S2中,所述關鍵字的功能開關組合不包括任何一個所述功能,即跳過步驟S2,此時,則實現所述短信對所述關鍵字的精確匹配。
上述的實現中文短信模糊匹配關鍵字的方法,其中,所述短信包括垃圾短信。
上述的實現中文短信模糊匹配關鍵字的方法,其中,所述短信包括大容量和高速的短信。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海粱江通信技術有限公司,未經上海粱江通信技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201110242396.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:雙向彈力壓力板
- 下一篇:一種醫療用輸液報警器





