[發明專利]一種快速匹配短信文本的方法無效
| 申請號: | 200810071982.8 | 申請日: | 2008-10-23 |
| 公開(公告)號: | CN101398837A | 公開(公告)日: | 2009-04-01 |
| 發明(設計)人: | 吳仁平 | 申請(專利權)人: | 深圳市奇跡通訊有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;H04W4/14 |
| 代理公司: | 福州元創專利商標代理有限公司 | 代理人: | 蔡學俊 |
| 地址: | 201203上海市浦東張*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 快速 匹配 短信 文本 方法 | ||
技術領域
本發明涉及一種移動通訊業務領域,具體的說就是提高短信內容匹配的算法技巧的解決方法。
背景技術
在移動的短信業務中,短信跟蹤匹配發揮巨大的作用,為開展業務奠定了基礎,基于該技術的產品、服務、應用也隨之孕育而生。隨著業務的快速發展以及市場的需求,需要將該技術改進,做強,提高跟蹤匹配的效率。
現有的文本匹配技術中,采用源文本與目標文本逐字進行匹配的方式,該種匹配方法占用系統資源多,效率低,無法滿足海量短信話單的匹配要求。
發明內容
本發明的目的是實現短信文本的快速匹配,而且可以滿足海量短信話單的匹配要求,具有較好的實用價值。
本發明是這樣實現的,一種快速匹配短信文本的方法,其特征在于:將需要匹配的短信文本通過“,、。”等中英文標點符號分割形成一個個碎片,并將這些碎片通過Hash算法計算出Hash值,在進行匹配時,將源短信文本的各碎片的Hash值和目標短信文本的各碎片的Hash值進行比較,通過相似度來控制輸出匹配結果;
具體包括以下步驟:
a)將每條源短信文本按照“,、。”等中英文標點符號分割成一個個碎片,并計算這些碎片的Hash值,并將這些Hash值存于內存中;
b)以FTP方式從短信中心或其他存儲短信話單文件的服務器上獲取短信話單,并加載、提取話單文件中每條通話記錄中的短信內容,將這些短信內容按照“,、。”等中英文標點符號分割成一個個碎片,并計算這些碎片的Hash值;
c)將目標短信文本的每個碎片的Hash值與源短信文本的每段短信的每個碎片的Hash值進行比較;
d)通過比較后,如相似度大于系統設定的值,則進行下一條目標短信內容比較;
e)如發現相似度不滿足系統設定的值,則進行下一條源短信內容比較匹配,直到找到相似度滿足系統設定的值,并將結果輸出;
下面結合附圖及實施例對本發明做進一步說明。
附圖說明
圖1為本發明的系統工作流程圖。
具體實施方式
如圖1所示,本發明一種快速匹配短信文本的方法,其特征在于:將需要匹配的短信文本通過“,、。”等中英文標點符號分割形成一個個碎片,并將這些碎片通過Hash算法計算出Hash值,在進行匹配時,將源短信文本的各碎片的Hash值和目標短信文本的各碎片的Hash值進行比較,通過相似度來控制輸出匹配結果;
該方法具體包括以下步驟:
a)將每條源短信文本按照“,、。”等中英文標點符號分割成一個個碎片,并計算這些碎片的Hash值,并將這些Hash值存于內存中;
b)以FTP方式從短信中心或其他存儲短信話單文件的服務器上獲取短信話單,并加載、提取話單文件中每條通話記錄中的短信內容,將這些短信內容按照“,、。”等中英文標點符號分割成一個個碎片,并計算這些碎片的Hash值;
c)將目標短信文本的每個碎片的Hash值與源短信文本的每段短信的每個碎片的Hash值進行比較;
d)通過比較后,如相似度大于系統設定的值,則進行下一條目標短信內容比較;
e)如發現相似度不滿足系統設定的值,則進行下一條源短信內容比較匹配,直到找到相似度滿足系統設定的值,并將結果輸出;
為了滿足系統的需要,話單獲取可以以FTP方式獲取話單,包括采用其他協議獲取和從短信中心或其他存儲短信話單文件的服務器上獲取短信話單;源短信的Hash值可存儲在內存中或數據庫中;所述的源短信的加載可以以全量或增量的方式通過文件加載或者通過其他消息協議的方式加載。
所述的系統設定的值可以存儲在文件(如XML標準格式文件)或數據庫中,并可以通過程序對這些文件或數據庫進行修改,從而使匹配計算時按照修改后的相似度值進行比較。相似度為話單文件中每條話單記錄內容同種子的相似性的一個度量值。在匹配中,按照碎片進行比較,將匹配上的碎片的個數作為分子,源短信文本的碎片數作為分母,則相似度為:分子/分母。考慮到用戶的轉發行為中,通常會在待轉短信的首或未添加一些信息,故在實際應用中,相似度通常設置為80%;如果要得到兩段短信文本是否完全一致,則將相似度設置為100%即可。
為了保證匹配結果的安全性,在匹配結果輸出之前,還可以對匹配結果進行加密,其加密方式可以是整條記錄加密,也可對整條記錄中的某些字段進行加密,最后通過文件的方式輸出,也可以通過其他實時消息接口的方式輸出到其他系統。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市奇跡通訊有限公司,未經深圳市奇跡通訊有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200810071982.8/2.html,轉載請聲明來源鉆瓜專利網。





