[發(fā)明專(zhuān)利]一種短信類(lèi)型識(shí)別方法、系統(tǒng)及短信管理平臺(tái)在審
| 申請(qǐng)?zhí)枺?/td> | 201611227867.6 | 申請(qǐng)日: | 2016-12-27 |
| 公開(kāi)(公告)號(hào): | CN106803096A | 公開(kāi)(公告)日: | 2017-06-06 |
| 發(fā)明(設(shè)計(jì))人: | 姚鐸;夏天;高小勇;苗路平 | 申請(qǐng)(專(zhuān)利權(quán))人: | 上海大漢三通通信股份有限公司 |
| 主分類(lèi)號(hào): | G06K9/62 | 分類(lèi)號(hào): | G06K9/62;G06F17/27 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司11227 | 代理人: | 羅滿(mǎn) |
| 地址: | 201203 上海市浦東新區(qū)自由貿(mào)易試驗(yàn)區(qū)*** | 國(guó)省代碼: | 上海;31 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 短信 類(lèi)型 識(shí)別 方法 系統(tǒng) 管理 平臺(tái) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及短信管理技術(shù)領(lǐng)域,特別涉及一種短信類(lèi)型識(shí)別方法、系統(tǒng)及短信管理平臺(tái)。
背景技術(shù)
當(dāng)前,隨著短信業(yè)務(wù)的發(fā)展,手機(jī)用戶(hù)受到越來(lái)越多垃圾短信的騷擾。非法短信、騷擾短信、欺詐短信以及各類(lèi)垃圾短信大行其道。根據(jù)手機(jī)短消息狀況調(diào)查報(bào)告顯示,用戶(hù)平均每周收到垃圾短信11.4條,收到垃圾短消息占全部短消息的比例為22.6%。垃圾短消息治理刻不容緩,治理好垃圾短信成為運(yùn)營(yíng)商提高通信服務(wù)質(zhì)量的關(guān)鍵所在。
一般地,垃圾短信的具有如下兩個(gè)特征:第一,垃圾短信發(fā)送者和接受者之間不存在社會(huì)網(wǎng)絡(luò)聯(lián)系,第二,內(nèi)容相同或相似的短信在短時(shí)間內(nèi)達(dá)到一定的發(fā)送量。
然而,由于物流、金融等正常短信雖然并不群發(fā),但由于用戶(hù)數(shù)量眾多,造成其短時(shí)間內(nèi)發(fā)送量巨大,使得上述兩特點(diǎn)都難以被短信服務(wù)供應(yīng)商用于反垃圾短信。如何對(duì)短信類(lèi)型進(jìn)行有效識(shí)別是目前亟待解決的問(wèn)題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種短信類(lèi)型識(shí)別方法、系統(tǒng)及短信管理平臺(tái),能夠?qū)Χ绦蓬?lèi)型進(jìn)行有效地識(shí)別。其具體方案如下:
一種短信類(lèi)型識(shí)別方法,包括:
獲取待檢測(cè)短信;
提取所述待檢測(cè)短信中的特征詞,并為每個(gè)特征詞分配相應(yīng)的權(quán)重,得到與所述待檢測(cè)短信對(duì)應(yīng)的目標(biāo)特征向量;
分別計(jì)算所述目標(biāo)特征向量與預(yù)先創(chuàng)建的正常短信特征模型向量和垃圾短信特征模型向量之間相似度,得到相應(yīng)的第一相似度和第二相似度;其中,所述正常短信特征模型向量為對(duì)預(yù)先獲取的歷史正常短信集進(jìn)行學(xué)習(xí)訓(xùn)練后得到的向量,所述垃圾短信特征模型向量為對(duì)預(yù)先獲取的歷史垃圾短信集進(jìn)行學(xué)習(xí)訓(xùn)練后得到的向量;
利用所述第一相似度和所述第二相似度,確定出所述待檢測(cè)短信的短信類(lèi)型。
可選的,所述正常短信特征模型向量的創(chuàng)建過(guò)程,包括:
對(duì)所述歷史正常短信集中的每一正常短信均進(jìn)行分詞處理以及過(guò)濾停用詞,得到與所述歷史正常短信集對(duì)應(yīng)的第一分詞集;其中,所述第一分詞集中包括N個(gè)分詞包,N值與所述歷史正常短信集中的短信數(shù)量相一致,每個(gè)分詞包中包括至少一個(gè)分詞;
為所述第一分詞集的每個(gè)分詞包中的每個(gè)分詞分配相應(yīng)的權(quán)重,得到第一賦權(quán)分詞集;
利用信息增益方法,對(duì)所述第一賦權(quán)分詞集中的冗余分詞進(jìn)行過(guò)濾,得到相應(yīng)的第一特征詞集;
利用所述第一特征詞集以及所述第一特征詞集中所反映的短信ID、分詞和權(quán)重之間的映射關(guān)系,構(gòu)造相對(duì)應(yīng)的稀疏矩陣,得到第一稀疏矩陣;
分別對(duì)所述第一稀疏矩陣中的每一維度進(jìn)行算術(shù)平均,得到所述正常短信特征模型向量。
可選的,所述為所述第一分詞集的每個(gè)分詞包中的每個(gè)分詞分配相應(yīng)的權(quán)重的過(guò)程,包括:
結(jié)合所述歷史正常短信集中每一正常短信的短信發(fā)送方和/或預(yù)先獲取到的正常短信關(guān)鍵詞和/或詞頻和/或逆文檔頻率,計(jì)算所述第一分詞集中每個(gè)分詞對(duì)應(yīng)的權(quán)重,并將得到的各個(gè)權(quán)重分配給相應(yīng)的分詞。
可選的,所述垃圾短信特征模型向量的創(chuàng)建過(guò)程,包括:
對(duì)所述歷史垃圾短信集中的每一垃圾短信均進(jìn)行分詞處理以及過(guò)濾停用詞,得到與所述歷史垃圾短信集對(duì)應(yīng)的第二分詞集;其中,所述第二分詞集中包括M個(gè)分詞包,M值與所述歷史垃圾短信集中的短信數(shù)量相一致,每個(gè)分詞包中包括至少一個(gè)分詞;
為所述第二分詞集的每個(gè)分詞包中的每個(gè)分詞分配相應(yīng)的權(quán)重,得到第二賦權(quán)分詞集;
利用信息增益方法,對(duì)所述第二賦權(quán)分詞集中的冗余分詞進(jìn)行過(guò)濾,得到相應(yīng)的第二特征詞集;
利用所述第二特征詞集以及所述第二特征詞集中所反映的短信ID、分詞和權(quán)重之間的映射關(guān)系,構(gòu)造相對(duì)應(yīng)的稀疏矩陣,得到第二稀疏矩陣;
分別對(duì)所述第二稀疏矩陣中的每一維度進(jìn)行算術(shù)平均,得到所述垃圾短信特征模型向量。
可選的,所述利用所述第一相似度和所述第二相似度,確定出所述待檢測(cè)短信的短信類(lèi)型的過(guò)程,包括:
判斷所述第一相似度是否大于所述第二相似度,如果是,則確定所述待檢測(cè)短信的短信類(lèi)型為正常短信,如果否,則確定所述待檢測(cè)短信的短信類(lèi)型為垃圾短信。
可選的,所述利用所述第一相似度和所述第二相似度,確定出所述待檢測(cè)短信的短信類(lèi)型的過(guò)程,包括:
計(jì)算所述第一相似度與所述第二相似度之間的差的絕對(duì)值,得到相似度差值;
判斷所述相似度差值是否大于預(yù)設(shè)閾值;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于上海大漢三通通信股份有限公司,未經(jīng)上海大漢三通通信股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611227867.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 車(chē)載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線(xiàn)程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





