[發明專利]一種利用代表向量過濾信息的方法和裝置有效
| 申請號: | 201310259175.X | 申請日: | 2013-06-26 |
| 公開(公告)號: | CN104252465B | 公開(公告)日: | 2018-10-12 |
| 發明(設計)人: | 蘇江 | 申請(專利權)人: | 南寧明江智能科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 賈磊 |
| 地址: | 530003 廣西壯族自治區南*** | 國省代碼: | 廣西;45 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 利用 代表 向量 過濾 信息 方法 裝置 | ||
本發明涉及信息分析技術領域,具體而言,本發明涉及一種利用代表向量過濾信息的方法和裝置。其中信息過濾方法包括將信息轉換為信息向量;將所述信息向量中相似的信息向量置于同一信息向量組中;找出信息向量組中的代表向量;將待分析信息轉換為信息向量,與所述代表向量相比較,如果與所述代表向量匹配則濾除所述待分析信息。通過上述本發明實施例的方法及裝置,可以減少信息過濾中匹配的次數,縮小匹配數據庫的規模,并且過濾信息準確率很高。
技術領域
本發明涉及信息分析技術領域,具體而言,本發明涉及一種利用代表向量過濾信息的方法和裝置。
背景技術
短信,微信,微博,電子郵件,可以利用一個發送賬號向一個或多個接受賬號發送文本信息,這類通訊方式,在成為一種流行的溝通方式的同時,也為垃圾信息的傳播提供了渠道。
以現有技術中的短信息為例,垃圾短消息的問題日益泛濫。垃圾短消息中的廣告短消息不但影響了客戶感知、損害客戶利益,而且部分違法的垃圾信息還影響了社會穩定和國家安全。因此對垃圾短消息智能識別分類和攔截的研究成了目前移動運營商重要的課題。
目前對垃圾信息的識別和治理方式是可以分為以下幾種:
(1)黑名單過濾,如中國專利申請201110182348.3、201010561642.0和201010184392.3。即判斷是否短信發送號碼是否在已知的黑名單列表中。建立黑名單可以由行為分析,如是否群發短信等完成。
(2)內容過濾,使用預設關鍵字,如中國專利申請201210580601.5和201210498100.2。即判斷是否短信中包含預設關鍵字/組,然后加上一定的行為分析。
或使用文本分類模型,對短信語義內容加以判斷。如中國專利申請201110003289.9和201010225273.8。
目前短信過濾的主要缺點是誤判率高。例如,垃圾短信發送人員利用植入木馬的方式盜用用戶號碼發送短信,可能造成黑名單過濾誤判大量短信。另外,大量詐騙短信使用的都是正常關鍵字。例如短信“你想有.張能聽:對#方#談#話,收,到,對#方,信#息,的咔.嗎”,很難找出合適的誤判率低的關鍵字/組。
即使找出,也可以輕易修改關鍵字逃避監管。例如,對發票短信“如↓正需↓規各↓稅類↓據→→×××××××××”,運營商花費了大量人力物力,
在幾年的時間內,對該條發票短信設置了上千個關鍵字/組,但該條短信的變種還是每天都出現在短信網上。使用機器學習中的文本分類方法,在已分類短信上訓練分類模型,
再使用模型對短信內容進行自動分類是目前研究的重點。但是,由于文本分類中訓練和過濾數據分布不一致造成的概念漂移,以及類不平衡問題,常常造成誤判,使得實際應用時誤判率無法達到要求。
為解決高誤判率問題,系統中常常需要大量客服人員解決誤判帶來的一系列問題,或需要人工座席判斷是否垃圾短信等。
由于現有短信過濾系統的高誤判率問題,造成運營商由于擔心影響生產或高昂的系統使用費用,常常不敢啟用過濾系統,使得許多垃圾短信系統形同虛設。
運營商急需一套誤判率小于萬分之一,系統的使用無需專人管理的自動化的過濾系統,以實現在不影響短信正常使用,以較低的費用,達到治理垃圾短信的目的。
發明內容
為了解決現有技術中信息分析中的問題,提出了一種利用代表向量過濾信息的方法和裝置。在本發明中,我們使用垃圾短信作為發明的一個實施說明和舉例,但本發明的所有技術均適用于其他類似通訊手段,包括但不限于短信,微信,微博,電子郵件等。
本發明實施例提供了一種利用代表向量過濾信息的方法,包括,
將信息轉換為信息向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南寧明江智能科技有限公司,未經南寧明江智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310259175.X/2.html,轉載請聲明來源鉆瓜專利網。





