[發明專利]基于移動互聯網有害信息的數據挖掘系統及其方法無效
| 申請號: | 201310061132.0 | 申請日: | 2013-02-27 |
| 公開(公告)號: | CN103116647A | 公開(公告)日: | 2013-05-22 |
| 發明(設計)人: | 陳翟翟;舒張磊;黃峰 | 申請(專利權)人: | 武漢虹旭信息技術有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢宇晨專利事務所 42001 | 代理人: | 黃瑞棠 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 移動 互聯網 有害信息 數據 挖掘 系統 及其 方法 | ||
技術領域
????本發明涉及移動互聯網領域,尤其涉及一種基于移動互聯網有害信息的數據挖掘系統及其方法。
背景技術
?????隨著移動互聯網技術的快速發展,承載在互聯網上的信息越來越多,這其中就有很多對社會有害的信息,比如黃、賭、毒等。如何從互聯網的海量信息中挖掘這些有害信息,進而挖掘出有害信息的源頭,做到先期預防。而互聯網上的信息是海量的,有害信息是相對少量的,如何在海量信息中準確提取少量信息,主要還是通過數學建模的方式去做。
目前對于移動互聯網上的有害信息只是通過簡單的字符查詢進行的淺層挖掘,還未提升到基于文本內容上的挖掘。
表達相同含義的文本一定有著類似詞語使用情況,比如體育文本含有NBA(全美籃球協會)、足球、歐錦賽、世界杯等的概率會大大高于其他類型的文本詞語;同時股票文本包含股市、漲停、跌停等詞的概率也會大大高于其他類型的文本詞語。如果從每種類型的文本中找到這種特征并利用這種特征建立一個數學模型,就可以幫助建立一種移動互聯網有害信息的分類方法。
本發明適用于運營商核心網平臺。基于運營商核心網平臺,從核心網平臺的PDSN(?Packet?Data?Serving?Node,分組數據服務節點)設備進行分光,獲取核心網全量數據,解析還原后得到可以應用于數據挖掘的數據,再使用本發明對這些數據進行有害信息的挖掘。
發明內容
本發明的目的就在于克服現有技術存在的缺點和不足,提供一種基于移動互聯網有害信息的數據挖掘系統及其方法。
本發明的目的是這樣實現的:
建立起一個好的數學模型,過濾出有害信息,并集中展現這些有害信息。
一、基于移動互聯網有害信息數據挖掘系統(簡稱系統)
本系統依托于運營商核心網,設置有數據采集單元、數據還原單元、數據存儲單元、有害信息數據挖掘單元、有害信息存儲單元和用戶展現單元;
運營商核心網、數據采集單元、數據還原單元、數據存儲單元依次連接,實現對可讀信息的還原;
有害信息數據挖掘單元和數據存儲單元連接,實現對數據存儲單元里的數據進行直接挖掘;
數據存儲單元、有害信息存儲單元和用戶展現單元依次連接,實現有害信息的集中展現。
二、移動互聯網有害信息數據挖掘方法(簡稱方法)
本方法包括下列步驟:
①從運營商核心網采集數據后經過還原、存儲得到用戶的全量信息;
②將移動互聯網上的有害信息中的某一類(例如毒品)文本,進行人工選取若干條作為正樣本,再選取若干條其它無害信息的文本作為負樣本;
③對已知的有害信息進行建模,再通過數據挖掘方法對待定信息進行有害性判斷。
本發明對比現有技術有如下優點和積極效果:
①根據移動互聯網有害信息的獨有特征,建立有針對性的模型,專門針對移動互聯網有害信息進行過濾,因此針對性好,識別率高,效果較傳統判斷方法更加科學;
②傳統判斷有害信息的方法多以條件判斷或特定字符串匹配進行,條件判斷方法只能在低維空間中判斷少數幾種特征,特定字符串匹配方法無法消除詞語二義性判斷;本發明可完全克服傳統有害信息過濾方法的不足,建立的模型基于高維空間,判斷更準確,通過統計學算法可以有效判定詞語的二義性;
③本發明將整個有害信息系統有機地分為兩個模塊,即模型建立和樣本分割,兩個模塊可以單獨進行優化,有效地提高了本發明的可擴展性;在模型建立模塊中,可以增加判斷特征(詞)對于系統重要性的算法來綜合檢驗模型的效果,在樣本分割模塊,可以選擇更多的機器學習分類算法。
總之,本發明采取數據挖掘、機器學習、信息論等領域算法,綜合改進了移動互聯網有害信息的過濾算法,將模型推向了高維空間進行分類判斷;同時采用了較好的結構模塊,使得過濾系統準確性地提升有較大的靈活性和可擴展性。
附圖說明
圖1是本系統的結構方框圖;
圖2是有害信息數據挖掘單元的結構方框圖。
其中
000—運營商核心網;
100—數據采集單元;
200—數據還原單元;
300—數據存儲單元;
400—有害信息數據挖掘單元,
401—待過濾數據模塊,402—分詞模塊,
403—分好類的有害信息語料庫模塊,404—MI模塊,405—IG模塊,
406—PCA模塊,407—數據進行格式轉換和處理模塊,
408—特征向量模塊,409—分類器模塊,410—訓練樣本特征庫模塊,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢虹旭信息技術有限責任公司,未經武漢虹旭信息技術有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310061132.0/2.html,轉載請聲明來源鉆瓜專利網。





