[發(fā)明專利]基于移動互聯(lián)網(wǎng)有害信息的數(shù)據(jù)挖掘系統(tǒng)及其方法無效
| 申請?zhí)枺?/td> | 201310061132.0 | 申請日: | 2013-02-27 |
| 公開(公告)號: | CN103116647A | 公開(公告)日: | 2013-05-22 |
| 發(fā)明(設(shè)計)人: | 陳翟翟;舒張磊;黃峰 | 申請(專利權(quán))人: | 武漢虹旭信息技術(shù)有限責(zé)任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 武漢宇晨專利事務(wù)所 42001 | 代理人: | 黃瑞棠 |
| 地址: | 430074 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 移動 互聯(lián)網(wǎng) 有害信息 數(shù)據(jù) 挖掘 系統(tǒng) 及其 方法 | ||
1.一種基于移動互聯(lián)網(wǎng)有害信息的數(shù)據(jù)挖掘系統(tǒng),其特征在于:
本系統(tǒng)依托于運營商核心網(wǎng)(000),設(shè)置有數(shù)據(jù)采集單元(100)、數(shù)據(jù)還原單元(200)、數(shù)據(jù)存儲單元(300)、有害信息數(shù)據(jù)挖掘單元(400)、有害信息存儲單元(500)和用戶展現(xiàn)單元(600);
運營商核心網(wǎng)(000)、數(shù)據(jù)采集單元(100)、數(shù)據(jù)還原單元(200)、數(shù)據(jù)存儲單元(300)依次連接,實現(xiàn)對可讀信息的還原;
有害信息數(shù)據(jù)挖掘單元(400)和數(shù)據(jù)存儲單元(300)連接,實現(xiàn)對數(shù)據(jù)存儲單元(300)里的數(shù)據(jù)進行直接挖掘;
數(shù)據(jù)存儲單元(300)、有害信息存儲單元(500)和用戶展現(xiàn)單元(600)依次連接,實現(xiàn)有害信息的集中展現(xiàn)。
2.按權(quán)利要求1所述的數(shù)據(jù)挖掘系統(tǒng),其特征在于所述的有害信息數(shù)據(jù)挖掘單元(400)是:
分詞模塊(402)連接待過濾數(shù)據(jù)模塊(401),將生成的數(shù)據(jù)放入數(shù)據(jù)進行格式轉(zhuǎn)換和處理模塊(407);
分詞模塊(402)、MI模塊(404)、IG模塊(405)和PCA模塊(406)共同連接到分好類的有害信息語料庫模塊(403),將生成的數(shù)據(jù)放入特征向量模塊(408);
分類器模塊(409)連接到數(shù)據(jù)進行格式轉(zhuǎn)換和處理模塊(407),獲取預(yù)處理數(shù)據(jù);
訓(xùn)練樣本特征庫模塊(410)連接數(shù)據(jù)特征向量模塊(408),將獲取到的數(shù)據(jù)放入到分類器模塊(409),最后得到的結(jié)果導(dǎo)入到通知展現(xiàn)模塊(411);
待過濾數(shù)據(jù)模塊(401)、分詞模塊(402)、MI模塊(404)、IG模塊(405)、PCA模塊(406)、數(shù)據(jù)進行格式轉(zhuǎn)換和處理模塊(407)、特征向量模塊(408)、分類器模塊(409)、訓(xùn)練樣本特征庫模塊(410)和通知展現(xiàn)模塊(411)均為常用模塊;
所述的分好類的有害信息語料庫模塊(403)是一種人工參與、將有害信息進行分類后得到的文本集合;發(fā)現(xiàn)是有害信息,歸入到有害信息庫中。
3.基于權(quán)利要求1所述的數(shù)據(jù)挖掘系統(tǒng)的有害信息數(shù)據(jù)挖掘方法,其特征在于:
①從運營商核心網(wǎng)采集數(shù)據(jù)后經(jīng)過還原、存儲得到用戶的全量信息;
②將移動互聯(lián)網(wǎng)上的有害信息中的某一類文本,進行人工選取若干條作為正樣本,再選取若干條其它無害信息的文本作為負樣本;
③對已知的有害信息進行建模,再通過數(shù)據(jù)挖掘方法對待定信息進行有害性判斷。
4.按權(quán)利要求3所述有害信息數(shù)據(jù)挖掘方法,其特征在于所述的步驟③:
A、對正、負樣本進行分詞,得到一系列不重復(fù)的詞匯;
B、通過MI、IG和PCA對詞匯進行篩選,選取和有害信息分類相關(guān)性較大的詞匯;
C、通過反文檔詞頻,計算每篇文本在N個詞匯上的一個取值,從而得到一個N維的向量,通過M個各自的向量,構(gòu)建一個N維的數(shù)據(jù)模型;
D、在N維空間的數(shù)據(jù)模型中,使用支持向量機方法在正樣本和負樣本間生成一個N-1維的超平面,使得在超平面一側(cè)的為正樣本,另外一側(cè)的為負樣本;在有一個待判定點在此N維空間中著點的時候,則通過判斷此點和超平面的位置關(guān)系判斷此待測樣本是正樣本還是負樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢虹旭信息技術(shù)有限責(zé)任公司,未經(jīng)武漢虹旭信息技術(shù)有限責(zé)任公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310061132.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 基于網(wǎng)絡(luò)電視的互聯(lián)網(wǎng)業(yè)務(wù)處理方法和系統(tǒng)
- 互聯(lián)網(wǎng)業(yè)務(wù)接入網(wǎng)關(guān)的實現(xiàn)方法和系統(tǒng)
- 一種互聯(lián)網(wǎng)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 一種互聯(lián)網(wǎng)應(yīng)用交互方法、裝置及系統(tǒng)
- 一種使用互聯(lián)網(wǎng)移動攝像終端進行異地圖像拍攝的系統(tǒng)
- 一種網(wǎng)絡(luò)電視終端安全訪問互聯(lián)網(wǎng)的方法
- 利用區(qū)塊鏈保護用于互聯(lián)網(wǎng)資源分配的事務(wù)
- 互聯(lián)網(wǎng)廣告裝置及方法
- 中央管理服務(wù)器的互聯(lián)網(wǎng)連接方法及系統(tǒng)
- 互聯(lián)網(wǎng)節(jié)點中信任傳播方法、系統(tǒng)及相關(guān)產(chǎn)品
- 用于阻止連接至因特網(wǎng)服務(wù)提供商網(wǎng)絡(luò)中的有害信息的系統(tǒng)和方法
- 一種基于移動互聯(lián)網(wǎng)的有害信息過濾系統(tǒng)及其方法
- 分布式有害信息管理系統(tǒng)和方法
- 基于互聯(lián)網(wǎng)數(shù)據(jù)來源控制實現(xiàn)有害信息過濾的系統(tǒng)及方法
- 基于移動互聯(lián)網(wǎng)有害信息的地圖區(qū)域化分析系統(tǒng)及其方法
- 一種用于IDC有害信息監(jiān)測平臺的數(shù)據(jù)分析系統(tǒng)
- 一種基于IDC有害信息監(jiān)測系統(tǒng)的樣本訓(xùn)練系統(tǒng)
- 一種基于深度學(xué)習(xí)的多語言有害信息特征智能挖掘方法
- 監(jiān)測藍牙有害信息的方法及裝置
- 有害信息的碎片內(nèi)容處理方法及裝置





