[發(fā)明專利]一種基于云服務器的大數(shù)據(jù)中心處理系統(tǒng)在審
| 申請?zhí)枺?/td> | 202011176869.3 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112287199A | 公開(公告)日: | 2021-01-29 |
| 發(fā)明(設計)人: | 焦惠穎 | 申請(專利權(quán))人: | 黑龍江稻榛通網(wǎng)絡技術(shù)服務有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06K9/62 |
| 代理公司: | 黑龍江立超同創(chuàng)知識產(chǎn)權(quán)代理有限責任公司 23217 | 代理人: | 楊立超 |
| 地址: | 150900 黑龍江省*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 服務器 數(shù)據(jù)中心 處理 系統(tǒng) | ||
一種基于云服務器的大數(shù)據(jù)中心處理系統(tǒng),屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,用以解決現(xiàn)有的數(shù)據(jù)處理系統(tǒng)不能解決對海量網(wǎng)絡流量數(shù)據(jù)的分布式存儲和高效準確的數(shù)據(jù)挖掘問題。本發(fā)明主要運用數(shù)據(jù)挖掘和云計算相關(guān)技術(shù),建立了基于云計算的網(wǎng)站分類子系統(tǒng)和網(wǎng)站推薦子系統(tǒng),網(wǎng)站分類子系統(tǒng)極大的降低了分析處理時間,擴充了流量信息中的用戶網(wǎng)站偏好維度,具有高的擴展性,可以對任何字段進行網(wǎng)站分類并會根據(jù)分類結(jié)果擴充庫識別模塊,加快分類速度,還可以通過增加核心分類算法,完成對不同分類任務的支持;網(wǎng)站推薦子系統(tǒng)是基于移動互聯(lián)網(wǎng)海量用戶網(wǎng)站偏好數(shù)據(jù),對用戶偏好進行挖掘和推薦,具備較高的可靠性和算法有效性,可對多種推薦任務進行應對。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種基于云服務器的大數(shù)據(jù)中心處理系統(tǒng)。
技術(shù)背景
隨著云時代的來臨,大數(shù)據(jù)也吸引了越來越多的關(guān)注。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因為實時的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。隨著寬帶網(wǎng)絡技術(shù)的發(fā)展,網(wǎng)絡用戶數(shù)量逐年增加;與此同時,借助于移動網(wǎng)絡的升級和智能手機的推廣,移動互聯(lián)網(wǎng)也發(fā)展迅猛,用戶增長強勁。網(wǎng)絡已經(jīng)成為了我們生活中不可缺少的一部分。網(wǎng)絡是龐大的,更是復雜的,不論是對新興的移動互聯(lián)網(wǎng)還是不斷升級的寬帶網(wǎng)絡都還有認識不全面之處。而網(wǎng)絡流量監(jiān)測技術(shù)則是一把打開網(wǎng)絡流量分析大門的鑰匙,將網(wǎng)絡流量監(jiān)控技術(shù)獲取的海量網(wǎng)絡流量信息,與云計算、數(shù)據(jù)挖掘技術(shù)相結(jié)合,可以深入分析和挖掘網(wǎng)絡的流量特征和用戶特征。基于網(wǎng)絡流量日志的分析挖掘是反映網(wǎng)絡狀況,進行網(wǎng)絡優(yōu)化以及進行用戶偏好分析的主要方法,但是在大數(shù)據(jù)時代,不論是在處理時間,還是在處理的數(shù)據(jù)量上,傳統(tǒng)的針對網(wǎng)絡流量日志的分析方法逐漸不能勝任,如何面對海量的移動互聯(lián)網(wǎng)數(shù)據(jù)完成有效且高效的分析和挖掘是一項艱巨的任務。
發(fā)明內(nèi)容
鑒于以上問題,本發(fā)明提出一種基于云服務器的大數(shù)據(jù)中心處理系統(tǒng),用以解決現(xiàn)有的數(shù)據(jù)處理系統(tǒng)不能解決對海量網(wǎng)絡流量數(shù)據(jù)的分布式存儲和高效準確的數(shù)據(jù)挖掘問題。
該系統(tǒng)包括網(wǎng)站分類子系統(tǒng)和網(wǎng)站推薦子系統(tǒng);
所述網(wǎng)站分類子系統(tǒng)包括數(shù)據(jù)導入模塊、爬蟲模塊、庫識別模塊、機器學習識別模塊和庫更新模塊;其中,所述數(shù)據(jù)導入模塊用于連接外部數(shù)據(jù)和系統(tǒng),包括數(shù)據(jù)預處理導入子模塊和直接導入子模塊;所述爬蟲模塊用于讀入移動互聯(lián)網(wǎng)流量記錄,執(zhí)行網(wǎng)頁爬蟲程序;所述庫識別模塊用于使用基于庫的識別方法直接對URL進行識別,負責識別結(jié)果表和未識別結(jié)果表的更新和維護;所述機器學習識別模塊用于將經(jīng)過庫識別分類的網(wǎng)頁作為訓練集,快速準確的對網(wǎng)站分類系統(tǒng)的分類模型進行建模,使用建立的模型對未識別URL進行分類;所述庫更新模塊用于基于機器學習識別結(jié)果,提取出正確分類的URL,對庫識別中的庫文件進行更新和擴充;
所述網(wǎng)站推薦子系統(tǒng)包括數(shù)據(jù)預處理模塊、推薦算法模塊和上層模塊;所述數(shù)據(jù)預處理模塊用于對數(shù)據(jù)進行存儲和預處理;所述推薦算法模塊用于添加推薦引擎算法,獲取推薦算法模型;所述上層模塊用于網(wǎng)站推薦子系統(tǒng)結(jié)果的輸出和展示。
進一步地,所述數(shù)據(jù)預處理導入子模塊中對數(shù)據(jù)進行預處理包括組合、過濾和去重。
進一步地,所述機器學習識別模塊包括中文分詞子模塊、特征選擇子模塊和機器學習算法子模塊。
進一步地,所述機器學習算法子模塊中包括三種分類模型組件和兩種算法組件,其中,分類模型組件包括多類二值分類模型、與多類軟分類模型和兩兩多類軟分類模型;算法組件包括樸素貝葉斯組件和LDA組件。
進一步地,所述數(shù)據(jù)預處理模塊對數(shù)據(jù)進行預處理包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)規(guī)約,其中,數(shù)據(jù)清理是清除噪聲和處理不完整數(shù)據(jù);數(shù)據(jù)集成包括實體識別、數(shù)據(jù)冗余和數(shù)據(jù)值沖突檢測與處理;數(shù)據(jù)轉(zhuǎn)換包括單位換算、數(shù)據(jù)泛化、規(guī)范化和屬性構(gòu)造;數(shù)據(jù)規(guī)約包括維度歸約、數(shù)值歸約、數(shù)據(jù)抽樣和離散化。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于黑龍江稻榛通網(wǎng)絡技術(shù)服務有限公司,未經(jīng)黑龍江稻榛通網(wǎng)絡技術(shù)服務有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011176869.3/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)中心和數(shù)據(jù)中心設計
- 一種組網(wǎng)數(shù)據(jù)中心系統(tǒng)及方法
- 一種數(shù)據(jù)中心系統(tǒng)及其配置方法
- 一種數(shù)據(jù)中心能源利用效率的測算方法和裝置
- 跨數(shù)據(jù)中心協(xié)同計算方法及其系統(tǒng)
- 數(shù)據(jù)中心底座單體、數(shù)據(jù)中心底座及數(shù)據(jù)中心
- 一種醫(yī)療云數(shù)據(jù)系統(tǒng)
- 政務云基礎設施即服務實現(xiàn)系統(tǒng)
- 服務調(diào)用方法、裝置、設備及介質(zhì)
- 多數(shù)據(jù)中心訪問方法及系統(tǒng)





