[發明專利]一種基于云服務器的大數據中心處理系統在審
| 申請號: | 202011176869.3 | 申請日: | 2020-10-29 |
| 公開(公告)號: | CN112287199A | 公開(公告)日: | 2021-01-29 |
| 發明(設計)人: | 焦惠穎 | 申請(專利權)人: | 黑龍江稻榛通網絡技術服務有限公司 |
| 主分類號: | G06F16/951 | 分類號: | G06F16/951;G06F16/955;G06K9/62 |
| 代理公司: | 黑龍江立超同創知識產權代理有限責任公司 23217 | 代理人: | 楊立超 |
| 地址: | 150900 黑龍江省*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 服務器 數據中心 處理 系統 | ||
1.一種基于云服務器的大數據中心處理系統,其特征在于,包括網站分類子系統和網站推薦子系統;
所述網站分類子系統包括數據導入模塊、爬蟲模塊、庫識別模塊、機器學習識別模塊和庫更新模塊;其中,所述數據導入模塊用于連接外部數據和系統,包括數據預處理導入子模塊和直接導入子模塊;所述爬蟲模塊用于讀入移動互聯網流量記錄,執行網頁爬蟲程序;所述庫識別模塊用于使用基于庫的識別方法直接對URL進行識別,負責識別結果表和未識別結果表的更新和維護;所述機器學習識別模塊用于將經過庫識別分類的網頁作為訓練集,快速準確的對網站分類系統的分類模型進行建模,使用建立的模型對未識別URL進行分類;所述庫更新模塊用于基于機器學習識別結果,提取出正確分類的URL,對庫識別中的庫文件進行更新和擴充;
所述網站推薦子系統包括數據預處理模塊、推薦算法模塊和上層模塊;所述數據預處理模塊用于對數據進行存儲和預處理;所述推薦算法模塊用于添加推薦引擎算法,獲取推薦算法模型;所述上層模塊用于網站推薦子系統結果的輸出和展示。
2.根據權利要求1所述一種基于云服務器的大數據中心處理系統,其特征在于,所述數據預處理導入子模塊中對數據進行預處理包括組合、過濾和去重。
3.根據權利要求1所述一種基于云服務器的大數據中心處理系統,其特征在于,所述機器學習識別模塊包括中文分詞子模塊、特征選擇子模塊和機器學習算法子模塊。
4.根據權利要求3所述一種基于云服務器的大數據中心處理系統,其特征在于,所述機器學習算法子模塊中包括三種分類模型組件和兩種算法組件,其中,分類模型組件包括多類二值分類模型、與多類軟分類模型和兩兩多類軟分類模型;算法組件包括樸素貝葉斯組件和LDA組件。
5.根據權利要求1所述一種基于云服務器的大數據中心處理系統,其特征在于,所述數據預處理模塊對數據進行預處理包括數據清理、數據集成、數據轉換和數據規約,其中,數據清理是清除噪聲和處理不完整數據;數據集成包括實體識別、數據冗余和數據值沖突檢測與處理;數據轉換包括單位換算、數據泛化、規范化和屬性構造;數據規約包括維度歸約、數值歸約、數據抽樣和離散化。
6.根據權利要求1所述一種基于云服務器的大數據中心處理系統,其特征在于,所述推薦算法模塊包括數據挖掘子模塊和推薦子模塊,其中,所述數據挖掘子模塊用于對預處理數據進行挖掘,挖掘用戶興趣和偏好特征;所述推薦子模塊用于針對用戶網站內容偏好和網站類別偏好基于關聯規則算法或基于協同過濾算法進行推薦。
7.根據權利要求6所述一種基于云服務器的大數據中心處理系統,其特征在于,所述數據挖掘子模塊包括用戶網站瀏覽內容分析組件、用戶網站瀏覽類型分析組件和反饋推薦組件。
8.根據權利要求6所述一種基于云服務器的大數據中心處理系統,其特征在于,所述基于協同過濾算法進行推薦的步驟包括,計算用戶間的相似度;使用KNN算法找出K個與被推薦用戶最相似的用戶;通過K個最近鄰的特征進行推薦。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于黑龍江稻榛通網絡技術服務有限公司,未經黑龍江稻榛通網絡技術服務有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011176869.3/1.html,轉載請聲明來源鉆瓜專利網。





