[發明專利]一種教育資源大數據處理方法在審
| 申請號: | 201610901611.2 | 申請日: | 2016-10-18 |
| 公開(公告)號: | CN106649516A | 公開(公告)日: | 2017-05-10 |
| 發明(設計)人: | 李讓劍 | 申請(專利權)人: | 安徽天達網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06Q50/20 |
| 代理公司: | 北京和信華成知識產權代理事務所(普通合伙)11390 | 代理人: | 胡劍輝 |
| 地址: | 230000 安徽省合肥市*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 教育 資源 數據處理 方法 | ||
技術領域
本發明涉及到教育技術領域,特別是一種教育資源大數據處理方法。
背景技術
近年來,互聯網的發展越來越迅速,使用互聯網的人也越來越普及,人們在使用互聯網進行日常的活動的時候,例如網購,查看節目,信息,商品都會產生大量的數據,而這些數據對于電子商務網站或者互聯網媒體類網站來說是非常寶貴的,利用這些大數據的處理分析能得到非常寶貴的商業價值。
大數據廣泛應用于互聯網各項應用中,對網站的價值意義重大,通過海量數據分析和云計算的實現,可以最大化幫助互聯網媒體類網站廣告系統和電子商務類網站大數據商品推送系統得到最大化的提升。互聯網媒體類網站大數據廣告根據用戶閱讀偏好推送,針對海量數據的云計算,通過各種廣告形式推送到網站瀏覽用戶,例如應用在商會網;電子商務類網站大數據商品推送給在線購買者,通過分析用戶點擊行為、購買行為、產品相關性、偏好及使用時間規律推送相應的商品及促銷信息,例如應用在品得商城。
現有技術目前還沒有一種用于教育資源大數據處理方法。
發明內容
為解決上述技術問題,本發明提供了一種教育資源大數據處理方法,其包括以下步驟:
教育數據清洗:在各網絡云服務器中根據教育關鍵詞篩選出教育數據,對篩選出的教育數據進行清洗;
數據分類:根據各教育關鍵詞對篩選出的教育數據進行分類,并分別單獨存儲在不同的數據存儲器中;
數據格式統一:將所述存儲在不同的數據存儲器中的不同格式的數據轉化為統一格式;
數據預處理:檢查所述統一格式的數據,將含有噪聲數據、冗余的數據剔除,對缺省數據進行補充,同時對數據通過二進制數據編碼進行標識;
數據搜索:確定要發現的數據關鍵詞、數據名稱、存儲日期、數據長度作為目標數據的特征值;
數據挖掘:根據目標數據的具體特征值采用挖掘算法對數據進行處理,將挖掘出的數據附加上標識后導出。
較佳地,所述數據格式統一的具體方法為:
根據不同格式的數據所占據的存儲空間大小依次排序,將占據最大存儲空間的格式數據作為目標格式,并將其他格式的數據統一轉化為所述目標格式。
較佳地,所述挖掘算法為k—means聚類算法或者基于層次的聚類分析算法。
較佳地,所述缺省數據的補充內容包括數據擴展名與系統存儲路徑。
較佳地,所述清洗的數據包括指源系統中的數據不在給定的范圍內或對于實際業務毫無意義,數據格式非法,以及在源系統中存在不規范的編碼和含糊的業務邏輯的數據。
本發明具有以下有益效果:
本發明通過于教育有關的關鍵詞搜索完成對網絡云服務器中的數據篩選,并對數據進行相應的優化處理與格式轉化使數據在搜索時的效率更高,本發明通過對網絡云服務器中的大數據作為源數據,并經過篩選為互聯網教育提供了很好的數據來源。
當然,實施本發明的任一產品并不一定需要同時達到以上所述的所有優點。
具體實施方式
下面將結合本發明實施例對本發明中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其它實施例,都屬于本發明保護的范圍。
本發明實施例提供了一種教育資源大數據處理方法,其包括以下步驟:
教育數據清洗:在各網絡云服務器中根據教育關鍵詞篩選出教育數據,對篩選出的教育數據進行清洗;
數據分類:根據各教育關鍵詞對篩選出的教育數據進行分類,并分別單獨存儲在不同的數據存儲器中;
數據格式統一:將所述存儲在不同的數據存儲器中的不同格式的數據轉化為統一格式;
數據預處理:檢查所述統一格式的數據,將含有噪聲數據、冗余的數據剔除,對缺省數據進行補充,同時對數據通過二進制數據編碼進行標識;
數據搜索:確定要發現的數據關鍵詞、數據名稱、存儲日期、數據長度作為目標數據的特征值;
數據挖掘:根據目標數據的具體特征值采用挖掘算法對數據進行處理,將挖掘出的數據附加上標識后導出。
較佳地,所述數據格式統一的具體方法為:
根據不同格式的數據所占據的存儲空間大小依次排序,將占據最大存儲空間的格式數據作為目標格式,并將其他格式的數據統一轉化為所述目標格式。
其中所述挖掘算法為k—means聚類算法或者基于層次的聚類分析算法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽天達網絡科技有限公司,未經安徽天達網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610901611.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于多種檢索模型的實時微博分類器
- 下一篇:數據挖掘方法、裝置及系統





