[發明專利]一種用于數字圖書館的大數據清洗方法在審
| 申請號: | 201810145624.0 | 申請日: | 2018-02-12 |
| 公開(公告)號: | CN108399226A | 公開(公告)日: | 2018-08-14 |
| 發明(設計)人: | 楊良軍 | 申請(專利權)人: | 安徽千云度信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 上海精晟知識產權代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市高新區*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 清洗 清洗過程 預處理 目標數據源 數字圖書館 干凈數據 數據修復 重復數據 不一致 大數據 填充 用戶自定義數據 定義數據 數據集中 數據清理 數據清洗 數據挖掘 挖掘結果 用戶實時 自動檢測 交互性 臟數據 保證 | ||
1.一種用于數字圖書館的大數據清洗方法,其特征在于,包括圖書館大數據,清洗所述圖書館大數據的方法如下步驟:
SS01 根據圖書館大數據的需求分析、大數據類別分析、任務定義,獲取數據清洗方案;
SS02 對數據進行預處理,檢測不完整數據、邏輯錯誤數據、異常數據、冗余數據,并對檢測結果進行統計;
SS03 確定臟數據的類別及相應的清洗方案;
SS04 缺失值填充,通過貝葉斯分類計算出概率最大的取值作為填充值,根據數據屬性確定各填充值的概率,通過MapReduce取概率最大的填充值進行填充;
SS05 根據條件函數、格式函數、匯總分解函數定義完整性約束,通過完整性約束進行不一致數據修復;
SS06 利用基于歐幾里德距離的聚類方法自動檢測數據集中的屬性錯誤,獲得修改后的數據;
SS07 通過N-Gram算法清理重復數據;
SS08 干凈數據回流至目標數據源。
2.根據權利要求1所述的一種用于數字圖書館的大數據清洗方法,其特征在于,所述圖書館大數據包括用戶行為數據、圖書館館員的工作狀態數據、圖書館的書目數據;
其中,所述用戶行為數據包括讀者個體特征數據、閱讀習慣數據、圖書館用戶服務模式信息、用戶服務的方法與內容信息、閱讀應用的類型與工作方式信息、閱讀活動的方式選擇和變化趨勢信息、圖書館用戶需求調研數據、讀者反饋的閱讀需求信息、讀者對網站內容的查詢與搜索歷史記錄數據、用戶對服務內容的選擇與刪除數據、讀者使用圖書館過程中的地理信息、搜索信息、網站瀏覽軌跡、互動資料記載信息;
其中,所述圖書館館員的工作狀態數據包括館員的業務量信息、業務內容信息、業務質量信息、圖書館服務時產生的數據。
3.根據權利要求1所述的一種用于數字圖書館的大數據清洗方法,其特征在于,所述SS05中不一致數據的修復包括如下步驟:
步驟一:不一致數據修復模塊讀取待修復數據文件,臟數據預處理子模塊通過map函數建立待修復數據索引并進行預處理;
步驟二:不一致數據檢測與修復模塊通過MapReduce中map算法對預處理后的數據進行修復。
4.根據權利要求1所述的一種用于數字圖書館的大數據清洗方法,其特征在于,所述SS06中基于歐幾里德距離的聚類方法采用GAG算法,通過歐幾里德距離來度量對象之間的相似程度,用最大距離來度量簇間距離;
所述歐幾里德距離為:
其中,i=(xi1,xi2,...xin)和j=(xj1,xj2,...xjn)是兩條有n個屬性的記錄;
最大簇間距離為:
dmax(Ci,Cj)=maxp∈Ci,p′∈Cj|p-p′|
其中,|p-p′|是指兩條記錄之間的距離。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽千云度信息技術有限公司,未經安徽千云度信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810145624.0/1.html,轉載請聲明來源鉆瓜專利網。





