[發(fā)明專利]一種用于數(shù)字圖書館的大數(shù)據(jù)清洗方法在審
| 申請(qǐng)?zhí)枺?/td> | 201810145624.0 | 申請(qǐng)日: | 2018-02-12 |
| 公開(公告)號(hào): | CN108399226A | 公開(公告)日: | 2018-08-14 |
| 發(fā)明(設(shè)計(jì))人: | 楊良軍 | 申請(qǐng)(專利權(quán))人: | 安徽千云度信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 上海精晟知識(shí)產(chǎn)權(quán)代理有限公司 31253 | 代理人: | 馮子玲 |
| 地址: | 230000 安徽省合肥市高新區(qū)*** | 國(guó)省代碼: | 安徽;34 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 清洗 清洗過程 預(yù)處理 目標(biāo)數(shù)據(jù)源 數(shù)字圖書館 干凈數(shù)據(jù) 數(shù)據(jù)修復(fù) 重復(fù)數(shù)據(jù) 不一致 大數(shù)據(jù) 填充 用戶自定義數(shù)據(jù) 定義數(shù)據(jù) 數(shù)據(jù)集中 數(shù)據(jù)清理 數(shù)據(jù)清洗 數(shù)據(jù)挖掘 挖掘結(jié)果 用戶實(shí)時(shí) 自動(dòng)檢測(cè) 交互性 臟數(shù)據(jù) 保證 | ||
本發(fā)明公開了一種用于數(shù)字圖書館的大數(shù)據(jù)清洗方法,涉及數(shù)據(jù)清洗技術(shù)領(lǐng)域。本發(fā)明包括如下步驟:定義數(shù)據(jù)清洗方案、對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、確定臟數(shù)據(jù)的類別及相應(yīng)的清洗方案、缺失值填充、進(jìn)行不一致數(shù)據(jù)修復(fù)、自動(dòng)檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤、清理重復(fù)數(shù)據(jù)、干凈數(shù)據(jù)回流至目標(biāo)數(shù)據(jù)源。本發(fā)明通過用戶自定義數(shù)據(jù)清洗方案、對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、缺失值填充、進(jìn)行不一致數(shù)據(jù)修復(fù)、修改屬性錯(cuò)誤、清理重復(fù)數(shù)據(jù),干凈數(shù)據(jù)回流至目標(biāo)數(shù)據(jù)源,提高數(shù)據(jù)在清洗過程中與用戶之間的交互性,用戶實(shí)時(shí)控制清洗過程,處理清洗過程中的異常,減少發(fā)生錯(cuò)誤,提高效率,降低數(shù)據(jù)清理成本,提高數(shù)據(jù)的質(zhì)量,保證數(shù)據(jù)挖掘數(shù)據(jù)的正確性和準(zhǔn)確性,得到高質(zhì)量的挖掘結(jié)果。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)清洗技術(shù)領(lǐng)域,特別是涉及一種用于數(shù)字圖書館的大數(shù)據(jù)清洗方法。
背景技術(shù)
隨著大數(shù)據(jù)時(shí)代的來臨,人們對(duì)智能信息的需求更加迫切,這為圖書館的管理和服務(wù)提出了新挑戰(zhàn)。網(wǎng)絡(luò)中豐富的電子版圖書借助互聯(lián)網(wǎng)和移動(dòng)設(shè)備逐漸得到人們的青睞,傳統(tǒng)的紙質(zhì)版圖書逐漸受到了冷落。在這種情況下,圖書館的建設(shè)和管理也要與時(shí)俱進(jìn),將自身豐富的數(shù)據(jù)資源和互聯(lián)網(wǎng)的高度共享性充分結(jié)合,推進(jìn)圖書館的數(shù)據(jù)庫(kù)建設(shè)。
大數(shù)據(jù)挖掘與分析能夠發(fā)現(xiàn)數(shù)據(jù)的相關(guān)關(guān)系,產(chǎn)生大數(shù)據(jù)價(jià)值的關(guān)系和規(guī)律。圖書館大數(shù)據(jù)來源廣泛,動(dòng)態(tài)無控制性,數(shù)據(jù)類型多,使數(shù)據(jù)淸洗成為其重要數(shù)據(jù)挖掘步驟,只有保證數(shù)據(jù)的質(zhì)量,才能保證數(shù)據(jù)挖掘數(shù)據(jù)的正確性和準(zhǔn)確性,得到高質(zhì)量的挖掘結(jié)果。目前現(xiàn)有數(shù)據(jù)庫(kù)系統(tǒng),在批處理方式的數(shù)據(jù)清洗中用戶不能主動(dòng)參入,在清洗過程中與用戶之間缺少交互性,用戶無法控制過程,也無法處理過程中的異常,而且容易發(fā)生錯(cuò)誤,效率不高,傳統(tǒng)的系統(tǒng)難以滿足用戶的需求,且設(shè)備的成本過高,因此,提供一種用于數(shù)字圖書館的大數(shù)據(jù)清洗方法,解決上述問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種用于數(shù)字圖書館的大數(shù)據(jù)清洗方法,通過定義數(shù)據(jù)清洗方案、對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、缺失值填充、進(jìn)行不一致數(shù)據(jù)修復(fù)、修改屬性錯(cuò)誤、清理重復(fù)數(shù)據(jù),干凈數(shù)據(jù)回流至目標(biāo)數(shù)據(jù)源,解決了現(xiàn)有的數(shù)據(jù)庫(kù)系統(tǒng),在批處理方式的數(shù)據(jù)清洗中用戶不能主動(dòng)參入,在清洗過程中與用戶之間缺少交互性,用戶無法控制過程,也無法處理過程中的異常,而且容易發(fā)生錯(cuò)誤,效率不高,傳統(tǒng)的系統(tǒng)難以滿足用戶的需求,且設(shè)備的成本過高問題。
為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
本發(fā)明為一種用于數(shù)字圖書館的大數(shù)據(jù)清洗方法,包括圖書館大數(shù)據(jù),清洗所述圖書館大數(shù)據(jù)的方法如下步驟:SS01根據(jù)圖書館大數(shù)據(jù)的需求分析、大數(shù)據(jù)類別分析、任務(wù)定義,獲取數(shù)據(jù)清洗方案;SS02對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,檢測(cè)不完整數(shù)據(jù)、邏輯錯(cuò)誤數(shù)據(jù)、異常數(shù)據(jù)、冗余數(shù)據(jù),并對(duì)檢測(cè)結(jié)果進(jìn)行統(tǒng)計(jì);SS03確定臟數(shù)據(jù)的類別及相應(yīng)的清洗方案;SS04缺失值填充,通過貝葉斯分類計(jì)算出概率最大的取值作為填充值,根據(jù)數(shù)據(jù)屬性確定各填充值的概率,通過MapReduce取概率最大的填充值進(jìn)行填充;SS05根據(jù)條件函數(shù)、格式函數(shù)、匯總分解函數(shù)定義完整性約束,通過完整性約束進(jìn)行不一致數(shù)據(jù)修復(fù);SS06利用基于歐幾里德距離的聚類方法自動(dòng)檢測(cè)數(shù)據(jù)集中的屬性錯(cuò)誤,獲得修改后的數(shù)據(jù);SS07通過N-Gram算法清理重復(fù)數(shù)據(jù);SS08干凈數(shù)據(jù)回流至目標(biāo)數(shù)據(jù)源。
進(jìn)一步地,所述圖書館大數(shù)據(jù)包括用戶行為數(shù)據(jù)、圖書館館員的工作狀態(tài)數(shù)據(jù)、圖書館的書目數(shù)據(jù);其中,所述用戶行為數(shù)據(jù)包括讀者個(gè)體特征數(shù)據(jù)、閱讀習(xí)慣數(shù)據(jù)、圖書館用戶服務(wù)模式信息、用戶服務(wù)的方法與內(nèi)容信息、閱讀應(yīng)用的類型與工作方式信息、閱讀活動(dòng)的方式選擇和變化趨勢(shì)信息、圖書館用戶需求調(diào)研數(shù)據(jù)、讀者反饋的閱讀需求信息、讀者對(duì)網(wǎng)站內(nèi)容的查詢與搜索歷史記錄數(shù)據(jù)、用戶對(duì)服務(wù)內(nèi)容的選擇與刪除數(shù)據(jù)、讀者使用圖書館過程中的地理信息、搜索信息、網(wǎng)站瀏覽軌跡、互動(dòng)資料記載信息;其中,所述圖書館館員的工作狀態(tài)數(shù)據(jù)包括館員的業(yè)務(wù)量信息、業(yè)務(wù)內(nèi)容信息、業(yè)務(wù)質(zhì)量信息、圖書館服務(wù)時(shí)產(chǎn)生的數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于安徽千云度信息技術(shù)有限公司,未經(jīng)安徽千云度信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810145624.0/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測(cè)樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲(chǔ)藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法
- 一種數(shù)據(jù)同步處理方法、裝置和單點(diǎn)登錄系統(tǒng)
- 數(shù)據(jù)訪問方法、裝置、設(shè)備和介質(zhì)
- 一種訪問多數(shù)據(jù)源的方法及系統(tǒng)
- 業(yè)務(wù)數(shù)據(jù)的更新方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫(kù)連接的切換方法、裝置、設(shè)備及介質(zhì)
- 基于數(shù)據(jù)源的數(shù)據(jù)調(diào)取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)清洗方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 多數(shù)據(jù)源取數(shù)方法、裝置、系統(tǒng)和可讀存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)源動(dòng)態(tài)調(diào)度方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)展示方法、裝置及存儲(chǔ)介質(zhì)





