[發(fā)明專利]一種大數(shù)據(jù)分析中缺失數(shù)據(jù)混合多重插值的裝置和方法在審
| 申請?zhí)枺?/td> | 201710385780.X | 申請日: | 2017-05-26 |
| 公開(公告)號: | CN107273445A | 公開(公告)日: | 2017-10-20 |
| 發(fā)明(設計)人: | 林劼;鐘德建;李年華;馬駿;周正斌 | 申請(專利權(quán))人: | 電子科技大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06K9/62 |
| 代理公司: | 成都金英專利代理事務所(普通合伙)51218 | 代理人: | 袁英 |
| 地址: | 610041 四川省成*** | 國省代碼: | 四川;51 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數(shù)據(jù) 分析 缺失 混合 多重 裝置 方法 | ||
技術領域
本發(fā)明涉及一種混合多重插值裝置和方法,具體涉及一種大數(shù)據(jù)分析中缺失數(shù)據(jù)混合多重插值的裝置和方法。
背景技術
目前,人們進入一個全新的大數(shù)據(jù)時代,大數(shù)據(jù)在越來越多的領域中都有著重要的影響,同時對數(shù)據(jù)的質(zhì)量要求也越來越高。由于數(shù)據(jù)量級不斷的增大,數(shù)據(jù)質(zhì)量和數(shù)據(jù)可用性問題也隨著不斷增加,例如數(shù)據(jù)缺失、數(shù)據(jù)冗余等,數(shù)據(jù)量越大,數(shù)據(jù)質(zhì)量問題也就越嚴重,從而對大數(shù)據(jù)的應用和分析將帶來影響和誤差。如何解決數(shù)據(jù)缺失,剔除掉缺失數(shù)據(jù)對大數(shù)據(jù)分析的影響,這是保證大數(shù)據(jù)分析下原始數(shù)據(jù)質(zhì)量至關重要的問題。
大數(shù)據(jù)中不可忽視的問題就是存在數(shù)據(jù)不完整的情況,這類數(shù)據(jù)稱之為缺失數(shù)據(jù)。缺失數(shù)據(jù)存在三種缺失機制,完全隨機缺失,隨機缺失和非隨機缺失。完全隨機缺失表示數(shù)據(jù)的丟失是隨機性的,它的缺失與數(shù)據(jù)集中任何屬性變量都無關;然而隨機缺失表示數(shù)據(jù)的缺失與其他屬性變量有一定聯(lián)系,與其自身的屬性變量沒有關系;非隨機缺失表示數(shù)據(jù)的缺失只有自身的屬性變量存在聯(lián)系。除此之外,數(shù)據(jù)本身的缺失情況也分為單一缺失和任意缺失兩種模式,其中單一缺失表示數(shù)據(jù)的一個屬性其值缺失以后,該屬性隨后的所有屬性的直接都將缺失,而任意缺失就是完全意義上的值隨意缺失。因此,通過分析大數(shù)據(jù)下缺失數(shù)據(jù)的機制以及模式,需要對缺失數(shù)據(jù)進行處理,以保證減少大數(shù)據(jù)下各種研究應用受到原始數(shù)據(jù)質(zhì)量問題影響。
為了減少解決數(shù)據(jù)缺失,常常采用列表刪除法或數(shù)據(jù)填補法。列表刪除法雖然簡便但是可能造成數(shù)據(jù)信息量的丟失,因此數(shù)據(jù)填補法更加常用。在數(shù)據(jù)填補法中,平均插補、虛擬變量法、單一回歸,多重插補、馬爾科夫鏈插補、深度置信網(wǎng)絡插補、數(shù)據(jù)驅(qū)動插補等。由于大數(shù)據(jù)下缺失數(shù)據(jù)的復雜性以及數(shù)量巨大化,如果用傳統(tǒng)的平均插補、單一回歸這類插補方式,希望通過建模預估出一個缺失值從而進行插補,這將可能降低缺失數(shù)據(jù)的可變性并且單一的值可能存在過度擬合以及具有偏差的估計。多重插補的出現(xiàn),解決了這一問題,多重插補不只生成一個單一的值對缺失值進行插補,它會生成許多后備值,通過這些后備值分析計算得到該個缺失值的分布,從而從這個分布中進行隨機抽樣對缺失值進行填補,但是多重插補得到后備值得方法還是才是回歸,馬爾科夫鏈等,因此插補數(shù)據(jù)的準確性還有待提升。近期,數(shù)據(jù)插補領域提出采用深度神經(jīng)網(wǎng)絡技術進行缺失數(shù)據(jù)插補。由于深度神經(jīng)網(wǎng)絡不需要精確的數(shù)學模型,非線性映射能力好,擅長從輸入輸出數(shù)據(jù)中學習有用的知識,揭示數(shù)據(jù)特征,處理隨機因素。通過對深度神經(jīng)網(wǎng)絡充分的訓練,利用深度神經(jīng)網(wǎng)絡自組織優(yōu)化建模的能力,不斷的以訓練數(shù)據(jù)進行自組織優(yōu)化,從而形成最優(yōu)的提取原始數(shù)據(jù)特征的模型,將提取的特征基于數(shù)據(jù)驅(qū)動,多重插值等方式建模,從而提升插補數(shù)據(jù)的精度。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術的不足,提供一種本發(fā)明的目的在于改進現(xiàn)有大數(shù)據(jù)下缺失數(shù)據(jù)插補的準確性,提供一種能有效提高插補準確率,并且數(shù)據(jù)缺失率保持在15%以下,平均填補準確率在89%~99.95%之內(nèi)的大數(shù)據(jù)分析中缺失數(shù)據(jù)混合多重插值裝置和方法。
本發(fā)明的目的是通過以下技術方案來實現(xiàn)的,一種大數(shù)據(jù)分析中缺失數(shù)據(jù)混合多重插值的裝置,該裝置包括以下模塊:
模型訓練模塊,根據(jù)事先采集得到的訓練數(shù)據(jù)與目標數(shù)據(jù)建立以訓練數(shù)據(jù)各個屬性為輸入變量參數(shù),缺失數(shù)據(jù)的預估為輸出的混合多重插值模型;
缺失數(shù)據(jù)插補模塊,將訓練模塊中得到的特征向量輸入到缺失數(shù)據(jù)填充模型中,得到缺失數(shù)據(jù)預估值,將缺失數(shù)據(jù)預估值填補到原始數(shù)據(jù),得到完整數(shù)據(jù)。
一種大數(shù)據(jù)分析中缺失數(shù)據(jù)混合多重插值的裝置還包括數(shù)據(jù)預處理模塊,所述數(shù)據(jù)預處理模塊用于分析數(shù)據(jù)缺失模式以及對數(shù)據(jù)進行歸一化處理。
所述的預處理模塊通過加載原始數(shù)據(jù),同時對原始數(shù)據(jù)進行分類,得到完整數(shù)據(jù)集和不完整數(shù)據(jù)集;再通過對完整數(shù)據(jù)集采樣得到訓練數(shù)據(jù)集,并對訓練數(shù)據(jù)集進行歸一化處理;最后對訓練數(shù)據(jù)集進行模擬缺失,缺失數(shù)據(jù)形成目標數(shù)據(jù)集合,得到用于訓練模型的輸入和輸出數(shù)據(jù)集合。
所述的模型訓練模塊包括以下子模塊:數(shù)據(jù)特征向量提取模塊和目標訓練模塊,其中所述的目標訓練模塊包括以下子模塊:單一缺失模式訓練模型和任意缺失模型。
所述的模型訓練模塊是根據(jù)采集訓練數(shù)據(jù)和目標數(shù)據(jù)建立以各屬性為輸入的變量參數(shù),缺失數(shù)據(jù)的預估為輸出的混合多重插值模型。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于電子科技大學,未經(jīng)電子科技大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710385780.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





