[發(fā)明專(zhuān)利]一種大數(shù)據(jù)修復(fù)模型的構(gòu)建方法和模型構(gòu)建裝置在審
| 申請(qǐng)?zhí)枺?/td> | 202010500860.7 | 申請(qǐng)日: | 2020-06-04 |
| 公開(kāi)(公告)號(hào): | CN111738442A | 公開(kāi)(公告)日: | 2020-10-02 |
| 發(fā)明(設(shè)計(jì))人: | 王宏志;秦謙;姜濤 | 申請(qǐng)(專(zhuān)利權(quán))人: | 江蘇名通信息科技有限公司 |
| 主分類(lèi)號(hào): | G06N3/12 | 分類(lèi)號(hào): | G06N3/12;G06N20/00;G06K9/62;G06F16/215 |
| 代理公司: | 南京縱橫知識(shí)產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 朱遠(yuǎn)楓 |
| 地址: | 212004 江蘇省鎮(zhèn)江*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 修復(fù) 模型 構(gòu)建 方法 裝置 | ||
本發(fā)明公開(kāi)了一種大數(shù)據(jù)修復(fù)模型的構(gòu)建方法和模型構(gòu)建裝置,包括從備選修復(fù)方案中選擇候選修復(fù)方案;利用預(yù)先構(gòu)建多個(gè)機(jī)器學(xué)習(xí)模型根據(jù)候選修復(fù)方案針給出的修復(fù)值進(jìn)行初步訓(xùn)練;利用初步訓(xùn)練完成的各機(jī)器學(xué)習(xí)模型給出預(yù)測(cè)修復(fù)值,并根據(jù)各機(jī)器學(xué)習(xí)模型的預(yù)測(cè)修復(fù)值確定各機(jī)器學(xué)習(xí)模型的不確定得分,對(duì)不確定得分進(jìn)行排序;獲取用戶反饋參考值,并將用戶反饋參考值構(gòu)成新的訓(xùn)練集對(duì)不確定得分最高的設(shè)定個(gè)數(shù)的機(jī)器學(xué)習(xí)模型進(jìn)行再訓(xùn)練直至滿足精度要求;訓(xùn)練完成獲得最終的大數(shù)據(jù)修復(fù)模型。本發(fā)明減少了時(shí)間復(fù)雜度,保證了修復(fù)的正確性。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種大數(shù)據(jù)修復(fù)模型的構(gòu)建方法和模型構(gòu)建裝置。
背景技術(shù)
當(dāng)今信息化時(shí)代,隨著以微博、社交網(wǎng)絡(luò)等為代表的新型信息發(fā)布方式的不斷涌現(xiàn),人類(lèi)社會(huì)的數(shù)據(jù)種類(lèi)和規(guī)模正以前所未有的速度在不斷的增加和累積,同步數(shù)據(jù)的爆發(fā)式增長(zhǎng)與社會(huì)化趨勢(shì),將視角瞄準(zhǔn)大量的碎片化信息、用戶行為、用戶關(guān)系,并將焦點(diǎn)匯聚在由此產(chǎn)生的實(shí)時(shí)數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)及機(jī)器數(shù)據(jù)。由于數(shù)據(jù)存在規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)、價(jià)值稀疏性(Value)的特征,不可避免的會(huì)產(chǎn)生粗糙的、錯(cuò)誤的數(shù)據(jù)。由于大數(shù)據(jù)存在錯(cuò)誤,并且這些錯(cuò)誤會(huì)帶來(lái)嚴(yán)重的后果,需要對(duì)大數(shù)據(jù)中的錯(cuò)誤進(jìn)行檢測(cè)與修復(fù),從而確保基于大數(shù)據(jù)各種應(yīng)用的有效實(shí)施。
目前大部分存在的基于依賴的數(shù)據(jù)修復(fù)方法主要集中在使用不同啟發(fā)式方法選擇對(duì)數(shù)據(jù)產(chǎn)生最小改變的修復(fù)來(lái)自動(dòng)產(chǎn)生答案。但是這些啟發(fā)式算法不能保證修復(fù)的正確性,并且算法的時(shí)間復(fù)雜度太高,若果將其應(yīng)用到重要數(shù)據(jù)會(huì)產(chǎn)生相當(dāng)大的風(fēng)險(xiǎn)。
發(fā)明內(nèi)容
本發(fā)明旨在解決目前數(shù)據(jù)修復(fù)方法正確性不能保證且算法的時(shí)間復(fù)雜度太高的技術(shù)問(wèn)題,提出一種大數(shù)據(jù)修復(fù)模型的構(gòu)建方法和模型構(gòu)建裝置。
為實(shí)現(xiàn)上述技術(shù)目的,本發(fā)明采用了以下技術(shù)方案。
一方面,本發(fā)明提供了一種大數(shù)據(jù)修復(fù)模型的構(gòu)建方法,所述大數(shù)據(jù)修復(fù)模型用于給出待修復(fù)數(shù)據(jù)的修復(fù)值,所述大數(shù)據(jù)修復(fù)模型的構(gòu)建方法包括以下步驟:
從備選修復(fù)方案中選擇候選修復(fù)方案;利用預(yù)先構(gòu)建多個(gè)機(jī)器學(xué)習(xí)模型根據(jù)候選修復(fù)方案針給出的修復(fù)值進(jìn)行初步訓(xùn)練;
利用初步訓(xùn)練完成的各機(jī)器學(xué)習(xí)模型給出預(yù)測(cè)修復(fù)值,并根據(jù)各機(jī)器學(xué)習(xí)模型的預(yù)測(cè)修復(fù)值確定各機(jī)器學(xué)習(xí)模型的不確定得分,對(duì)不確定得分進(jìn)行排序;獲取用戶反饋參考值,并將用戶反饋參考值構(gòu)成新的訓(xùn)練集對(duì)不確定得分最高的設(shè)定個(gè)數(shù)的機(jī)器學(xué)習(xí)模型進(jìn)行再訓(xùn)練直至滿足精度要求;訓(xùn)練完成的機(jī)器學(xué)習(xí)模型就為最終的大數(shù)據(jù)修復(fù)模型。
進(jìn)一步地,從備選修復(fù)方案中選擇候選修復(fù)方案的方法為采用遺傳模型,所述遺傳模型的代價(jià)函數(shù)如下:
Cost(C)=∑t∈Cu(t)
其中u(t,A)表示給定一個(gè)修復(fù)u,它用來(lái)將元組t的A屬性值從v修復(fù)到v′的評(píng)估,Ri表示第i個(gè)屬性集,C表示元組集合,u(t,A)的表達(dá)式如下:
(v,v′)表示v和v′的距離。
進(jìn)一步地,所述機(jī)器學(xué)習(xí)模型采用貝葉斯分類(lèi)器。
進(jìn)一步地,用戶反饋參考值采用眾包方式獲得。
進(jìn)一步地,所述候選修復(fù)方案給出修復(fù)值要滿足三個(gè)約束條件,第一個(gè)約束條件為:兩個(gè)元組滿足若干特定屬性的值相同,由該若干特定屬性決定的其它特定屬性的值需要相同的,則其它特定屬性的修復(fù)值必須要跟另一元組該屬性的值相同;
對(duì)兩個(gè)表中的元組必須有特定屬性值相同,則修復(fù)值必須要滿足該約束;
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于江蘇名通信息科技有限公司,未經(jīng)江蘇名通信息科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010500860.7/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 同類(lèi)專(zhuān)利
- 專(zhuān)利分類(lèi)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法





