[發(fā)明專利]多副本數(shù)據(jù)的時效性判斷方法及裝置有效
| 申請?zhí)枺?/td> | 201911303750.5 | 申請日: | 2019-12-17 |
| 公開(公告)號: | CN111061595B | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計)人: | 宋韶旭;孫宇;王建民 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F11/14 | 分類號: | G06F11/14;G06F16/27 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 楊明月 |
| 地址: | 100084 北*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 副本 數(shù)據(jù) 時效性 判斷 方法 裝置 | ||
本發(fā)明實施例提供一種多副本數(shù)據(jù)的時效性判斷方法及裝置,該方法包括:獲取當(dāng)前時刻的k個相互鄰近的歷史時刻的副本,并計算每兩個相鄰副本的時間差值和數(shù)據(jù)差值,以及當(dāng)前時刻和最近副本的時間差值;將所有時間差值和數(shù)據(jù)差值,輸入至預(yù)設(shè)的差值模型,輸出當(dāng)前時刻和最近副本的數(shù)據(jù)差值預(yù)測結(jié)果;若所述預(yù)測結(jié)果小于預(yù)設(shè)閾值,則判斷所述最近副本具備時效性;其中,所述差值模型,根據(jù)具有時效性的兩兩相鄰的k個時間差值和數(shù)據(jù)差值樣本,進(jìn)行訓(xùn)練后得到。該方法具有客觀性,且無需找到分布式機(jī)器之間的強(qiáng)關(guān)聯(lián)關(guān)系,便可實現(xiàn)數(shù)據(jù)時效性的有效判斷,提高了多副本數(shù)據(jù)的時效性判斷的準(zhǔn)確率。
技術(shù)領(lǐng)域
本發(fā)明涉及分布式計算領(lǐng)域,尤其涉及一種多副本數(shù)據(jù)的時效性判斷方法及裝置。
背景技術(shù)
隨著計算機(jī)技術(shù)和移動互聯(lián)網(wǎng)的高速發(fā)展,產(chǎn)生的數(shù)據(jù)量呈現(xiàn)急劇增長的趨勢。為了存儲和處理由此產(chǎn)生的海量數(shù)據(jù),分布式系統(tǒng)和分布式數(shù)據(jù)庫隨之產(chǎn)生。然而,在加速存儲和處理的同時,分布式也帶來了更多的數(shù)據(jù)質(zhì)量問題。數(shù)據(jù)質(zhì)量已被公認(rèn)成數(shù)據(jù)管理中最為重要的問題之一,劣質(zhì)數(shù)據(jù)往往會帶來嚴(yán)重的損失,阻礙上層應(yīng)用的有效執(zhí)行。因此,數(shù)據(jù)質(zhì)量的重要性是毋庸置疑的,而在影響數(shù)據(jù)質(zhì)量的多種問題中,數(shù)據(jù)時效性正是其中尤為突出的一類問題。在實際應(yīng)用中,由于分布式機(jī)器故障、網(wǎng)絡(luò)失聯(lián)等各種問題,某些分布式機(jī)器無法被實時連接和讀寫使用,也就無法得到相應(yīng)機(jī)器上最新的更新和存儲值。當(dāng)用戶對分布式數(shù)據(jù)庫進(jìn)行查詢得到查詢結(jié)果時,如果這些數(shù)據(jù)的時效性無法被及時判斷,則用戶無法確定當(dāng)前有多少的數(shù)據(jù)是最新和可靠的,也就無法對當(dāng)前應(yīng)用的可信性進(jìn)行準(zhǔn)確的判斷。
現(xiàn)有的多副本數(shù)據(jù)的時效性判斷的方法主要分為兩大類:基于規(guī)則的判斷方法和基于統(tǒng)計的方法。基于規(guī)則的判斷方法能夠?qū)㈩I(lǐng)域知識表達(dá)成規(guī)則的形式,利用規(guī)則來判斷失聯(lián)機(jī)器內(nèi)存儲的數(shù)據(jù)值。基于統(tǒng)計的方法利用歷史修改數(shù)據(jù),來學(xué)習(xí)不同分布式機(jī)器數(shù)據(jù)更新之間的關(guān)系,利用學(xué)習(xí)到的更新關(guān)系以及相應(yīng)的可實時連接和使用的機(jī)器來推測失聯(lián)機(jī)器當(dāng)前可能的存儲值,進(jìn)而判斷數(shù)據(jù)的時效性。
然而,現(xiàn)有的技術(shù)都存在著明顯的弊端。基于規(guī)則的判斷方法通常需要領(lǐng)域?qū)<襾砣藶橹付ā;诮y(tǒng)計的判斷方法能夠自動學(xué)習(xí)分布式機(jī)器間的數(shù)據(jù)更新關(guān)系,但并不是在所有的實際應(yīng)用中我們都可以找到分布式機(jī)器之間的強(qiáng)關(guān)聯(lián)關(guān)系。同時,基于統(tǒng)計的判斷方法直接學(xué)習(xí)數(shù)據(jù)庫中存儲的原始值之間的關(guān)系,因此其只能夠支持?jǐn)?shù)值類型的數(shù)據(jù),而無法擬合字符類型數(shù)據(jù)之間的關(guān)系。在相對獨立的分布式應(yīng)用中,我們往往很難為其定制規(guī)則或挖掘各機(jī)器之間的強(qiáng)關(guān)聯(lián)關(guān)系確定字符型數(shù)據(jù)之間的關(guān)系,從而確定的失聯(lián)機(jī)器的實時數(shù)據(jù)值往往具有非常大的不準(zhǔn)確性,從而導(dǎo)致數(shù)據(jù)時效性的判斷不可信,甚至無效。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明實施例提供一種多副本數(shù)據(jù)的時效性判斷方法及裝置。
第一方面,本發(fā)明實施例提供一種多副本數(shù)據(jù)的時效性判斷方法,包括:獲取當(dāng)前時刻的k個相互鄰近的歷史時刻的副本,并計算每兩個相鄰副本的時間差值和數(shù)據(jù)差值,以及當(dāng)前時刻和最近副本的時間差值;將所有時間差值和數(shù)據(jù)差值,輸入至預(yù)設(shè)的差值模型,輸出當(dāng)前時刻和最近副本的數(shù)據(jù)差值預(yù)測結(jié)果;若所述預(yù)測結(jié)果小于預(yù)設(shè)閾值,則判斷所述最近副本具備時效性;其中,所述差值模型,根據(jù)具有時效性的兩兩相鄰的k個時間差值和數(shù)據(jù)差值樣本,進(jìn)行訓(xùn)練后得到。
進(jìn)一步地,所述將所有時間差值,和待檢測數(shù)據(jù)差值以外的所有數(shù)據(jù)差值,輸入至預(yù)設(shè)的差值模型之前,還包括:獲取n+1個時間相互鄰近的有時效性的數(shù)據(jù)副本,并計算每兩個相鄰時刻的時間差值和數(shù)據(jù)差值;將每k個相鄰的時間差值和數(shù)據(jù)差值作為一個訓(xùn)練樣本,得到n-k+1個訓(xùn)練樣本,利用n-k+1個訓(xùn)練樣本對建立的差值模型進(jìn)行訓(xùn)練,得到所述預(yù)設(shè)的差值模型。
進(jìn)一步地,所述利用n-k+1個訓(xùn)練樣本對建立的差值模型進(jìn)行訓(xùn)練,包括:對于任意一個長度為k的樣本,將時間較早的k-1個數(shù)據(jù)差值和k個時間差值,輸入至建立的差值模型,得到最近的數(shù)據(jù)差值的預(yù)計值;根據(jù)最近的數(shù)據(jù)差值和所述預(yù)計值,對所述差值模型進(jìn)行更新。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911303750.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





