[發(fā)明專利]基于屬性級(jí)不確定性模型的一對(duì)多型PSJ聚集查詢方法在審
| 申請(qǐng)?zhí)枺?/td> | 201711208820.X | 申請(qǐng)日: | 2017-11-27 |
| 公開(公告)號(hào): | CN108073689A | 公開(公告)日: | 2018-05-25 |
| 發(fā)明(設(shè)計(jì))人: | 陳嶺;王俊凱 | 申請(qǐng)(專利權(quán))人: | 浙江大學(xué) |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 杭州天勤知識(shí)產(chǎn)權(quán)代理有限公司 33224 | 代理人: | 胡紅娟 |
| 地址: | 310013 浙江*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 不確定性 一對(duì)多 查詢 概率分布 子集 聯(lián)機(jī)分析處理 動(dòng)態(tài)規(guī)劃 數(shù)據(jù)倉庫 依賴關(guān)系 建模 全集 數(shù)據(jù)庫 應(yīng)用 | ||
本發(fā)明公開了一種基于屬性級(jí)不確定性模型的一對(duì)多型PSJ聚集查詢方法,包括:1)首先利用屬性級(jí)不確定性模型為PSJ建模;2)在建模結(jié)果上,基于動(dòng)態(tài)規(guī)劃思想提出聚集查詢方法:先計(jì)算出PSJ子集的聚集值概率分布,然后在子集的結(jié)果上計(jì)算出PSJ全集的聚集值概率分布。本發(fā)明充分考慮一對(duì)多型PSJ的依賴關(guān)系,結(jié)合屬性級(jí)不確定性模型,解決了在一對(duì)多型PSJ上難以執(zhí)行COUNT查詢和SUM查詢的問題,在數(shù)據(jù)庫、聯(lián)機(jī)分析處理以及數(shù)據(jù)倉庫中具有廣闊的應(yīng)用前景。
技術(shù)領(lǐng)域
本發(fā)明涉及概率型相似性連接(Probabilistic Similarity Join,PSJ)的聚集查詢領(lǐng)域,具體涉及基于屬性級(jí)不確定性模型的一對(duì)多型PSJ聚集查詢方法。
背景技術(shù)
連接聚集查詢?cè)跀?shù)據(jù)庫、聯(lián)機(jī)分析處理以及數(shù)據(jù)倉庫中應(yīng)用廣泛,此類查詢通常先采用連接操作將多張關(guān)系表合并起來,然后再執(zhí)行聚集運(yùn)算。然而,由于信息時(shí)代數(shù)據(jù)爆炸式增長(zhǎng),數(shù)據(jù)本身的不確定性以及數(shù)據(jù)采集和集成過程中引入的不確定性,導(dǎo)致大量數(shù)據(jù)具有不完整性和模糊性。不確定性數(shù)據(jù)的存在常常使得多表之間無法連接,進(jìn)而導(dǎo)致基于連接操作的聚集查詢失敗。
PSJ查詢基于相似性度量函數(shù),能夠?qū)⑾嗨频脑M連接起來,有效解決了不確定性數(shù)據(jù)的連接問題。按照映射約束的不同,PSJ可分為三類:一對(duì)一型PSJ、一對(duì)多型PSJ和多對(duì)多型PSJ。然而,PSJ查詢的原始結(jié)果通常為一組帶概率的連接,這組連接并不滿足映射約束。從這組PSJ中選取出部分連接,使其滿足映射約束,則該部分連接同時(shí)出現(xiàn)的狀態(tài)稱為一個(gè)可能世界,該可能世界的概率為該部分連接同時(shí)出現(xiàn)的聯(lián)合概率。在PSJ上執(zhí)行聚集查詢,實(shí)質(zhì)上是對(duì)所有可能世界求聚集值。但是,PSJ的可能世界數(shù)量眾多,基于PSJ的聚集查詢面臨挑戰(zhàn)。
在PSJ上做聚集查詢的方法較少。部分方法通過限制連接條數(shù)或者劃定概率閾值來減少可能世界數(shù)量,但是這些方法不但丟失了大量信息,而且不考慮映射約束。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于屬性級(jí)不確定性模型的一對(duì)多型PSJ聚集查詢方法,該方法能夠?qū)σ粚?duì)多型PSJ建模,并基于模型有效地計(jì)算一對(duì)多型PSJ的COUNT值和SUM值概率分布,進(jìn)而縮短計(jì)算時(shí)間,提高查詢效率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供的技術(shù)方案為:
一種基于屬性級(jí)不確定性模型的一對(duì)多型PSJ聚集查詢方法,包括以下步驟:
(1)利用屬性級(jí)不確定性模型為一對(duì)多型PSJ建模,形成PSJ全集的建模結(jié)果;
(2)基于所述建模結(jié)果,采用動(dòng)態(tài)規(guī)劃思想,計(jì)算PSJ子集的聚集值概率分布,并基于所述PSJ子集的聚集值概率分布的結(jié)果,計(jì)算得PSJ全集的聚集值概率分布。
所述步驟(1)包括:
(1-1)為PSJ多端的每一條元組構(gòu)造一條虛擬連接,確保互斥連接的概率和為1;
(1-2)為滿足COUNT查詢謂詞條件的PSJ增加標(biāo)志屬性,為滿足SUM查詢謂詞條件的PSJ增加求和屬性;
(1-3)采用屬性級(jí)不確定性模型對(duì)PSJ建模,將多端的每一條元組建模為一條屬性級(jí)不確定性元組,組成屬性級(jí)不確定性元組全集,形成PSJ全集的建模結(jié)果。
作為優(yōu)選,所述步驟(1-2)包括:
若聚集查詢?yōu)镃OUNT查詢,則為PSJ增加一個(gè)屬性F,表示所述PSJ是否滿足謂詞條件,如果若所述PSJ滿足謂詞條件,那么F=1,否則F=0;
若聚集查詢?yōu)镾UM查詢,則為PSJ增加一個(gè)屬性F,表示所述PSJ求和屬性值的大小,若所述PSJ連接滿足謂詞條件,那么F等于所述PSJ的原始求和屬性值,否則F=0。
所述計(jì)算PSJ子集的聚集值概率分布包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浙江大學(xué),未經(jīng)浙江大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711208820.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 提供導(dǎo)頻或前導(dǎo)信號(hào)中ZADOFF-CHU序列的有限使用的設(shè)備、方法和計(jì)算機(jī)程序產(chǎn)品
- 確定定時(shí)不確定性的方法和裝置
- 一種結(jié)構(gòu)噪聲不確定性優(yōu)化系統(tǒng)及方法
- 一種基于信息熵的地下水?dāng)?shù)值模擬不確定性定量分析方法
- 一種基于QMU的顫振裕度評(píng)估方法
- 一種基于RSSI通信距離估計(jì)的不確定性分析方法
- 一種定量獲得三維礦床地質(zhì)模型不確定性的方法
- 一種降低和展現(xiàn)流式大數(shù)據(jù)不確定性的系統(tǒng)
- 一種數(shù)據(jù)聚類方法及裝置
- 一種考慮結(jié)構(gòu)參數(shù)不確定性的結(jié)構(gòu)系統(tǒng)隨機(jī)振動(dòng)分析方法
- 帶有前處理和后處理的數(shù)據(jù)庫復(fù)合查詢系統(tǒng)及方法
- 數(shù)據(jù)庫查詢的方法和系統(tǒng)
- 查詢系統(tǒng)、查詢終端以及查詢方法
- 交易信息查詢方法、查詢裝置及查詢系統(tǒng)
- 數(shù)據(jù)查詢與結(jié)果生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 在RDF數(shù)據(jù)集上進(jìn)行OPTIONAL查詢的方法及存儲(chǔ)介質(zhì)
- 一種多表關(guān)聯(lián)查詢方法、裝置及設(shè)備
- 一種基于Impala的查詢方法和裝置
- 從查詢生成子查詢
- 一種基于通用查詢語言的查詢方法及查詢系統(tǒng)





