[發(fā)明專利]稀疏數(shù)據(jù)的訪問方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201710439233.5 | 申請日: | 2017-06-06 |
| 公開(公告)號: | CN107273483B | 公開(公告)日: | 2019-11-05 |
| 發(fā)明(設(shè)計(jì))人: | 李為沖;丁洪;傅浩;劉明 | 申請(專利權(quán))人: | 貴州易鯨捷信息技術(shù)有限公司 |
| 主分類號: | G06F16/18 | 分類號: | G06F16/18;G06F16/174;G06F16/245 |
| 代理公司: | 北京酷愛智慧知識產(chǎn)權(quán)代理有限公司 11514 | 代理人: | 孟凡臣 |
| 地址: | 550017 貴州省貴陽市白*** | 國省代碼: | 貴州;52 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 稀疏 數(shù)據(jù) 訪問 方法 系統(tǒng) | ||
本發(fā)明提供了一種稀疏數(shù)據(jù)的訪問方法及系統(tǒng),方法為:在數(shù)據(jù)庫中對數(shù)據(jù)建立事實(shí)表時(shí),創(chuàng)建稀疏矩陣,稀疏矩陣由多個(gè)稀疏列組成;在稀疏矩陣中至少對一個(gè)稀疏列進(jìn)行標(biāo)記,得到被標(biāo)記的稀疏列,并將被標(biāo)記的稀疏列作為主鍵的第一列;獲取查詢條件,根據(jù)查詢條件在事實(shí)表中進(jìn)行稀疏列的查詢:當(dāng)查詢條件中對應(yīng)的稀疏列為有效數(shù)據(jù),將查詢條件中對應(yīng)的稀疏列作為限定查詢條件;當(dāng)查詢條件中對應(yīng)的稀疏列為無效數(shù)據(jù),重新返回步驟S1;根據(jù)查詢條件和限定查詢條件,實(shí)現(xiàn)查詢條件中對應(yīng)的稀疏列所對應(yīng)數(shù)據(jù)的訪問。本發(fā)明采用了對稀疏列進(jìn)行標(biāo)記的方式,并且不需要二級索引,直接使用基本表,可以在持續(xù)數(shù)據(jù)輸入的情況下,高效地對數(shù)據(jù)進(jìn)行過濾讀取。
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)訪問技術(shù)領(lǐng)域,尤其涉及稀疏數(shù)據(jù)的訪問方法及系統(tǒng)。
背景技術(shù)
日志文件廣泛應(yīng)用于各種服務(wù)中,如網(wǎng)頁服務(wù)器,數(shù)據(jù)庫和應(yīng)用服務(wù)器。日志用來記錄不同類型的信息,這些信息擁有不同的重要性等級。日志可以用于調(diào)試和排錯(cuò)。通常情況下,日志文件集中保存在網(wǎng)絡(luò)文件系統(tǒng)中,但也可以分散保存(每個(gè)服務(wù)器包含應(yīng)用程序自身運(yùn)行所產(chǎn)生的日志)。能夠從各種日志中有效地提取有用信息對于開發(fā)/調(diào)試應(yīng)用,以及確保生產(chǎn)環(huán)境的正確運(yùn)行,都是一項(xiàng)十分重要的任務(wù)。然而日志通常是文本文件,因此搜索和分析日志就很困難并且要花費(fèi)高昂的代價(jià)。首先要將日志文件存儲到數(shù)據(jù)庫的結(jié)構(gòu)化或半結(jié)構(gòu)化的表里。再通過查詢數(shù)據(jù)庫,運(yùn)用復(fù)雜的算法來進(jìn)行模式識別、統(tǒng)計(jì)分析或機(jī)器學(xué)習(xí),從而獲取所需要的信息。
目前現(xiàn)有日志分析系統(tǒng)中,都采用反數(shù)據(jù)庫范式的設(shè)計(jì)。和傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)的三范式設(shè)計(jì)不同,日志表被設(shè)計(jì)為單表,以便保證日志的加載速度。因?yàn)槿罩倦S時(shí)隨地產(chǎn)生,且數(shù)據(jù)巨大,需要不間斷地加載到分析系統(tǒng)中,如果采用第三范式的設(shè)計(jì)方法,將影響加載數(shù)據(jù)。而采用單表則有比較好的加載性能,因?yàn)椴恍枰潞凸芾矶鄰埾嗷リP(guān)聯(lián)的表,但這樣做的代價(jià)就是會導(dǎo)致表非常巨大。因此現(xiàn)有日志分析系統(tǒng),對日志信息并沒有采用特殊的存儲和訪問方法。而日志的有用信息是相當(dāng)稀疏的,導(dǎo)致對日志的檢索非常低效。
一般情況下,在海量的日志信息中,只有很少的日志條目含有有用信息。例如,跟蹤網(wǎng)頁服務(wù)器流量的日志,其中只有極小一部分含有惡意軟件行為相關(guān)的信息,或者含有其他特定網(wǎng)頁搜索行為的相關(guān)日志條目。相對所有的網(wǎng)頁流量而言,這些惡意軟件和網(wǎng)頁搜索行為是極少的(我們稱之為稀疏數(shù)據(jù)),但他們?nèi)匀痪哂兄匾囊饬x(因?yàn)檫@些極有可能就是客戶要對某些案例做分析或查詢所需要的信息)。第二個(gè)例子是,設(shè)想下SQL查詢數(shù)據(jù)庫的相關(guān)日志。數(shù)據(jù)庫里一張表的一列記錄了每條SQL語句的相關(guān)日志,比如SQL錯(cuò)誤信息。如果這條SQL執(zhí)行成功則記為null,否則存儲出錯(cuò)信息。由于大多數(shù)SQL語句會執(zhí)行成功,并不會有相關(guān)錯(cuò)誤信息,這個(gè)列的數(shù)據(jù)就會是稀疏的(幾乎都是NULL),但SQL出現(xiàn)錯(cuò)誤的語義價(jià)值肯定是很高的,因?yàn)檫@些信息正是用戶所關(guān)注的。
通過上述兩種情況,可以看到,稀疏數(shù)據(jù)列含有相當(dāng)重要的語義信息,以它們作為查詢條件的語句肯定是100%存在的。目前主流數(shù)據(jù)庫均支持二級索引,但傳統(tǒng)上基于BTree的二級索引無法高效地支持稀疏檢索。
現(xiàn)有技術(shù)中,對于這個(gè)問題的對策是,在這個(gè)稀疏列上創(chuàng)建二級索引。然而當(dāng)表非常大而且數(shù)據(jù)流入速率非常高時(shí),索引不是一個(gè)好的解決方法,因?yàn)樗饕母聲档蛿?shù)據(jù)流人速率。但如果沒有索引或其它措施,以稀疏數(shù)據(jù)為過濾條件對含有日志信息的表執(zhí)行的查詢,將會進(jìn)行全表掃描(或僅受限于日期范圍的掃描),進(jìn)而導(dǎo)致非常慢的訪問速度。
因此,現(xiàn)有技術(shù)中的缺陷是,對于稀疏數(shù)據(jù)的訪問,通過在稀疏列上創(chuàng)建二級索引的方式實(shí)現(xiàn)數(shù)據(jù)的訪問,由于索引的更新會降低數(shù)據(jù)流人速率,以稀疏數(shù)據(jù)為過濾條件對含有日志信息的表執(zhí)行查詢時(shí),將會進(jìn)行全表掃描,導(dǎo)致訪問速度非常慢。
發(fā)明內(nèi)容
針對上述技術(shù)問題,本發(fā)明提供一種稀疏數(shù)據(jù)的訪問方法及系統(tǒng),采用了對稀疏列進(jìn)行標(biāo)記的方式,并且不需要二級索引,直接使用基本表,可以在持續(xù)數(shù)據(jù)輸入的情況下,高效地對數(shù)據(jù)進(jìn)行過濾讀取。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于貴州易鯨捷信息技術(shù)有限公司,未經(jīng)貴州易鯨捷信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710439233.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 存儲器訪問調(diào)度裝置、調(diào)度方法與存儲器訪問控制系統(tǒng)
- 一種限制用戶訪問的方法和裝置
- 一種訪問信息提供方法及系統(tǒng)
- 數(shù)據(jù)訪問權(quán)限的控制方法及裝置
- 基于智能家居系統(tǒng)的訪問授權(quán)方法、裝置及設(shè)備
- 網(wǎng)站訪問請求的動態(tài)調(diào)度方法及裝置
- 基于訪問頻率的監(jiān)測方法、裝置、設(shè)備和計(jì)算機(jī)存儲介質(zhì)
- 訪問憑證驗(yàn)證方法、裝置、計(jì)算機(jī)設(shè)備及存儲介質(zhì)
- 一種應(yīng)用訪問控制方法、系統(tǒng)和介質(zhì)
- 異常訪問行為的檢測方法、裝置、電子設(shè)備及存儲介質(zhì)





