[發(fā)明專利]一種檢索數(shù)據(jù)庫的數(shù)據(jù)更新方法、裝置及存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 202110477997.X | 申請(qǐng)日: | 2021-04-30 |
| 公開(公告)號(hào): | CN113190652A | 公開(公告)日: | 2021-07-30 |
| 發(fā)明(設(shè)計(jì))人: | 王敏;王巖;程童;黃鶴南;董金奎;顏聰 | 申請(qǐng)(專利權(quán))人: | 作業(yè)幫教育科技(北京)有限公司 |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/31 |
| 代理公司: | 北京中聯(lián)智道知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11963 | 代理人: | 熊蒙 |
| 地址: | 100085 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 檢索 數(shù)據(jù)庫 數(shù)據(jù) 更新 方法 裝置 存儲(chǔ) 介質(zhì) | ||
本發(fā)明涉及大數(shù)據(jù)搜索技術(shù)領(lǐng)域,公開了一種檢索數(shù)據(jù)庫的數(shù)據(jù)更新方法、裝置及存儲(chǔ)介質(zhì),所述的檢索數(shù)據(jù)庫的數(shù)據(jù)更新方法,所述檢索數(shù)據(jù)庫包括基量數(shù)據(jù)庫和增量數(shù)據(jù)庫,對(duì)所述基量數(shù)據(jù)庫、增量數(shù)據(jù)庫在建立索引的過程中分別產(chǎn)出的基量庫中間文件和增量庫中間文件進(jìn)行存儲(chǔ);合并增量數(shù)據(jù)庫的數(shù)據(jù)至基量數(shù)據(jù)庫,將增量庫中間文件與基量庫中間文件進(jìn)行匹配,進(jìn)行基量數(shù)據(jù)庫的索引數(shù)據(jù)均衡。本發(fā)明的檢索數(shù)據(jù)庫的數(shù)據(jù)更新方法在增量數(shù)據(jù)庫與基量數(shù)據(jù)庫合并數(shù)據(jù)的過程中避免了大量的重復(fù)計(jì)算,縮短了數(shù)據(jù)合并的時(shí)間,風(fēng)險(xiǎn)低。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)搜索技術(shù)領(lǐng)域,具體的涉及一種檢索數(shù)據(jù)庫的數(shù)據(jù)更新方法、裝置及存儲(chǔ)介質(zhì)。
背景技術(shù)
檢索數(shù)據(jù)庫一般包括全量數(shù)據(jù)庫和增量數(shù)據(jù)庫,所述的基量數(shù)據(jù)庫為基量索引服務(wù)提供數(shù)據(jù)基礎(chǔ),基量索引服務(wù)用來查詢截止到某一個(gè)日期的全部文檔;所述的增量數(shù)據(jù)庫為增量索引服務(wù)提供數(shù)據(jù)基礎(chǔ),很多搜索引擎都注重時(shí)效性搜索,比如對(duì)于時(shí)下剛剛發(fā)生的某件熱門事件,需要搜索引擎能夠第一時(shí)間搜索到該熱門事件的頁面,這該如何做到呢?增量索引服務(wù),可以解決時(shí)效性搜索問題。
現(xiàn)有增量數(shù)據(jù)庫與基量數(shù)據(jù)庫合并數(shù)據(jù)的流程如下:
a)在增量數(shù)據(jù)庫快滿的時(shí)候,將增量數(shù)據(jù)庫中的數(shù)據(jù)平分到基量數(shù)據(jù)庫的各個(gè)基量分片中;
b)每個(gè)基量分片之前的數(shù)據(jù)+增量庫分過來的數(shù)據(jù)一起,重新進(jìn)行基量數(shù)據(jù)庫重建。
參見圖1所示,現(xiàn)有基量數(shù)據(jù)庫中倒排索引的倒排鏈的結(jié)構(gòu)示意圖,檢索關(guān)鍵詞key對(duì)應(yīng)多個(gè)node節(jié)點(diǎn),每個(gè)node節(jié)點(diǎn)中包含文檔編號(hào)TID、文檔簡(jiǎn)述brief以及文檔權(quán)重weight。在進(jìn)行增量數(shù)據(jù)庫與基量數(shù)據(jù)庫合并數(shù)據(jù)的時(shí)候,增量數(shù)據(jù)庫中新增的文檔產(chǎn)生key的倒排鏈直接加到基量數(shù)據(jù)庫對(duì)應(yīng)key的倒排鏈中,或者整個(gè)新key的倒排鏈加到基量數(shù)據(jù)庫;而增量數(shù)據(jù)庫對(duì)基量數(shù)據(jù)庫已有文檔的修改時(shí),需要基量數(shù)據(jù)庫中修改文檔包含key的倒排鏈數(shù)據(jù)重新跑term、倒排、均衡、落庫。由此可知,針對(duì)修改文檔,上述增量數(shù)據(jù)庫與基量數(shù)據(jù)庫合并數(shù)據(jù)的方式存在的問題是:在基量數(shù)據(jù)庫建庫、增量數(shù)據(jù)庫建庫以及增量數(shù)據(jù)庫與基量數(shù)據(jù)庫合并數(shù)據(jù)的過程中需要進(jìn)行大量的重復(fù)計(jì)算,且耗時(shí)長,風(fēng)險(xiǎn)高。
有鑒于此,特提出本發(fā)明。
發(fā)明內(nèi)容
為了解決以上問題,本發(fā)明提出了
一種檢索數(shù)據(jù)庫的數(shù)據(jù)更新方法,所述檢索數(shù)據(jù)庫包括基量數(shù)據(jù)庫和增量數(shù)據(jù)庫,
對(duì)所述基量數(shù)據(jù)庫、增量數(shù)據(jù)庫在建立索引的過程中分別產(chǎn)出的基量庫中間文件和增量庫中間文件進(jìn)行存儲(chǔ);
合并增量數(shù)據(jù)庫的數(shù)據(jù)至基量數(shù)據(jù)庫,將增量庫中間文件與基量庫中間文件進(jìn)行匹配,進(jìn)行基量數(shù)據(jù)庫的索引數(shù)據(jù)均衡。
作為本發(fā)明的可選實(shí)施方式,所述基量數(shù)據(jù)庫、增量數(shù)據(jù)庫在建立索引的過程中分別產(chǎn)出基量庫中間文件和增量庫中間文件包括:
所述基量數(shù)據(jù)庫在建立倒排索引的過程中產(chǎn)出基量庫中間文件item,所述基量庫中間文件item的文件結(jié)構(gòu)為TID:(key1,offset1)、(key2,offset2)、……、(keym,offsetm),所述的TID為文檔ID,所述的key1、key2、……、keym為文檔切分的檢索關(guān)鍵詞,所述的offset1、offset2、……、offsetm為文檔在各檢索關(guān)鍵詞key的倒排鏈上的位置;
所述增量數(shù)據(jù)庫在建立倒排索引的過程中產(chǎn)出增量庫中間文件item’,所述增量庫中間文件item’的文件結(jié)構(gòu)為TID’:(key1’,offset1’)、(key2’,offset2’)、……、(keyn’,offsetn’),所述的TID為文檔ID,所述的key1’、key2’、……、keyn’為文檔切分的檢索關(guān)鍵詞,所述的offset1’、offset2’、……、offsetn’為文檔在各檢索關(guān)鍵詞key的倒排鏈上的位置。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于作業(yè)幫教育科技(北京)有限公司,未經(jīng)作業(yè)幫教育科技(北京)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110477997.X/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:游戲角色的渲染方法、裝置及電子設(shè)備
- 下一篇:一種銠釕合金電鍍工藝
- 數(shù)據(jù)庫
- 數(shù)據(jù)庫管理系統(tǒng)及數(shù)據(jù)庫
- 數(shù)據(jù)庫構(gòu)筑裝置、數(shù)據(jù)庫檢索裝置、數(shù)據(jù)庫裝置、數(shù)據(jù)庫構(gòu)筑方法、以及數(shù)據(jù)庫檢索方法
- 數(shù)據(jù)庫和數(shù)據(jù)庫處理方法
- 數(shù)據(jù)庫系統(tǒng)、數(shù)據(jù)庫更新方法、數(shù)據(jù)庫以及數(shù)據(jù)庫更新程序
- 容器數(shù)據(jù)庫
- 數(shù)據(jù)庫同步方法及數(shù)據(jù)庫
- 一種MongoDB數(shù)據(jù)庫對(duì)象復(fù)制延遲監(jiān)控方法和裝置
- 數(shù)據(jù)分布式存儲(chǔ)方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 數(shù)據(jù)庫語句執(zhí)行方法及裝置
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





