[發(fā)明專利]構(gòu)建列存儲(chǔ)索引的方法、裝置及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201310659169.3 | 申請(qǐng)日: | 2013-12-06 |
| 公開(公告)號(hào): | CN103631937A | 公開(公告)日: | 2014-03-12 |
| 發(fā)明(設(shè)計(jì))人: | 朱翔;李理;李庚;何偉平 | 申請(qǐng)(專利權(quán))人: | 北京趣拿信息技術(shù)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京康信知識(shí)產(chǎn)權(quán)代理有限責(zé)任公司 11240 | 代理人: | 吳貴明;張永明 |
| 地址: | 100080 北京市*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 構(gòu)建 存儲(chǔ) 索引 方法 裝置 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種構(gòu)建列存儲(chǔ)索引的方法、裝置及系統(tǒng)。
背景技術(shù)
目前,現(xiàn)有技術(shù)所提供的搜索引擎中的數(shù)據(jù)更新都是行式更新索引,行式更新索引用于表示文檔的一個(gè)字段索引的更新,需要對(duì)整個(gè)文檔進(jìn)行更新,而不能只對(duì)某一字段進(jìn)行更新。在使用行式更新索引的過程中,需要解析整個(gè)文檔,因此,更新索引的過程中需要較長(zhǎng)的更新周期,而且更新索引的時(shí)候,磁盤IO,cpu帶寬將成為系統(tǒng)的瓶頸。
在使用行式更新功能完成系統(tǒng)中日常的全文索引更新功能的過程中,通常包括一部分字段效短,但是更新頻率較高,更新量較大的數(shù)據(jù),可以稱之為動(dòng)態(tài)數(shù)據(jù)(Dynamic?Data),該動(dòng)態(tài)數(shù)據(jù)是動(dòng)態(tài)易變數(shù)據(jù),需要頻繁變更的字段,比如點(diǎn)擊數(shù)字段。下面就以廣告系統(tǒng)、旅游信息搜索、論壇、度假產(chǎn)品等場(chǎng)景下為例進(jìn)行詳細(xì)說(shuō)明:
在按點(diǎn)擊付費(fèi)的廣告系統(tǒng)中,需要保存每個(gè)廣告文檔的點(diǎn)擊數(shù),用于進(jìn)行實(shí)時(shí)的CTR計(jì)算,在該過程中的點(diǎn)擊字段就是動(dòng)態(tài)數(shù)據(jù)(Dynamic?Data)。需要理解的是,CTR(Click-Through-Rate)是指網(wǎng)絡(luò)廣告(圖片廣告/文字廣告/關(guān)鍵詞廣告/排名廣告/視頻廣告等)的點(diǎn)擊到達(dá)率,即該廣告的點(diǎn)擊量(嚴(yán)格的來(lái)說(shuō),可以是到達(dá)目標(biāo)頁(yè)面的數(shù)量)除以廣告的瀏覽量(PV-Page?View)。
在旅游信息搜索系統(tǒng)的應(yīng)用中,所有提供用戶檢索的信息都抓取自互聯(lián)網(wǎng),其中部分?jǐn)?shù)據(jù)可能涉及反動(dòng),涉黃的文章,當(dāng)上述文章被發(fā)現(xiàn)時(shí),需要及時(shí)更新;或者文章是一篇軟文,需要一個(gè)標(biāo)志位來(lái)標(biāo)識(shí)信息是否合規(guī),此時(shí),用于標(biāo)識(shí)文章的標(biāo)識(shí)字段就是動(dòng)態(tài)數(shù)據(jù)(Dynamic?Data)。
在論壇中,在采用關(guān)鍵詞來(lái)搜索帖子的過程中,系統(tǒng)通常情況下會(huì)按照帖子的點(diǎn)擊數(shù),或者帖子的最后訪問時(shí)間進(jìn)行排序,而點(diǎn)擊數(shù),最后訪問時(shí)間更新非常頻繁。
在度假產(chǎn)品中,每個(gè)度假產(chǎn)品都會(huì)有很多標(biāo)記tag,代理商可以更新產(chǎn)品的標(biāo)記tag,來(lái)影響用戶搜索結(jié)果中對(duì)應(yīng)產(chǎn)品的排名,而標(biāo)記tag的更新也非常頻繁。而且,在度假產(chǎn)品中,代理商經(jīng)常會(huì)調(diào)整商品的價(jià)格,價(jià)格的高低直接影響到用戶購(gòu)買欲,所以要求價(jià)格也盡可能的實(shí)時(shí)更新。
對(duì)于上述應(yīng)用場(chǎng)景中,對(duì)于更新頻繁且即時(shí)生效的動(dòng)態(tài)數(shù)據(jù)(Dynamic?Data),由于這類數(shù)據(jù)的更新效率比較一般的字段數(shù)據(jù)較高,從而使得在索引更新過程中,動(dòng)態(tài)數(shù)據(jù)索引的更新速度遠(yuǎn)遠(yuǎn)快于普通的文本類全文索引。
由于目前普通的文本類全文索引的更新是通過行式更新的方式,整個(gè)更新過程需要更新整個(gè)文檔,特別對(duì)于文檔中有一個(gè)超長(zhǎng)字段,諸如度假產(chǎn)品中,度假產(chǎn)品的詳細(xì)描述字段,這時(shí)候歸檔定位裝置Indexer的開銷將非常大。
目前針對(duì)相關(guān)技術(shù)的由于動(dòng)態(tài)數(shù)據(jù)更新頻率高,導(dǎo)致全文索引的更新過程更新周期長(zhǎng)且系統(tǒng)資源耗費(fèi)較大的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
針對(duì)相關(guān)技術(shù)的由于動(dòng)態(tài)數(shù)據(jù)更新頻率高,導(dǎo)致全文索引的更新過程更新周期長(zhǎng)且系統(tǒng)資源耗費(fèi)較大的問題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種構(gòu)建列存儲(chǔ)索引的方法、裝置及系統(tǒng),以解決上述問題。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種構(gòu)建列存儲(chǔ)索引的方法,該方法包括:獲取即時(shí)生效文檔,即時(shí)生效文檔包括:標(biāo)識(shí)數(shù)據(jù)和標(biāo)識(shí)數(shù)據(jù)關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù);在內(nèi)存中根據(jù)即時(shí)生效文檔創(chuàng)建列存儲(chǔ)式索引結(jié)構(gòu)的文檔,生成柱狀索引文件,柱狀索引文件包括標(biāo)識(shí)列和數(shù)據(jù)存儲(chǔ)列,其中,標(biāo)識(shí)列用于保存標(biāo)識(shí)數(shù)據(jù),數(shù)據(jù)存儲(chǔ)列用于保存標(biāo)識(shí)數(shù)據(jù)關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù);在內(nèi)存中保存柱狀索引文件。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種構(gòu)建列存儲(chǔ)索引的系統(tǒng),該系統(tǒng)包括:歸檔定位裝置,用于生成即時(shí)生效文檔;查詢器,保存在內(nèi)存中,與即時(shí)生效文檔建立通訊,用于獲取即時(shí)生效文檔,在內(nèi)存中根據(jù)即時(shí)生效文檔創(chuàng)建列存儲(chǔ)式索引結(jié)構(gòu)的文檔,生成柱狀索引文件,并在內(nèi)存中保存柱狀索引文件,其中,柱狀索引文件包括標(biāo)識(shí)列和數(shù)據(jù)存儲(chǔ)列,即時(shí)生效文檔包括:標(biāo)識(shí)數(shù)據(jù)和標(biāo)識(shí)數(shù)據(jù)關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù),標(biāo)識(shí)列用于保存標(biāo)識(shí)數(shù)據(jù),數(shù)據(jù)存儲(chǔ)列用于保存標(biāo)識(shí)數(shù)據(jù)關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù)。
為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種構(gòu)建列存儲(chǔ)索引的裝置,該裝置包括:獲取模塊,用于獲取即時(shí)生效文檔,即時(shí)生效文檔包括:標(biāo)識(shí)數(shù)據(jù)和標(biāo)識(shí)數(shù)據(jù)關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù);創(chuàng)建模塊,用于在內(nèi)存中根據(jù)即時(shí)生效文檔創(chuàng)建列存儲(chǔ)式索引結(jié)構(gòu)的文檔,生成柱狀索引文件,柱狀索引文件包括標(biāo)識(shí)列和數(shù)據(jù)存儲(chǔ)列,其中,標(biāo)識(shí)列用于保存標(biāo)識(shí)數(shù)據(jù),數(shù)據(jù)存儲(chǔ)列用于保存標(biāo)識(shí)數(shù)據(jù)關(guān)聯(lián)的動(dòng)態(tài)數(shù)據(jù);保存模塊,用于在內(nèi)存中保存柱狀索引文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京趣拿信息技術(shù)有限公司,未經(jīng)北京趣拿信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310659169.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 動(dòng)態(tài)存儲(chǔ)管理裝置及方法
- 一種存儲(chǔ)方法、服務(wù)器及存儲(chǔ)控制器
- 一種基于存儲(chǔ)系統(tǒng)的控制方法及裝置
- 一種信息的存儲(chǔ)控制方法
- 一種數(shù)據(jù)存儲(chǔ)方法及裝置
- 數(shù)據(jù)存儲(chǔ)方法、裝置、計(jì)算機(jī)設(shè)備以及存儲(chǔ)介質(zhì)
- 一種數(shù)據(jù)存儲(chǔ)控制方法及裝置
- 存儲(chǔ)設(shè)備、存儲(chǔ)系統(tǒng)及存儲(chǔ)方法
- 物料存儲(chǔ)方法及系統(tǒng)
- 基于雙芯智能電表的數(shù)據(jù)分類存儲(chǔ)方法和裝置
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





