[發(fā)明專利]一種云環(huán)境中的文本索引在線更新方法有效
| 申請?zhí)枺?/td> | 201010554536.X | 申請日: | 2010-11-19 |
| 公開(公告)號: | CN102004778A | 公開(公告)日: | 2011-04-06 |
| 發(fā)明(設(shè)計(jì))人: | 王建民;丁貴廣;張君 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 羅文群 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 環(huán)境 中的 文本 索引 在線 更新 方法 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種云環(huán)境中的文本索引在線更新方法,屬于計(jì)算機(jī)信息檢索技術(shù)領(lǐng)域。
背景技術(shù)
互聯(lián)網(wǎng)和企業(yè)信息化的發(fā)展,產(chǎn)生了大量的非結(jié)構(gòu)化數(shù)據(jù),如產(chǎn)品模型、技術(shù)文檔、管理文本、電子郵件等,文本數(shù)據(jù)就是最常見的非結(jié)構(gòu)化數(shù)據(jù)之一。為了實(shí)現(xiàn)海量數(shù)據(jù)的存儲、索引和檢索,許多的文本檢索系統(tǒng)都采用了云計(jì)算方案。網(wǎng)絡(luò)文本搜索引擎是一類最常見的提供文本檢索服務(wù)的應(yīng)用,如Google和Nutch。
在云環(huán)境中,索引數(shù)據(jù)一般被切分成許多的索引片,然后部署在集群中,每個(gè)節(jié)點(diǎn)持有其中部分索引片,每個(gè)索引片一般都有多個(gè)備份來保證容錯(cuò)性和負(fù)載平衡。許多采用云計(jì)算方案的文本檢索系統(tǒng)表現(xiàn)出了優(yōu)異的索引和檢索性能,卻忽略了索引的即時(shí)性要求。它們假設(shè)文本數(shù)據(jù)索引在一段時(shí)間內(nèi)是不變的,因此采取批量更新索引的方法,在一段時(shí)間內(nèi)持續(xù)對新到來的數(shù)據(jù)進(jìn)行索引,定期地將新索引數(shù)據(jù)批量更新到集群中,其索引數(shù)據(jù)更新周期一般比較長。
對于云環(huán)境的文本檢索系統(tǒng)來說,用戶要求將隨時(shí)到來的新文檔在盡可能短的時(shí)間內(nèi)更新到索引中,傳統(tǒng)的批量更新方法無法滿足用戶的需求。高度的精確性和時(shí)效性要求,使得其索引管理與更新成為一個(gè)重點(diǎn),也是一個(gè)難點(diǎn)。
索引的在線更新就是在此環(huán)境下提出來的。它要求文本檢索系統(tǒng)能夠在不影響其他索引數(shù)據(jù)、不中止檢索服務(wù)的情況下進(jìn)行指定索引數(shù)據(jù)的更新。不過,在多數(shù)情況下,索引更新都會(huì)導(dǎo)致一定時(shí)間的服務(wù)中斷;而在線更新的目標(biāo)就是,將服務(wù)中斷的時(shí)間盡可能地縮短。
Mauricio?Marin等人設(shè)計(jì)了一個(gè)支持在線更新的文本搜索引擎。該搜索引擎允許用戶執(zhí)行檢索操作及添加文本的操作。添加的文本被索引后,索引數(shù)據(jù)發(fā)送到相應(yīng)節(jié)點(diǎn)進(jìn)行更新。該系統(tǒng)通過索引讀寫的并發(fā)控制來避免讀寫沖突。但是該系統(tǒng)并沒有對索引做冗余備份,無法提供可靠的索引服務(wù)和負(fù)載平衡。對于每個(gè)新文本,該系統(tǒng)都直接添加到索引數(shù)據(jù)中;在許多這樣的請求同時(shí)發(fā)生的時(shí)候,節(jié)點(diǎn)就需要頻繁地更新同一索引,導(dǎo)致CPU的過度繁忙;而對索引讀寫的并發(fā)控制使得用戶此時(shí)的檢索請求得不到及時(shí)的響應(yīng)。
Mark?H.Butler和James?Rutherford開發(fā)的Distributed?Lucene也是一個(gè)支持索引在線更新的分布式文本索引系統(tǒng)。該系統(tǒng)采用了lease機(jī)制來實(shí)現(xiàn)索引的并發(fā)控制,當(dāng)一個(gè)節(jié)點(diǎn)更新其索引備份時(shí),該節(jié)點(diǎn)必須先獲得該索引的lease。用戶向一個(gè)索引中增加或刪除文檔時(shí),需要為該索引創(chuàng)建一個(gè)Uncommited?IndexVersion,操作完成后顯式地將其提交。但是對于一個(gè)索引只能創(chuàng)建一個(gè)Uncommited?IndexVersion,這就使得并發(fā)用戶不得不等待前面用戶的操作完成,影響了并發(fā)的效率。另外,該系統(tǒng)中的索引操作是在節(jié)點(diǎn)中執(zhí)行的,用戶需要將原始文本傳送到節(jié)點(diǎn)上;因?yàn)槲谋镜乃饕鄬τ谠嘉谋緛碚f一般比較小,這樣的設(shè)計(jì)會(huì)導(dǎo)致較大的網(wǎng)絡(luò)帶寬資源浪費(fèi)。
傳統(tǒng)的索引批量更新方法一般是,首先在一定時(shí)間內(nèi)持續(xù)地創(chuàng)建新索引數(shù)據(jù),等到創(chuàng)建完成,將集群內(nèi)的原始數(shù)據(jù)全部刪除,然后再將新的索引數(shù)據(jù)部署到集群中,從而啟動(dòng)新索引數(shù)據(jù)的檢索服務(wù)。這種方法存在著較多的缺點(diǎn):
一方面,批量更新一般需要重建全部索引,然后將新的索引數(shù)據(jù)部署到集群中,這將導(dǎo)致極大的數(shù)據(jù)傳輸量,因此占用很多的網(wǎng)絡(luò)帶寬和計(jì)算資源,執(zhí)行時(shí)間也會(huì)很長,隨著索引越來越大,對資源的需求將越來越高,成為系統(tǒng)的瓶頸。
另一方面,批量更新一般需要將原索引數(shù)據(jù)刪除,然后再執(zhí)行索引的更新。在索引的更新期間,系統(tǒng)必將停止檢索服務(wù)。如果更新時(shí)間較長,那么必然導(dǎo)致系統(tǒng)長時(shí)間無法提供服務(wù)。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種云環(huán)境中的文本索引在線更新方法,針對已有技術(shù)中批量更新的不足,設(shè)計(jì)了在線更新機(jī)制、索引片增量的緩存機(jī)制等,以保證并發(fā)更新的一致性,并避免索引的頻繁更新,降低帶寬資源和計(jì)算資源的占用。
本發(fā)明提出的云環(huán)境中的文本索引在線更新方法,包括以下步驟:
(1)在用戶向文本檢索系統(tǒng)添加、刪除或更新文件后,將該文件的識別信息發(fā)送至索引模塊;索引模塊根據(jù)文本檢索系統(tǒng)中定義的索引切分規(guī)則,對接收的識別信息進(jìn)行判斷,確定該文件所屬的索引片,并為該文件創(chuàng)建一個(gè)與該索引片相對應(yīng)的增量數(shù)據(jù);索引模塊將該增量數(shù)據(jù)緩存,并對相同索引片的多次添加、刪除或更新產(chǎn)生的增量數(shù)據(jù)合并;當(dāng)用戶結(jié)束添加、刪除或更新操作后,索引模塊將所有的索引片增量數(shù)據(jù)上傳到共享文件系統(tǒng)中;索引模塊向文本檢索系統(tǒng)中的集群主節(jié)點(diǎn)發(fā)出索引片更新命令,該命令中包括:每個(gè)被更新索引片的名稱、增量類型、增量的存儲路徑;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201010554536.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 環(huán)境服務(wù)系統(tǒng)以及環(huán)境服務(wù)事業(yè)
- 環(huán)境控制裝置、環(huán)境控制方法、環(huán)境控制程序及環(huán)境控制系統(tǒng)
- 環(huán)境檢測終端和環(huán)境檢測系統(tǒng)
- 環(huán)境調(diào)整系統(tǒng)、環(huán)境調(diào)整方法及環(huán)境調(diào)整程序
- 環(huán)境估計(jì)裝置和環(huán)境估計(jì)方法
- 用于環(huán)境艙的環(huán)境控制系統(tǒng)及環(huán)境艙
- 車輛環(huán)境的環(huán)境數(shù)據(jù)處理
- 環(huán)境取樣動(dòng)力頭、環(huán)境取樣方法
- 環(huán)境艙環(huán)境控制系統(tǒng)
- 環(huán)境檢測儀(環(huán)境貓)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





