[發(fā)明專(zhuān)利]構(gòu)建索引的方法及設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 201710075884.0 | 申請(qǐng)日: | 2017-02-13 |
| 公開(kāi)(公告)號(hào): | CN108427675B | 公開(kāi)(公告)日: | 2022-09-02 |
| 發(fā)明(設(shè)計(jì))人: | 韓陸 | 申請(qǐng)(專(zhuān)利權(quán))人: | 阿里巴巴集團(tuán)控股有限公司 |
| 主分類(lèi)號(hào): | G06F16/22 | 分類(lèi)號(hào): | G06F16/22;G06F16/23 |
| 代理公司: | 上海百一領(lǐng)御專(zhuān)利代理事務(wù)所(普通合伙) 31243 | 代理人: | 陳貞健;邵棟 |
| 地址: | 英屬開(kāi)曼群島大開(kāi)*** | 國(guó)省代碼: | 暫無(wú)信息 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 構(gòu)建 索引 方法 設(shè)備 | ||
本申請(qǐng)的目的是提供一種構(gòu)建索引的方案,該方案首先從數(shù)據(jù)源中以分片為單位獲取數(shù)據(jù),然后對(duì)所述數(shù)據(jù)建立索引,并生成所述數(shù)據(jù)的分片信息,使得在后續(xù)更新索引時(shí)可以通過(guò)分片信息確定數(shù)據(jù)在數(shù)據(jù)源中所在的分片,由此降低建立、更新索引時(shí)的處理粒度,即使索引中存在錯(cuò)誤,也可以通過(guò)分片信息快速查找到出錯(cuò)數(shù)據(jù)的更新內(nèi)容,以實(shí)現(xiàn)索引更新,從而避免采用回滾或者重建的方式對(duì)實(shí)現(xiàn)索引的更新,適用于海量數(shù)據(jù)的場(chǎng)景,使得構(gòu)建、維護(hù)索引的處理過(guò)程更加高效。
技術(shù)領(lǐng)域
本申請(qǐng)涉及信息技術(shù)領(lǐng)域,尤其涉及一種構(gòu)建索引的方案。
背景技術(shù)
在大數(shù)據(jù)業(yè)務(wù)中,我們通過(guò)搜索引擎對(duì)海量數(shù)據(jù)進(jìn)行信息檢索,數(shù)據(jù)能被快速檢索的前提是構(gòu)建有數(shù)據(jù)的索引。其中,包含海量數(shù)據(jù)的數(shù)據(jù)系統(tǒng)即為數(shù)據(jù)源,其中包含待索引的數(shù)據(jù),實(shí)際場(chǎng)景中數(shù)據(jù)源可能是數(shù)據(jù)庫(kù)。已索引的數(shù)據(jù)存儲(chǔ)的系統(tǒng)則為數(shù)據(jù)匯,其中包含已經(jīng)構(gòu)建過(guò)索引的數(shù)據(jù),實(shí)際場(chǎng)景中數(shù)據(jù)匯可以是搜索引擎。
構(gòu)建索引的過(guò)程比較耗時(shí),因?yàn)橥ǔG闆r下,被索引的數(shù)據(jù)規(guī)模非常大,且每隔一定時(shí)間會(huì)生成一定規(guī)模的增量數(shù)據(jù)。在構(gòu)建索引的過(guò)程中,有可能因?yàn)閿?shù)據(jù)錯(cuò)誤導(dǎo)致索引出錯(cuò),例如數(shù)據(jù)格式錯(cuò)誤、數(shù)據(jù)內(nèi)容錯(cuò)誤、數(shù)據(jù)重復(fù)等問(wèn)題,均可能導(dǎo)致索引出錯(cuò)。
對(duì)于數(shù)據(jù)錯(cuò)誤導(dǎo)致索引出錯(cuò)的情況,常見(jiàn)的解決方案是數(shù)據(jù)回滾,即一旦索引出錯(cuò),就回滾本次構(gòu)建索引操作的全部數(shù)據(jù),重新構(gòu)建索引,由于需要重新處理全部數(shù)據(jù),且可能仍然出錯(cuò),會(huì)導(dǎo)致該過(guò)程占用大量的計(jì)算資源,效率較低。而另一種解決方案是丟棄出錯(cuò)數(shù)據(jù)并記錄出錯(cuò)日志,然后增加后處理,在本次操作的全部數(shù)據(jù)中查詢(xún)出錯(cuò)日志所記錄的出錯(cuò)數(shù)據(jù),然后追加這些出錯(cuò)數(shù)據(jù)的索引。在此過(guò)程中,雖然無(wú)需對(duì)全部數(shù)據(jù)進(jìn)行重新處理,節(jié)省了處理錯(cuò)誤數(shù)據(jù)的時(shí)間,但是由于需要在全部數(shù)據(jù)中查詢(xún)出錯(cuò)數(shù)據(jù),沒(méi)有細(xì)粒度處理方式,在海量數(shù)據(jù)的場(chǎng)景中后處理過(guò)程仍然需要人工介入,因此效率不高,且進(jìn)一步增加了人工維護(hù)成本。
本申請(qǐng)的一個(gè)目的是提供一種構(gòu)建索引的方法及設(shè)備,用以解決現(xiàn)有技術(shù)在處理數(shù)據(jù)錯(cuò)誤導(dǎo)致索引出錯(cuò)的情況時(shí)效率較低的問(wèn)題。
為實(shí)現(xiàn)上述目的,本申請(qǐng)?zhí)峁┝艘环N構(gòu)建索引的方法,所述方法包括:
從數(shù)據(jù)源中,以分片為單位獲取數(shù)據(jù);
對(duì)所述數(shù)據(jù)建立索引,并生成所述數(shù)據(jù)的分片信息,其中,所述分片信息用于標(biāo)識(shí)所述數(shù)據(jù)在數(shù)據(jù)源中所在的分片。
本申請(qǐng)的一種實(shí)施方式中,所述方法還包括:
在更新索引時(shí),從所述數(shù)據(jù)源中獲取新增數(shù)據(jù),其中,所述新增數(shù)據(jù)為未建立索引的數(shù)據(jù);
對(duì)所述新增數(shù)據(jù)建立索引,并生成所述新增數(shù)據(jù)的分片信息。
本申請(qǐng)的一種實(shí)施方式中,所述方法還包括:
生成所述數(shù)據(jù)的操作標(biāo)記;
在更新索引時(shí),根據(jù)所述分片信息從所述數(shù)據(jù)源獲取出錯(cuò)數(shù)據(jù)的更新內(nèi)容,并根據(jù)所述更新內(nèi)容覆蓋所述索引中出錯(cuò)數(shù)據(jù)的當(dāng)前內(nèi)容,其中,所述出錯(cuò)數(shù)據(jù)是操作標(biāo)記為索引錯(cuò)誤的數(shù)據(jù)。
本申請(qǐng)的一種實(shí)施方式中,所述方法還包括:
構(gòu)建所述數(shù)據(jù)的主鍵,其中,所述主鍵用于在數(shù)據(jù)源的相應(yīng)分片中定位所述數(shù)據(jù)。
本申請(qǐng)的一種實(shí)施方式中,在更新索引時(shí),根據(jù)所述分片信息從所述數(shù)據(jù)源獲取出錯(cuò)數(shù)據(jù)的更新內(nèi)容,包括:
在更新索引時(shí),根據(jù)所述分片信息在所述數(shù)據(jù)源中確定所述出錯(cuò)數(shù)據(jù)所在的分片;
根據(jù)所述數(shù)據(jù)的主鍵,在數(shù)據(jù)源的相應(yīng)分片中定位所述出錯(cuò)數(shù)據(jù);
獲取所述出錯(cuò)數(shù)據(jù)的更新內(nèi)容。
本申請(qǐng)的一種實(shí)施方式中,所述方法還包括:
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于阿里巴巴集團(tuán)控股有限公司,未經(jīng)阿里巴巴集團(tuán)控股有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710075884.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 構(gòu)建墊、實(shí)體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實(shí)現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實(shí)例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項(xiàng)目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測(cè)模型構(gòu)建方法
- 一種數(shù)據(jù)庫(kù)讀寫(xiě)分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 傳感設(shè)備、檢索設(shè)備和中繼設(shè)備
- 簽名設(shè)備、檢驗(yàn)設(shè)備、驗(yàn)證設(shè)備、加密設(shè)備及解密設(shè)備
- 色彩調(diào)整設(shè)備、顯示設(shè)備、打印設(shè)備、圖像處理設(shè)備
- 驅(qū)動(dòng)設(shè)備、定影設(shè)備和成像設(shè)備
- 發(fā)送設(shè)備、中繼設(shè)備和接收設(shè)備
- 定點(diǎn)設(shè)備、接口設(shè)備和顯示設(shè)備
- 傳輸設(shè)備、DP源設(shè)備、接收設(shè)備以及DP接受設(shè)備
- 設(shè)備綁定方法、設(shè)備、終端設(shè)備以及網(wǎng)絡(luò)側(cè)設(shè)備
- 設(shè)備、主設(shè)備及從設(shè)備
- 設(shè)備向設(shè)備轉(zhuǎn)發(fā)





