[發(fā)明專利]一種創(chuàng)建索引文件的方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201510822336.0 | 申請(qǐng)日: | 2015-11-24 |
| 公開(kāi)(公告)號(hào): | CN105488124A | 公開(kāi)(公告)日: | 2016-04-13 |
| 發(fā)明(設(shè)計(jì))人: | 金洪殿;趙仁明;亓開(kāi)元 | 申請(qǐng)(專利權(quán))人: | 浪潮(北京)電子信息產(chǎn)業(yè)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 北京集佳知識(shí)產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 100085 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 創(chuàng)建 索引 文件 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種創(chuàng)建索引文件的方 法及裝置。
背景技術(shù)
全文檢索是指計(jì)算機(jī)索引程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每 一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶 查詢時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果 反饋給用戶的檢索方式。這個(gè)過(guò)程類似于通過(guò)字典中的檢索字表查字 的過(guò)程。
檢索主要分為按字檢索和按詞檢索兩種。按字檢索是指對(duì)于文章 中的每一個(gè)字都建立索引,檢索時(shí)將詞分解為字的組合。對(duì)于各種不 同的語(yǔ)言而言,字有不同的含義,比如英文中字與詞實(shí)際上是合一的, 而中文中字與詞有很大分別。按詞檢索指對(duì)文章中的詞,即語(yǔ)義單位 建立索引,檢索時(shí)按詞檢索,并且可以處理同義項(xiàng)等。英文等西方文 字由于按照空白切分詞,因此實(shí)現(xiàn)中與按字處理類似,添加同義處理 也很容易。中文等東方文字則需要切分字詞,以達(dá)到按詞索引的目的, 關(guān)于這方面的問(wèn)題,是當(dāng)前全文檢索技術(shù)尤其是中文全文檢索技術(shù)中 的難點(diǎn)。
全文檢索系統(tǒng)是按照全文檢索理論建立起來(lái)的用于提供全文檢 索服務(wù)的軟件系統(tǒng)。一般來(lái)說(shuō),全文檢索需要具備建立索引和提供查 詢的基本功能,此外現(xiàn)代的全文檢索系統(tǒng)還需要具有方便的用戶接口、 二次應(yīng)用開(kāi)發(fā)接口等等。功能上,全文檢索系統(tǒng)核心具有建立索引、 處理查詢返回結(jié)果集、增加索引、優(yōu)化索引結(jié)構(gòu)等功能。
Lucene是一個(gè)開(kāi)放源代碼的全文檢索引擎工具包,即它不是一個(gè) 完整的全文檢索引擎,而是一個(gè)全文檢索引擎的架構(gòu),提供了完整的 查詢引擎和索引引擎。Lucene的目的是為軟件開(kāi)發(fā)人員提供一個(gè)簡(jiǎn)單 易用的工具包,以方便的在目標(biāo)系統(tǒng)中實(shí)現(xiàn)全文檢索的功能,或者是 以此為基礎(chǔ)建立起完整的全文檢索引擎。Lucene是一套用于全文檢索 和搜尋的開(kāi)源程式庫(kù),由Apache軟件基金會(huì)支持和提供。Lucene提 供了一個(gè)簡(jiǎn)單卻強(qiáng)大的應(yīng)用程式接口,能夠做全文索引和搜尋。
Lucene特殊的索引結(jié)構(gòu),決定了其只能使用一個(gè)IndexWriter對(duì) 索引進(jìn)行添加操作。這樣對(duì)于大數(shù)據(jù)量的索引,如果無(wú)法實(shí)現(xiàn)并行創(chuàng) 建索引,索引的過(guò)程將十分耗時(shí)。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種創(chuàng)建索引文件的方法及裝置,目的在于 解決當(dāng)索引數(shù)據(jù)規(guī)模較大時(shí),現(xiàn)有的索引方法索引效率較低的問(wèn)題。
為解決上述技術(shù)問(wèn)題,本發(fā)明提供一種創(chuàng)建索引文件的方法,包 括:
根據(jù)數(shù)據(jù)規(guī)模以及業(yè)務(wù)需求,確定執(zhí)行索引創(chuàng)建的線程數(shù)量;
通過(guò)所述數(shù)據(jù)規(guī)模以及所述線程數(shù)量,確定各個(gè)線程分別負(fù)責(zé)進(jìn) 行索引的數(shù)據(jù)范圍;
各個(gè)線程分別創(chuàng)建對(duì)應(yīng)數(shù)據(jù)范圍的索引文件;
將各個(gè)所述線程創(chuàng)建的所述索引文件進(jìn)行合并,存儲(chǔ)于一個(gè)索引 目錄中。
可選地,所述將各個(gè)所述線程創(chuàng)建的所述索引文件進(jìn)行合并,存 儲(chǔ)于一個(gè)索引目錄中包括:
當(dāng)各個(gè)線程的索引文件創(chuàng)建執(zhí)行完成后,將各個(gè)所述線程創(chuàng)建的 所述索引文件進(jìn)行合并,存儲(chǔ)于一個(gè)索引目錄中。
可選地,所述各個(gè)線程分別創(chuàng)建對(duì)應(yīng)數(shù)據(jù)范圍的索引文件包括:
各個(gè)線程分別創(chuàng)建的索引文件互相獨(dú)立,不會(huì)引發(fā)鎖重疊異常。
本發(fā)明還提供了一種創(chuàng)建索引文件的裝置,包括:
第一確定模塊,用于根據(jù)數(shù)據(jù)規(guī)模以及業(yè)務(wù)需求,確定執(zhí)行索引 創(chuàng)建的線程數(shù)量;
第二確定模塊,用于通過(guò)所述數(shù)據(jù)規(guī)模以及所述線程數(shù)量,確定 各個(gè)線程分別負(fù)責(zé)進(jìn)行索引的數(shù)據(jù)范圍;
創(chuàng)建模塊,用于各個(gè)線程分別創(chuàng)建對(duì)應(yīng)數(shù)據(jù)范圍的索引文件;
存儲(chǔ)模塊,用于將各個(gè)所述線程創(chuàng)建的所述索引文件進(jìn)行合并, 存儲(chǔ)于一個(gè)索引目錄中。
可選地,所述存儲(chǔ)模塊具體用于:
當(dāng)各個(gè)線程的索引文件創(chuàng)建執(zhí)行完成后,將各個(gè)所述線程創(chuàng)建的 所述索引文件進(jìn)行合并,存儲(chǔ)于一個(gè)索引目錄中。
可選地,所述創(chuàng)建模塊具體用于:
各個(gè)線程分別創(chuàng)建的索引文件互相獨(dú)立,不會(huì)引發(fā)鎖重疊異常。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于浪潮(北京)電子信息產(chǎn)業(yè)有限公司,未經(jīng)浪潮(北京)電子信息產(chǎn)業(yè)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201510822336.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語(yǔ)言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫(kù)結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 圖冊(cè)創(chuàng)建設(shè)備、圖冊(cè)創(chuàng)建方法和圖冊(cè)創(chuàng)建程序
- 一種使用創(chuàng)建接口來(lái)靈活創(chuàng)建對(duì)象的方法
- 報(bào)告創(chuàng)建系統(tǒng)、報(bào)告創(chuàng)建裝置以及報(bào)告創(chuàng)建方法
- 文本創(chuàng)建系統(tǒng)、文本創(chuàng)建裝置、文本創(chuàng)建方法
- 文檔創(chuàng)建設(shè)備、文檔創(chuàng)建系統(tǒng)及文檔創(chuàng)建方法
- 剪報(bào)創(chuàng)建方法和剪報(bào)創(chuàng)建系統(tǒng)
- 數(shù)據(jù)創(chuàng)建裝置、數(shù)據(jù)創(chuàng)建方法及數(shù)據(jù)創(chuàng)建程序
- 信息創(chuàng)建方法及信息創(chuàng)建裝置
- 報(bào)告創(chuàng)建系統(tǒng)和報(bào)告創(chuàng)建方法
- 創(chuàng)建改進(jìn)的顏色的顏色創(chuàng)建裝置及顏色創(chuàng)建方法
- 一種數(shù)據(jù)庫(kù)讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





