[發(fā)明專利]一種檢索方法及檢索裝置有效
| 申請?zhí)枺?/td> | 200910237186.1 | 申請日: | 2009-11-10 |
| 公開(公告)號: | CN102054007A | 公開(公告)日: | 2011-05-11 |
| 發(fā)明(設(shè)計(jì))人: | 童征宇;李曉蕊;劉志云;趙東巖;徐劍波 | 申請(專利權(quán))人: | 北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京同達(dá)信恒知識產(chǎn)權(quán)代理有限公司 11291 | 代理人: | 郭潤湘 |
| 地址: | 100871 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 檢索 方法 裝置 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理領(lǐng)域,尤指一種基于全文檢索技術(shù),采用分組過濾方式加快檢索速度的檢索方法及檢索裝置。
背景技術(shù)
現(xiàn)有技術(shù)中,全文檢索系統(tǒng)支持用戶同時指定多個檢索條件進(jìn)行檢索,每個檢索條件作為一個分支分別檢索得到一組檢索結(jié)果,最后對各個分支得到的各組檢索結(jié)果進(jìn)行合并,才能得到滿足全部檢索條件(即多個檢索條件)的最終檢索結(jié)果。因此,檢索過程中的系統(tǒng)資源消耗包括每個檢索分支的檢索以及對每個分支的檢索結(jié)果進(jìn)行合并得到最終結(jié)果兩個過程的系統(tǒng)資源消耗。
目前,對于同一個數(shù)據(jù)項(xiàng)的多個不同值的檢索,一般會被拆分成多個檢索條件;同時,復(fù)雜的檢索條件(如指定檢索詞范圍的檢索、指定檢索詞前綴的檢索等)在檢索時會擴(kuò)展成一組普通的檢索條件;這使得一次檢索中的檢索條件的數(shù)量可能會達(dá)到上百甚至上千項(xiàng),隨著拆分出的檢索條件數(shù)量的增多,系統(tǒng)資源的消耗也隨著檢索條件的增加不斷增大,從而更加加劇了全文檢索存在的性能問題。
為了解決多個條件檢索時所存在的系統(tǒng)性能問題,可以考慮改進(jìn)分支的檢索性能、改進(jìn)復(fù)雜檢索類型的檢索過程等等。但是這種改進(jìn)所帶來的系統(tǒng)性能的提高非常有限。
申請?zhí)枮?00610083172.5專利申請,公開了一種數(shù)據(jù)集成服務(wù)系統(tǒng)及方法,包括:將用戶輸入的查詢條件轉(zhuǎn)化為數(shù)值范圍,并與預(yù)先保存的數(shù)據(jù)源提供的數(shù)據(jù)范圍,查找并向?qū)?yīng)的數(shù)據(jù)源提供查詢請求以獲取查詢結(jié)果。該方法將部分檢索請求直接固化為過濾函數(shù),檢索結(jié)果通過過濾函數(shù)逐條計(jì)算進(jìn)行驗(yàn)證。這個方法中過濾的計(jì)算量大,處理的數(shù)據(jù)多。另外這個方法無法靈活地支持用戶在檢索過程中動態(tài)處理檢索請求。
且現(xiàn)有技術(shù)中存在的基于過濾條件的檢索處理方法均是基于全部文檔的,將過濾條件與索引庫中的全部文檔相結(jié)合,這種基于全部文檔的過濾器存在創(chuàng)建速度慢,數(shù)據(jù)量大,占用大量內(nèi)存資源等缺點(diǎn)。且在實(shí)際應(yīng)用中往往需要根據(jù)文檔的某種特征進(jìn)行過濾,當(dāng)特征的取值較多時,往往會導(dǎo)致檢索條件過長引起性能和傳輸?shù)膯栴},且基于文檔的過濾器很難滿足這種過濾要求。因此,基于全部文檔的過濾器在多用戶多并發(fā)的全文檢索系統(tǒng)中應(yīng)用時仍然存在嚴(yán)重的性能問題。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種檢索方法及檢索裝置,用以解決現(xiàn)有技術(shù)中多條件檢索時存在的系統(tǒng)資源開銷大、處理速度慢等系統(tǒng)性能問題。
一種檢索方法,包括:根據(jù)預(yù)設(shè)的數(shù)據(jù)項(xiàng)中的數(shù)據(jù)項(xiàng)值對索引庫中的文檔進(jìn)行分組,獲取到用戶提交的檢索條件時,執(zhí)行下列步驟:
根據(jù)所述檢索條件中數(shù)據(jù)項(xiàng)的檢索屬性信息,確定出用于檢索的第一檢索條件和用于過濾的第二檢索條件;
通過所述第一檢索條件對所述索引庫進(jìn)行檢索,得到初步檢索結(jié)果;以及查找所述第二檢索條件中包含的數(shù)據(jù)項(xiàng)上的檢索詞所對應(yīng)的數(shù)據(jù)項(xiàng)值,生成基于分組的過濾器;所述基于分組的過濾器僅允許或僅不允許設(shè)定分組的文檔通過;
依次通過各所述過濾器對所述初步檢索結(jié)果中的命中文檔進(jìn)行過濾,得到最終檢索結(jié)果。
一種檢索裝置,包括:
分組模塊,用于根據(jù)預(yù)設(shè)的數(shù)據(jù)項(xiàng)中的數(shù)據(jù)項(xiàng)值對索引庫中的文檔進(jìn)行分組;
分離模塊,用于獲取到用戶提交的檢索條件,并根據(jù)所述檢索條件中數(shù)據(jù)項(xiàng)的檢索屬性信息,確定出用于檢索的第一檢索條件和用于過濾的第二檢索條件;
檢索模塊,用于通過所述分離模塊確定出的第一檢索條件對所述索引庫進(jìn)行檢索,得到初步檢索結(jié)果;
生成模塊,用于查找所述分離模塊確定出的第二檢索條件中包含的數(shù)據(jù)項(xiàng)上的檢索詞所對應(yīng)的數(shù)據(jù)項(xiàng)值,生成基于分組的過濾器;所述基于分組的過濾器僅允許或僅不允許設(shè)定分組的文檔通過;
過濾模塊,用于依次通過各所述生成模塊生成的基于分組的過濾器對所述初步檢索結(jié)果中的命中文檔進(jìn)行過濾,得到最終檢索結(jié)果。
本發(fā)明實(shí)施例提供的檢索方法及檢索裝置,根據(jù)預(yù)設(shè)的數(shù)據(jù)項(xiàng)中的數(shù)據(jù)項(xiàng)值對索引庫中的文檔進(jìn)行分組;當(dāng)需要進(jìn)行檢索時,可以根據(jù)獲取到用戶提交的檢索條件中數(shù)據(jù)項(xiàng)的檢索屬性信息,確定出用于檢索的第一檢索條件和用于過濾的第二檢索條件;然后將第二檢索條件所對應(yīng)的檢索過程為過濾過程,即通過第一檢索條件對索引庫進(jìn)行檢索,得到初步檢索結(jié)果;以及查找第二檢索條件中包含的數(shù)據(jù)項(xiàng)上的檢索詞所對應(yīng)的數(shù)據(jù)項(xiàng)值,生成僅允許或僅不允許設(shè)定分組的文檔通過的基于分組的過濾器;依次通過各所述過濾器對初步檢索結(jié)果中的命中文檔進(jìn)行過濾,得到最終檢索結(jié)果。上述方法通過將部分檢索條件轉(zhuǎn)化為過濾條件,以減少檢索過程和檢索后合并的復(fù)雜程度,從而節(jié)約了系統(tǒng)資源,提高了處理速度。
附圖說明
圖1為本發(fā)明實(shí)施例中分組標(biāo)識與文檔標(biāo)識的對應(yīng)關(guān)系示意圖;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué),未經(jīng)北大方正集團(tuán)有限公司;北京方正阿帕比技術(shù)有限公司;北京大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/200910237186.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)





