[發(fā)明專利]基于塊索引結(jié)構(gòu)的文檔檢索方法、裝置、介質(zhì)和設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202010980661.0 | 申請(qǐng)日: | 2020-09-17 |
| 公開(kāi)(公告)號(hào): | CN112199461B | 公開(kāi)(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 劉波;李宇 | 申請(qǐng)(專利權(quán))人: | 暨南大學(xué) |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F16/33;G06F16/332;G06F16/338 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 鄭浦娟 |
| 地址: | 510632 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 索引 結(jié)構(gòu) 文檔 檢索 方法 裝置 介質(zhì) 設(shè)備 | ||
本發(fā)明公開(kāi)了一種基于塊索引結(jié)構(gòu)的文檔檢索方法、裝置、介質(zhì)和設(shè)備,首先從文檔集中提取關(guān)鍵詞并擴(kuò)展關(guān)鍵詞;然后以關(guān)鍵詞為索引詞,根據(jù)索引詞與包含該索引詞的文檔之間的相關(guān)性分?jǐn)?shù),采用塊索引結(jié)構(gòu),構(gòu)建多層次索引表。針對(duì)查詢語(yǔ)句,從中抽取查詢?cè)~,并且獲取查詢?cè)~的擴(kuò)展詞;從索引表中獲取與查詢?cè)~和擴(kuò)展詞匹配的所有索引詞;利用索引表中預(yù)計(jì)算的信息,將匹配的查詢?cè)~及擴(kuò)展詞與文檔之間的相關(guān)性分?jǐn)?shù)累加,動(dòng)態(tài)鎖定相關(guān)性累加分?jǐn)?shù)前k名的文檔;當(dāng)滿足檢索終止條件,即前k名文檔不再發(fā)生替換變動(dòng)時(shí),停止索引塊的檢索遍歷,得到按查詢相關(guān)性分?jǐn)?shù)累加值排名前k的文檔結(jié)果集。本發(fā)明具有文檔檢索效率高、成本低以及準(zhǔn)確性高的優(yōu)點(diǎn)。
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)自然語(yǔ)言處理與信息檢索研究領(lǐng)域,特別涉及一種基于塊索引結(jié)構(gòu)的文檔檢索方法、裝置、介質(zhì)和設(shè)備。
背景技術(shù)
在信息檢索應(yīng)用中,采用索引技術(shù)可以加快檢索速度。但是針對(duì)大數(shù)據(jù)集,所構(gòu)建的索引表十分龐大,當(dāng)用戶提出查詢要求時(shí),如果與索引表中的所有索引詞匹配,則需要耗費(fèi)很長(zhǎng)時(shí)間,因此,許多學(xué)者仍在不斷研究?jī)?yōu)化索引結(jié)構(gòu)以及提高檢索效率的方法。
目前,在文本檢索中應(yīng)用最廣的索引方法依然是倒排索引(Inverted Index),索引結(jié)構(gòu)包括關(guān)鍵詞和對(duì)應(yīng)關(guān)鍵詞的文檔編號(hào)列表。Lucence在此基礎(chǔ)上,添加了關(guān)鍵詞在各文檔出現(xiàn)的頻率和出現(xiàn)位置;為了節(jié)省大量文本數(shù)據(jù)的存儲(chǔ)空間,Lucene4.X版本之后使用了FST(Finite State Transducers)有限狀態(tài)機(jī)壓縮技術(shù)。Elasticsearch是目前將倒排索引應(yīng)用于集群最成熟的全文本搜索服務(wù)之一,將所有非結(jié)構(gòu)化的數(shù)據(jù)都可以追加索引并使用,但不管是分布式集群還是提供更多的數(shù)據(jù)信息,都是根據(jù)實(shí)際場(chǎng)景的應(yīng)用優(yōu)化,沒(méi)有從本質(zhì)上改變倒排索引的構(gòu)建過(guò)程,沒(méi)有考慮文檔中出現(xiàn)的詞語(yǔ)重要性的區(qū)別,同時(shí)對(duì)海量數(shù)據(jù)的維護(hù)成本較大。
現(xiàn)有技術(shù)中有一些與語(yǔ)義索引有關(guān)的研究,研究基于圖模型索引庫(kù)的查詢?cè)~組與文本關(guān)聯(lián)匹配方法,將文檔映射到幾個(gè)圖結(jié)構(gòu)中,查詢是在索引圖庫(kù)中查找子圖同構(gòu)的相應(yīng)文本。構(gòu)建概率語(yǔ)義模型(Probabilistic Latent Semantic Indexing,PLST),計(jì)算單詞項(xiàng)與文檔集所代表的概率矩陣之間的關(guān)系,查找關(guān)聯(lián)文本,但這些仍然有比較高的儲(chǔ)存和維護(hù)成本。
發(fā)明內(nèi)容
本發(fā)明的第一目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于塊索引結(jié)構(gòu)的文檔檢索方法,該方法解決了文檔檢索過(guò)程中由于查詢匹配規(guī)模大所產(chǎn)生的效率低、索引表維護(hù)成本較大且檢索結(jié)果準(zhǔn)確性低的問(wèn)題,具有文檔檢索效率高、成本低以及準(zhǔn)確性高的優(yōu)點(diǎn)。
本發(fā)明的第二目的在于提供一種基于塊索引結(jié)構(gòu)的文檔檢索裝置。
本發(fā)明的第三目的在于提供一種存儲(chǔ)介質(zhì)。
本發(fā)明的第四目的在于提供一種計(jì)算設(shè)備。
本發(fā)明的第一目的通過(guò)下述技術(shù)方案實(shí)現(xiàn):一種基于塊索引結(jié)構(gòu)的文檔檢索方法,所述方法包括:
從輸入的文檔集中提取關(guān)鍵詞;
針對(duì)于各關(guān)鍵詞進(jìn)行擴(kuò)展,得到與其相關(guān)聯(lián)的擴(kuò)展詞,構(gòu)建得到各關(guān)鍵詞的擴(kuò)展詞表;
以各關(guān)鍵詞作為索引詞,預(yù)計(jì)算索引詞與文檔集中各文檔之間的相關(guān)性分?jǐn)?shù),并排序存儲(chǔ)到塊索引結(jié)構(gòu)中,從而構(gòu)建得到輸入文檔集的索引表;
接收輸入的查詢語(yǔ)句;
從查詢語(yǔ)句中抽取查詢?cè)~,得到查詢?cè)~集;
針對(duì)于查詢?cè)~集中的各查詢?cè)~,從索引表中獲取與查詢?cè)~匹配的所有索引詞;同時(shí)從上述擴(kuò)展詞表中獲取查詢?cè)~的擴(kuò)展詞;
利用索引表中預(yù)計(jì)算的信息,將匹配的查詢?cè)~及查詢?cè)~相關(guān)聯(lián)的擴(kuò)展詞與文檔之間的相關(guān)性分?jǐn)?shù)累加,動(dòng)態(tài)鎖定相關(guān)性累加分?jǐn)?shù)前k名的文檔;
判定是否滿足檢索終止條件;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于暨南大學(xué),未經(jīng)暨南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010980661.0/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





