[發明專利]基于哈希函數的高效層級索引構建及檢索方法有效
| 申請號: | 201710506322.7 | 申請日: | 2017-06-28 |
| 公開(公告)號: | CN107273529B | 公開(公告)日: | 2020-02-07 |
| 發明(設計)人: | 宋偉;彭智勇;史成良;楊先娣 | 申請(專利權)人: | 武漢圖信科技有限公司 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/33;G06F21/62 |
| 代理公司: | 42236 武漢智盛唯佳知識產權代理事務所(普通合伙) | 代理人: | 胡紅林 |
| 地址: | 430079 湖北省*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 函數 高效 層級 索引 構建 檢索 方法 | ||
1.一種基于哈希函數的高效層級索引構建方法,其特征在于,包括:
將待歸檔文檔di構建成n維向量Ti;
對待歸檔文檔di中的每個關鍵詞進行哈希操作,得到代表各個關鍵詞的k個正整數的集合;
代表關鍵詞集合的k個正整數集合構成最終表示待歸檔文檔di的n維向量Tik;
將所述n維向量Tik放入文檔集合索引矩陣T中,集合索引矩陣中第i行表示文檔di的索引信息,第j列表示文檔中存在哈希處理結果為j的關鍵詞;完成文檔集合索引構建;
完成文檔集合索引構建之后,根據分詞結果中記錄的分詞結果,對待歸檔文檔di進行分層處理,對于文章中每一段落、每一句子構建一個n維向量,針對各段落的分詞結果進行哈希函數處理,完成處理之后,根據哈希函數的輸出結果對段落索引向量和語句向量進行處理,將處理之后的段落索引向量和語句向量加入到索引層次結構中,通過指針鏈接。
2.根據權利要求1所述基于哈希函數的高效層級索引構建方法,其特征在于:
將待歸檔文檔di進行分詞操作,得到待歸檔文檔di的關鍵詞集合Wi(w1,w2,…,wk);
針對每個分詞記錄,為關鍵詞記錄該關鍵詞的位置信息,位置信息按照文檔結構進行劃分,對于關鍵詞wk,其位置信息為段落、句子、句中偏移量組成的三元組,表示為lk(pk,sk,ok),待歸檔文檔di即可表示為Di(Wk,Lk),其中Lk為位置信息lk的集合,獲取此集合后,根據關鍵詞信息及位置信息進行索引構建操作。
3.一種基于權利要求1所述高效層級索引構建檢索的檢索方法,其特征在于,包括:
將查詢請求中的查詢關鍵詞轉換為多個子關鍵詞的析取范式或合取范式;
將所述析取范式或合取范式構建一個與文檔集合索引矩陣相同維度的n維向量Tq,利用與索引構建時相同的哈希算法對子關鍵詞集合進行哈希操作,將子關鍵詞轉換為正整數,并插入到集合Z(z1,z2,…,zr)中,將Tq的z1、z2、……、zr位分別置為1,表示當前查詢請求含有某些特定關鍵詞,將Tq與文檔索引矩陣T進行矩陣乘法操作:
T’=T·Tq
在T’中選擇所有不為0的行,記為t1,t2,…,tr行,表示含有當前關鍵詞的文檔的索引向量,根據這些向量確認所有含有當前查詢關鍵詞的文檔Dt{dt1,dt2,……,dtr},根據指針查找到目標文檔dt的層次索引中,然后,根據關鍵詞的哈希結果Zq繼續逐段查找文檔的索引中各個段落的索引向量,判斷向量中dt1、dt2、……、dtr位是否為1,命中后再查找命中段落的逐句索引向量,同樣判斷向量中dt1、dt2、……、dtr位是否為1,最終命中含有查詢關鍵詞的目標語句,完成查詢流程。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢圖信科技有限公司,未經武漢圖信科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710506322.7/1.html,轉載請聲明來源鉆瓜專利網。





