[發(fā)明專(zhuān)利]基于塊索引結(jié)構(gòu)的文檔檢索方法、裝置、介質(zhì)和設(shè)備有效
| 申請(qǐng)?zhí)枺?/td> | 202010980661.0 | 申請(qǐng)日: | 2020-09-17 |
| 公開(kāi)(公告)號(hào): | CN112199461B | 公開(kāi)(公告)日: | 2022-05-31 |
| 發(fā)明(設(shè)計(jì))人: | 劉波;李宇 | 申請(qǐng)(專(zhuān)利權(quán))人: | 暨南大學(xué) |
| 主分類(lèi)號(hào): | G06F16/31 | 分類(lèi)號(hào): | G06F16/31;G06F16/33;G06F16/332;G06F16/338 |
| 代理公司: | 廣州市華學(xué)知識(shí)產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 鄭浦娟 |
| 地址: | 510632 廣東*** | 國(guó)省代碼: | 廣東;44 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 索引 結(jié)構(gòu) 文檔 檢索 方法 裝置 介質(zhì) 設(shè)備 | ||
1.一種基于塊索引結(jié)構(gòu)的文檔檢索方法,其特征在于,所述方法包括:
從輸入的文檔集中提取關(guān)鍵詞;
針對(duì)于各關(guān)鍵詞進(jìn)行擴(kuò)展,得到與其相關(guān)聯(lián)的擴(kuò)展詞,構(gòu)建得到各關(guān)鍵詞的擴(kuò)展詞表;
以各關(guān)鍵詞作為索引詞,預(yù)計(jì)算索引詞與文檔集中各文檔之間的相關(guān)性分?jǐn)?shù),并排序存儲(chǔ)到塊索引結(jié)構(gòu)中,從而構(gòu)建得到輸入文檔集的索引表;
接收輸入的查詢語(yǔ)句;
從查詢語(yǔ)句中抽取查詢?cè)~,得到查詢?cè)~集;
針對(duì)于查詢?cè)~集中的各查詢?cè)~,從索引表中獲取與查詢?cè)~匹配的所有索引詞;同時(shí)從上述擴(kuò)展詞表中獲取查詢?cè)~的擴(kuò)展詞;
利用索引表中預(yù)計(jì)算的信息,將匹配的查詢?cè)~及查詢?cè)~相關(guān)聯(lián)的擴(kuò)展詞與文檔之間的相關(guān)性分?jǐn)?shù)累加,動(dòng)態(tài)鎖定相關(guān)性累加分?jǐn)?shù)前k名的文檔,具體步驟包括:
從索引表中獲取與各查詢?cè)~匹配的所有索引詞,同時(shí)從索引表中獲取與查詢?cè)~的擴(kuò)展詞匹配的所有索引詞;
針對(duì)于各查詢?cè)~,獲取索引表中與該查詢?cè)~匹配的索引詞的各索引塊,并且獲取到各索引塊中的max_score;
針對(duì)于各擴(kuò)展詞,獲取索引標(biāo)配中與該擴(kuò)展詞匹配的索引詞的各索引塊,并且獲取到各索引塊中的max_score,然后將各索引塊中的max_score與該擴(kuò)展詞的置信度相乘,得到max_score1;
按照獲取到的各查詢?cè)~對(duì)應(yīng)各索引塊的max_score、各擴(kuò)展詞對(duì)應(yīng)各索引塊對(duì)應(yīng)得到max_score1從大到小的排序,對(duì)各查詢?cè)~和擴(kuò)展詞的索引塊進(jìn)行降序排序;
構(gòu)建score_list列表,通過(guò)score_list列表存儲(chǔ)候選文檔的文檔編號(hào)以及候選文檔對(duì)應(yīng)的相關(guān)性分?jǐn)?shù)累加值,score_list列表初始設(shè)置為空;并且設(shè)置以下變量的初始值:max_scorenext=0,scorek+1=0,scorek=0,V=0;V表示已經(jīng)掃描的索引塊的數(shù)目;
針對(duì)于降序排序后的各索引塊,進(jìn)行依次掃描;
針對(duì)于當(dāng)前掃描的索引塊中各文檔編號(hào)對(duì)應(yīng)的各文檔,若該文檔d的文檔編號(hào)未出現(xiàn)在score_list列表中,則獲取索引塊中該文檔的文檔編號(hào)及該文檔與索引詞對(duì)應(yīng)的相關(guān)性分?jǐn)?shù);其中:
若當(dāng)前掃描的索引塊對(duì)應(yīng)的索引詞為查詢?cè)~q匹配的索引詞時(shí),則將該文檔d的文檔編號(hào)及該文檔d與索引詞對(duì)應(yīng)的相關(guān)性分?jǐn)?shù)S(q,d)添加到score_list列表;
若當(dāng)前掃描的索引塊對(duì)應(yīng)的索引詞為查詢?cè)~的擴(kuò)展詞e匹配的索引詞時(shí),則將該文檔d的文檔編號(hào)及該文檔d與索引詞對(duì)應(yīng)的相關(guān)性分?jǐn)?shù)S(e,d)和擴(kuò)展詞的置性度Conf(e,q)乘積后的值,添加到score_list列表;
針對(duì)于當(dāng)前掃描的索引塊中各文檔編號(hào)對(duì)應(yīng)的各文檔,若該文檔d的文檔編號(hào)已經(jīng)出現(xiàn)在score_list列表中,則獲取索引塊中該文檔的文檔編號(hào)及該文檔與索引詞對(duì)應(yīng)的相關(guān)性分?jǐn)?shù);其中:
若當(dāng)前掃描的索引塊對(duì)應(yīng)的索引詞為查詢?cè)~q匹配的索引詞時(shí),則將當(dāng)前掃描前該文檔對(duì)應(yīng)的相關(guān)性分?jǐn)?shù)累加值,加上當(dāng)前掃描的索引塊中該文檔與索引詞的相關(guān)性分?jǐn)?shù)S(q,d),作為該文檔當(dāng)前掃描更新的相關(guān)性分?jǐn)?shù)累加值;
若當(dāng)前掃描的索引塊對(duì)應(yīng)的索引詞為查詢?cè)~的擴(kuò)展詞匹配的索引詞時(shí),則將當(dāng)前掃描前score_list列表該文檔對(duì)應(yīng)的相關(guān)性分?jǐn)?shù)累加值,加上當(dāng)前掃描的索引塊中該文檔與索引詞的相關(guān)性分?jǐn)?shù)S(e,d)與擴(kuò)展詞的置性度Conf(e,q)乘積后的值,作為該文檔當(dāng)前的相關(guān)性分?jǐn)?shù)累加值;
在當(dāng)前掃描后,按照被掃描到的各文檔當(dāng)前的相關(guān)性分?jǐn)?shù)累加值從大到小的順序,在score_list列表存儲(chǔ)文檔編號(hào)及文檔對(duì)應(yīng)的相關(guān)性分?jǐn)?shù)累加值,得到更新后的score_list列表;
同時(shí),V的值加1,通過(guò)更新后的score_list列表更新scorek和scorek+1的值;其中:
若當(dāng)前掃描后,被掃描過(guò)的文檔數(shù)目小于k,則scorek和scorek+1均為0;
若掃描過(guò)的文檔數(shù)目等于k,則scorek為當(dāng)前更新后的score_list列表中排名第k的相關(guān)性分?jǐn)?shù)累加值,scorek+1為0;
若掃描過(guò)的文檔數(shù)目大于k時(shí),則scorek、scorek+1表示score_list列表中當(dāng)前排名第k和k+1的相關(guān)性分?jǐn)?shù)累加值;
同時(shí),根據(jù)下一次所要掃描的索引塊更新max_scorenext的值,其中:
當(dāng)下一次所要掃描的索引塊是:與查詢?cè)~匹配的索引詞的索引塊,則max_scorenext更新為:下一次所要掃描的索引塊中的max_score的值;
當(dāng)下一次所要掃描的索引塊是:與查詢?cè)~的擴(kuò)展詞匹配的索引詞的索引塊,則max_scorenext更新為:下一次所要掃描的索引塊中的max_score和擴(kuò)展詞的置信度相乘后的值;
判定是否滿足檢索終止條件;
當(dāng)滿足檢索終止條件,即前k名文檔不再發(fā)生替換變動(dòng)時(shí),停止索引塊的檢索遍歷,得到按查詢相關(guān)性分?jǐn)?shù)累加值排名前k的文檔結(jié)果集。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于暨南大學(xué),未經(jīng)暨南大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010980661.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類(lèi)型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫(huà)生成方法、裝置及設(shè)備





