[發明專利]基于BERT的偽相關反饋模型信息檢索方法及系統有效
| 申請號: | 201910546934.8 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110442777B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 何婷婷;王俊美;潘敏;王雪彥;黃翔;應志為 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/332;G06F40/211 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 相關 反饋 模型 信息 檢索 方法 系統 | ||
1.一種基于BERT的偽相關反饋模型信息檢索方法,其特征在于:包括以下操作,
在偽相關反饋的第一輪檢索中,首先通過BM25模型對目標文檔集合D進行評估,得到文檔的BM25得分,篩選出得分前a篇文檔,記為文檔集合D′,再通過BERT模型對文檔集合D′中文檔再次進行評估,得到文檔的BERT得分;其中,a為預設的取值;
將通過BM25檢索模型和BERT模型得到的文檔得分線性融合,得到最終的文檔得分,取得分最高的前N篇文檔作為偽相關文檔集合D1;基于偽相關文檔集合D1進行查詢擴展選出候選擴展詞,再通過BERT句子語義相似度優化候選擴展詞,得到最終的擴展詞;其中,N為預設的取值;
最終的擴展詞與原始查詢Q結合,生成新的查詢關鍵詞集合,以BM25模型對目標文檔集合D進行第二輪檢索,得到最終的檢索結果。
2.根據權利要求書1所述基于BERT的偽相關反饋模型信息檢索方法,其特征在于:設置a=2000。
3.根據權利要求書1所述基于BERT的偽相關反饋模型信息檢索方法,其特征在于:評估文檔得到BERT得分,實現方式包括將文檔集合D′中的每篇文檔分成單獨的句子,根據BERT模型計算每個句子的得分,每篇文檔選得分最高的b個句子求得分之和作為該文檔的得分;其中,b為預設的取值。
4.根據權利要求書3所述基于BERT的偽相關反饋模型信息檢索方法,其特征在于:b取值為4。
5.根據權利要求書1所述基于BERT的偽相關反饋模型信息檢索方法,其特征在于:采用Rocchio算法,基于偽相關文檔集合D1進行查詢擴展選出候選擴展詞。
6.根據權利要求書1或2或3或4或5所述基于BERT的偽相關反饋模型信息檢索方法,其特征在于:所述根據BERT句子語義相似度優化候選擴展詞,包括將候選擴展詞的BERT語義相似度得分,線性融合到通過查詢擴展選出的候選擴展詞的得分上,按得分高低重新排序,取前n1個詞作為最終擴展詞;其中,n1為預設的取值。
7.根據權利要求書6所述基于BERT的偽相關反饋模型信息檢索方法,其特征在于:每個擴展候選詞的BERT語義相似度得分,等于該詞所在的所有句子相應BERT模型所得句子得分的累加和。
8.一種基于BERT的偽相關反饋模型信息檢索系統,其特征在于:用于執行如權利要求1-7所述基于BERT的偽相關反饋模型信息檢索方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910546934.8/1.html,轉載請聲明來源鉆瓜專利網。





