[發明專利]基于BERT的偽相關反饋模型信息檢索方法及系統有效
| 申請號: | 201910546934.8 | 申請日: | 2019-06-24 |
| 公開(公告)號: | CN110442777B | 公開(公告)日: | 2022-11-18 |
| 發明(設計)人: | 何婷婷;王俊美;潘敏;王雪彥;黃翔;應志為 | 申請(專利權)人: | 華中師范大學 |
| 主分類號: | G06F16/9532 | 分類號: | G06F16/9532;G06F16/332;G06F40/211 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙) 42222 | 代理人: | 嚴彥 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 相關 反饋 模型 信息 檢索 方法 系統 | ||
本發明提供一種基于BERT的偽相關反饋模型信息檢索方法,包括在偽相關反饋的第一輪檢索中,首先通過BM25模型對目標文檔集合D進行評估,篩選出文檔集合D′,再通過BERT模型對文檔集合D′中文檔再次進行評估,得到文檔的BERT得分;將通過BM25檢索模型和BERT模型得到的文檔得分線性融合,得到偽相關文檔集合D1;基于偽相關文檔集合D1進行查詢擴展選出候選擴展詞,再通過BERT句子語義相似度優化候選擴展詞,得到最終的擴展詞;最終的擴展詞與原始查詢Q結合,生成新的查詢關鍵詞集合,以BM25模型對目標文檔集合D進行第二輪檢索,得到最終的檢索結果。本發明支持在海量信息中去除大量無用和不相關的信息,得出更加精準的候選詞,提高擴展查詢及最終檢索的精度。
技術領域
本發明屬于信息檢索技術領域,特別涉及將BERT融合到偽相關反饋模型中的信息檢索方法及系統。
背景技術
在現代社會環境下,環境互聯網技術迅猛發展,實現了全球資源共享,網絡資源異常豐富,信息總量迅速膨脹。在網絡環境下,人類的生活方式和思維方式都將發生重大變化。數字化環境和信息網絡技術影響并改變著人類傳統的學習方式,面對浩瀚的信息海洋,人們迫切需要一種更為有效的信息處理技術來應對日益增長的海量數據,應該充分借助于先進的技術去查尋并汲取有用的知識。信息檢索作為經典的文本處理技術,能夠適應這一要求并迅速成為當前信息處理研究領域中的研究熱點。
信息檢索(Information Retrieval,簡稱IR)是指對信息進行預處理、存儲和管理,然后找出用戶所需信息的過程和技術。信息檢索過程可以簡單地描述為:用戶根據其信息需求,組織一個查詢字符串提交給信息檢索系統,信息檢索系統在文檔集中檢索出與查詢相關的文檔子集返回給用戶。具體來說是指給定一組特定的查詢主題,通過某種信息檢索模型,對目標中的所有文檔與查詢主題進行相關度計算,并將每個文檔按得分從大到小的順序返回,返回的結果中文檔越靠前說明該文檔與查詢主題越相關。
信息檢索在實際的應用中,通常會出現用戶的查詢意圖與檢索系統給出的查詢結果存在偏差的情況,導致檢索系統的精度不高。因此,信息檢索往往是一個反復的過程,用戶常常需要經過多次的查詢調整才能獲得滿意的檢索結果。實際問題中,信息檢索中由于一般用戶往往會出現查詢輸入不完整或不準確的情況,在信息對比上極易造成檢索結果用戶需求不匹配的查準率低和檢索結果不全面的問題,這時候就需要用到查詢擴展技術來改善這一問題。
查詢擴展技術(QueryExpansion,簡稱QE)是提高檢索性能的有效手段,通過對用戶的初始查詢進行擴展和重構,較好地解決了用戶查詢用詞與文檔用詞不匹配以及用戶表達不完整的問題,因而被廣泛應用于信息檢索領域。查詢擴展就是檢索系統在進行檢索之前,把與原始查詢相關的語詞、概念等以邏輯的方式添加到原查詢中,構成一個新的查詢,然后再進行檢索的過程。擴展后的新查詢可以提供很多有利于判斷文檔相關性的信息,從而改善查準率和查全率。其中主要的方法有基于全局的、基于相關反饋的、基于偽相關反饋的等,本發明中將其應用到了偽相關反饋查詢中。
偽相關反饋(Pseudo Relevance Feedback,簡稱PRF)是信息檢索的一個重要技術分支,它將相關反饋的人工操作部分自動化,因此用戶不需要進行額外地交互就可以獲得檢索性能的提升。該方法首先進行正常的檢索過程,返回最相關的文檔構成初始集,然后假設排名靠前的N篇文檔是相關的,最后在此假設上像以往一樣進行相關反饋。偽相關反饋的出現是為了使檢索系統更加有效,使檢索結果更好地滿足用戶的查詢請求。申請人在日前申請了發明專利《一種基于偽相關反饋模型的信息檢索方法及系統》,但是在上篇專利中,第一輪檢索中只用到了傳統的BM25檢索方法,以篩選反饋文檔,該反饋文檔只包含了詞頻信息,缺少與原始查詢的語義信息,即反饋文檔質量不高,然而本專利中提出進一步改進,在篩選反饋文檔時,同時采用了傳統的BM25方法和BERT方法,使返回的文檔序列融入了語義信息,最終提高了反饋文檔的質量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華中師范大學,未經華中師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910546934.8/2.html,轉載請聲明來源鉆瓜專利網。





