[發明專利]一種用于建模ad-hoc檢索任務中多樣相關特征的信息檢索模型在審
| 申請號: | 201910898272.0 | 申請日: | 2019-09-23 |
| 公開(公告)號: | CN111444414A | 公開(公告)日: | 2020-07-24 |
| 發明(設計)人: | 胡澤婷;張鵬;蔣永余 | 申請(專利權)人: | 天津大學 |
| 主分類號: | G06F16/953 | 分類號: | G06F16/953;G06F16/33 |
| 代理公司: | 天津市北洋有限責任專利代理事務所 12201 | 代理人: | 韓帥 |
| 地址: | 300072*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 用于 建模 ad hoc 檢索 任務 多樣 相關 特征 信息 模型 | ||
本發明公開了一種用于建模ad?hoc檢索任務中多樣相關特征的信息檢索模型,即Match?Transformer模型,包括以下步驟:根據topic收集語料集,將其分為訓練集和測試集;對語料集中的查詢和文檔進行預處理;運用全局信息和局部信息,構建查詢和文檔的向量表示;將訓練集查詢和文檔的向量表示輸入到Match?Transformer模型中計算文檔的得分,并訓練出最后的模型;將測試集中查詢和文檔的向量表示輸入到Match?Transformer模型中,從而計算出每個文檔的最后得分;最后運用Learning?to?Rank模型去學習文檔之間的相對位置信息,最終得到更加準確的文檔排名結果;本發明克服了查詢太短導致用戶需求多樣性和文檔太長導致文本理解的多樣性的困難,從而能夠更好的利用查詢和文檔的多樣相關特征,使得神經網絡信息檢索模型有較強的穩健性。
技術領域
本發明涉及文本信息檢索技術領域,特別涉及一種用于建模ad-hoc檢索任務中多樣相關 特征的信息檢索模型。
背景技術
隨著互聯網和智能科技的不斷發展,信息檢索不再只有個人電腦終端(PC)搜索,用戶越 來越多的依賴移動設備來搜索他們需要的信息以及服務。信息檢索模型的好壞直接影響到信 息檢索的結果。因此,信息檢索模型不僅具有重要的理論意義,而且蘊含巨大的社會價值。 本發明主要研究ad-hoc任務中的給定查詢之下的文檔排名,即查詢和文檔之間的相關性分析。
信息檢索模型是信息檢索的主要研究內容。目前的信息檢索包括布爾模型、向量空間模 型、概率模型、語言模型等。這些模型提出的主要目的是通過數學或者其他語言工具去對信 息檢索中的查詢和文檔及其匹配程度進行抽象描述。Ad-hoc是一種經典的檢索任務,其中用 戶通過查詢指定用戶的信息需求,該查詢啟動搜索(由信息系統執行)以查找可能與用戶相 關的文檔。ad-hoc信息檢索任務中的一個核心問題就是如何學習一個通用的函數,該函數可 以很好的去評估查詢和文檔之間的相關性。在Ad-hoc中,查詢和文檔的異構性可能會帶來 一些挑戰,即由于上下文信息不足和文檔的詞項太長會增加文檔理解的困難程度。相關性判 斷的這些挑戰在于可能存在多樣相關特征,其中的多樣相關特征跟異質性是相關的。
近年來,神經網絡在ad-hoc檢索中取得了重要的突破。比如:MatchPyramid(MP)、K-NRM、 Conv-KNRM和NNQLM-II。然而,這些模型僅僅使用了少量的相關特征或進從文檔的角度考慮 了多樣相關特征,并沒有考慮到查詢的相關特征以及查詢特征和文檔特征之間的交互信息。
發明內容
本發明所要解決的技術問題是克服現有技術不足而提供一種用于建模ad-hoc檢索任務 中多樣相關特征的信息檢索模型,分別構建查詢和文檔的向量表示,運用Match-Transformer 模型來抓取查詢或文檔的依賴信息、上下文信息以及查詢和文檔之間的交互信息,然后運用 多層感知機去得到文檔的得分和排名,并利用Learning-to-Rank去學習文檔之間的相對位置 信息,并得到最優模型在測試集上預測結果,最終得到更加準確的評價結果。
本發明的目的是通過以下技術方案來實現的,包括如下步驟:
一種用于建模ad-hoc檢索任務中多樣相關特征的信息檢索模型,包括如下步驟:
(1)根據topic構建語料集,語料集的總樣本是N個topic,其中每個topic包含一個查詢和一系列文檔;
(2)從(1)的語料集中,隨機選取80%*N個topic作為訓練集和剩余的20%*N個topic 作為測試集,并分別對訓練集和測試集進行預處理;
(3)對預處理之后的查詢和文檔構建Match-Transformer模型;
(4)將訓練集查詢和文檔的表示輸入到Match-Transformer模型,并利用多層感知機計 算文檔的得分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于天津大學,未經天津大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910898272.0/2.html,轉載請聲明來源鉆瓜專利網。





