[發明專利]信息檢索方法、裝置及計算機可讀存儲介質在審
| 申請號: | 202010970977.1 | 申請日: | 2020-09-15 |
| 公開(公告)號: | CN114186015A | 公開(公告)日: | 2022-03-15 |
| 發明(設計)人: | 丁磊;童毅軒;董濱;姜珊珊;張永偉 | 申請(專利權)人: | 株式會社理光 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/9535;G06F16/9538;G06N3/02;G06N3/08 |
| 代理公司: | 北京銀龍知識產權代理有限公司 11243 | 代理人: | 黃燦;張博 |
| 地址: | 日本*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 檢索 方法 裝置 計算機 可讀 存儲 介質 | ||
本發明提供了一種信息檢索方法、裝置及計算機可讀存儲介質。本發明提供的信息檢索方法,包括:獲取第一訓練數據,所述第一訓練數據包括查詢指令和與所述查詢指令對應的查詢結果;清除所述第一訓練數據中的噪聲,得到第二訓練數據;利用所述第二訓練數據初始化信息檢索模型;利用所述信息檢索模型進行信息檢索。本發明的技術方案能夠提高信息檢索結果的準確性,提高信息檢索的效率。
技術領域
本發明涉及信息檢索領域,具體涉及一種信息檢索方法、裝置及計算機可讀存儲介質。
背景技術
信息檢索技術是一項重要的技術,廣泛應用于搜索引擎,問答系統,推薦系統和其他各種智能服務中。借助更好的信息檢索技術,廠商可以準確地了解客戶的意圖并提供恰當的產品或服務。
目前,信息檢索的主要方法是基于大規模的神經網絡模型判斷用戶查詢與文檔的語義相關性。訓練大規模神經網絡模型需要大量的標注數據,但人工標注的成本很高。相關技術提出基于生成的方法來構建訓練用的標注數據。但是,生成的數據通常包含一些噪聲,且生成的數據中負樣本的相關性不足,影響了信息檢索的效果。
發明內容
本發明實施例要解決的技術問題是提供一種信息檢索方法、裝置及計算機可讀存儲介質,能夠提高信息檢索結果的準確性,提高信息檢索的效率。
根據本發明實施例的一個方面,提供了一種信息檢索方法,包括:
獲取第一訓練數據,所述第一訓練數據包括查詢指令和與所述查詢指令對應的查詢結果;
清除所述第一訓練數據中的噪聲,得到第二訓練數據;
利用所述第二訓練數據初始化信息檢索模型;
利用所述信息檢索模型進行信息檢索。
此外,根據本發明的至少一個實施例,初始化信息檢索模型之后,所述方法還包括:
通過對抗式查詢對所述信息檢索模型進行優化。
此外,根據本發明的至少一個實施例,所述獲取第一訓練數據包括:
獲取開放數據,所述開放數據包括查詢指令和與所述查詢指令對應的查詢結果;
利用所述開放數據訓練生成查詢數據生成模型,所述查詢數據生成模型能夠根據輸入的查詢結果生成與所述查詢結果對應的查詢指令;
將特定領域的文檔輸入所述查詢數據生成模型,生成所述第一訓練數據。
此外,根據本發明的至少一個實施例,所述清除所述第一訓練數據中的噪聲包括:
利用所述第一訓練數據初始化噪聲分類模型;
對所述噪聲分類模型進行訓練;
利用訓練后的噪聲分類模型清除所述第一訓練數據中的噪聲。
此外,根據本發明的至少一個實施例,所述對所述噪聲分類模型進行訓練包括:
進行N次迭代,得到訓練后的噪聲分類模型,N為正整數;
其中,在每次迭代中,利用所述噪聲分類模型清除所述第一訓練數據中的噪聲,利用清除噪聲后的數據訓練所述信息檢索模型,利用訓練后的所述信息檢索模型的損失函數更新所述噪聲分類模型的參數。
此外,根據本發明的至少一個實施例,所述通過對抗式查詢對所述信息檢索模型進行優化包括:
利用所述第二訓練數據初始化不相關查詢生成模型,所述不相關查詢生成模型的輸入是查詢結果和與所述查詢結果相關的第一查詢指令,輸出是與所述查詢結果不相關的第二查詢指令;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于株式會社理光,未經株式會社理光許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010970977.1/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





