[發明專利]信息檢索方法及相關系統、存儲介質在審
| 申請號: | 202110172627.5 | 申請日: | 2021-02-08 |
| 公開(公告)號: | CN114911894A | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 張鑫宇;詹珂;羅蘭;付成真;胡恩瑞 | 申請(專利權)人: | 華為技術有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/338;G06F16/31;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 熊永強;李稷芳 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 檢索 方法 相關 系統 存儲 介質 | ||
本申請實施例提供一種信息檢索方法及相關系統、存儲介質,包括:S1、根據檢索文本Query和Ki個第i跳的候選文檔得到Mi個第i+1跳的候選文檔;S2、獲取所述Mi個第i+1跳的候選文檔中每個候選文檔的得分;S3、根據候選文檔Pjy(i+1)的得分和路徑L的概率得到所述候選文檔Pjy(i+1)對應的路徑的概率;S4、根據所述Mi個第i+1跳的候選文檔分別對應的路徑的概率得到K(i+1)個第i+1跳的候選文檔;根據所述K(i+1)個第i+1跳的候選文檔得到所述Query對應的檢索結果。本方案可以從全局檢索路徑全局最優的角度進行排序,提高了信息檢索的準確度以及效率。
技術領域
本申請涉及人工智能技術領域,尤其涉及一種信息檢索方法及相關系統、存儲介質。
背景技術
人工智能(Artificial Intelligence,AI)是利用數字計算機或者數字計算機控制的機器模擬、延伸和擴展人的智能,感知環境、獲取知識并使用知識獲得最佳結果的理論、方法、技術及應用系統。換句話說,人工智能是計算機科學的一個分支,它企圖了解智能的實質,并生產出一種新的能以人類智能相似的方式作出反應的智能機器。人工智能也就是研究各種智能機器的設計原理與實現方法,使機器具有感知、推理與決策的功能。人工智能領域的研究包括機器人,自然語言處理,計算機視覺,決策與推理,人機交互,推薦與搜索,AI基礎理論等。
深度預訓練語言模型已經成為目前搜索、推薦、自然語言處理等任務提升的必要手段,它通過海量的語料進行預訓練,使其具備極強的文本表示能力。
在搜索業務上,基于深度預訓練語言模型的語義搜索尤為突出。其使用語義搜索技術即可將Query表征為語義向量進而依靠向量之間的相似關系進行匹配,其中語義向量即可表征文本內隱含且模糊的語義信息。
目前的深度預訓練語言模型仍然存在一些棘手的問題,比如當用戶輸入的Query十分復雜時,如需要一定的多輪推理問題:“where did Algeria qualify for the firsttime into the round of16?”中文翻譯為“阿爾及利亞在哪里第一次進入16強”,要想正確地回答該問題,只通過語義搜索到一個文檔是不夠的,它至少首先需要搜索到“阿爾及利亞國家足球隊”文檔后,理解為問題中的“阿爾及利亞”指的是“阿爾及利亞國家足球隊”,且該隊“在2014年世界杯進了16強”,之后需要再搜索到“2014年世界杯”的文檔,并從該文檔中理解出該年世界杯的舉辦地是“巴西”,通過一系列的多輪檢索后方可找到正確答案“巴西”。但在使用目前深度預訓練語言模型改進的搜索引擎進行檢索后,檢索出的前3個文檔均未提到地點“巴西”的關鍵詞,而在第4個文檔才第一次出現巴西,而這對于答案的產生會帶來較大的噪聲和影響,檢索效果不好。
搜索由單輪搜索改進為多輪搜索后便更有機會找到帶有答案的支撐文檔,因此目前也存在很多的基于深度預訓練語言模型的多輪檢索技術。現有技術提供了一種信息檢索方法。如圖1所示,其針對用戶輸入的檢索文本Query,從候選文檔庫中進行多輪檢索,基于前一輪檢索出的文檔進行下一輪搜索,最終輸出該Query對應的文檔集合。
然而現有技術輸出的Query對應的文檔集合,并不是較符合Query的要求的檢索結果,檢索效果較差。
發明內容
本申請公開了一種信息檢索方法及相關系統、存儲介質,可以提高信息檢索的準確度以及效率。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華為技術有限公司,未經華為技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110172627.5/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





