[發明專利]信息檢索方法、裝置、設備及計算機可讀存儲介質有效
| 申請號: | 202010741737.4 | 申請日: | 2020-07-29 |
| 公開(公告)號: | CN111753060B | 公開(公告)日: | 2023-09-26 |
| 發明(設計)人: | 翟彬旭;張雨春;翁澤峰;張東于;范云霓 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/31;G06F40/30;G06N3/0464;G06N3/08 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 劉星雨;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 檢索 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
本申請實施例提供一種信息檢索方法、裝置、設備及計算機可讀存儲介質,其中,方法包括:對接收到的信息檢索請求中的待檢索信息進行文本分割處理,得到至少兩個字段;獲取所述待檢索信息的特征向量和每一字段的子特征向量;在預設的全量文本空間內,根據所述特征向量對預設文本庫中的文本進行第一聚類處理,得到第一數量的候選文本;在預設的子文本空間內,根據所述子特征向量對所述第一數量的候選文本進行第二聚類處理,得到第二數量的召回文本;將所述召回文本作為所述信息檢索請求的檢索結果,輸出所述檢索結果。通過本申請實施例,能夠根據文本的語義相關度,靈活的度量待檢索信息與召回文本之間的相似度,提高信息檢索系統的檢索準確性。
技術領域
本申請實施例涉及互聯網技術領域,涉及但不限于一種信息檢索方法、裝置、設備及計算機可讀存儲介質。
背景技術
從信息檢索中相關度計算的角度,可以將文本檢索方法大致分為基于文字、基于結構和基于用戶信息的檢索等幾類方法,其中,基于文字的檢索方法中包括基于概率論的檢索方法。
相關技術中,基于文字和基于概率論檢索的概率模型和語言模型主要包括:BM25(是信息索引領域用來計算查詢信息與文檔相似度得分的一種算法)、深度語義結構模型(DSSM,Deep?Semantic?Structured?Model)、多粒度卷積神經網絡(MultiGranCNN,MultiGran?Convolutional?Neural?Networks)和構造匹配矩陣(MatchPyramid)。
但是,相關技術中的概率模型和語言模型過于關注詞共現的重要度,無法處理文本的語義相關性,且無法區分不同上下文中局部化信息的重要性,對相似度的度量不夠靈活。
發明內容
本申請實施例提供一種信息檢索方法、裝置、設備及計算機可讀存儲介質,通過依次在預設的全量文本空間和預設的子文本空間內,分別進行第一聚類處理和第二聚類處理,得到待檢索信息的召回文本,從而能夠根據文本的語義相關度,區分局部化信息的重要性,靈活的度量待檢索信息與召回文本之間的相似度,提高信息檢索系統的準確性和容錯性。
本申請實施例的技術方案是這樣實現的:
本申請實施例提供一種信息檢索方法,包括:
對接收到的信息檢索請求中的待檢索信息進行文本分割處理,得到至少兩個字段;
獲取所述待檢索信息的特征向量和每一字段的子特征向量;
在預設的全量文本空間內,根據所述特征向量對預設文本庫中的文本進行第一聚類處理,得到第一數量的候選文本;
在預設的子文本空間內,根據所述子特征向量對所述第一數量的候選文本進行第二聚類處理,得到第二數量的召回文本;
將所述召回文本作為所述信息檢索請求的檢索結果,輸出所述檢索結果。
本申請實施例提供一種信息檢索裝置,包括:
文本分割模塊,用于對接收到的信息檢索請求中的待檢索信息進行文本分割處理,得到至少兩個字段;
獲取模塊,用于獲取所述待檢索信息的特征向量和每一字段的子特征向量;
第一聚類處理模塊,用于在預設的全量文本空間內,根據所述特征向量對預設文本庫中的文本進行第一聚類處理,得到第一數量的候選文本;
第二聚類處理模塊,用于在預設的子文本空間內,根據所述子特征向量對所述第一數量的候選文本進行第二聚類處理,得到第二數量的召回文本;
處理模塊,用于將所述召回文本作為所述信息檢索請求的檢索結果,輸出所述檢索結果。
本申請實施例提供一種信息檢索設備,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010741737.4/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





