[發(fā)明專利]信息檢索方法、裝置、設備及計算機可讀存儲介質有效
| 申請?zhí)枺?/td> | 202010741737.4 | 申請日: | 2020-07-29 |
| 公開(公告)號: | CN111753060B | 公開(公告)日: | 2023-09-26 |
| 發(fā)明(設計)人: | 翟彬旭;張雨春;翁澤峰;張東于;范云霓 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F16/31;G06F40/30;G06N3/0464;G06N3/08 |
| 代理公司: | 北京派特恩知識產權代理有限公司 11270 | 代理人: | 劉星雨;張穎玲 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 信息 檢索 方法 裝置 設備 計算機 可讀 存儲 介質 | ||
1.一種信息檢索方法,其特征在于,包括:
對接收到的信息檢索請求中的待檢索信息進行文本分割處理,得到至少兩個字段;
獲取所述待檢索信息的特征向量和每一字段的子特征向量;
在預設的全量文本空間內,根據所述特征向量對預設文本庫中的文本進行第一聚類處理,得到第一數量的候選文本,其中,所述全量文本空間為所述預設文本庫對應的向量空間;
在預設的子文本空間內,根據所述子特征向量對所述第一數量的候選文本進行第二聚類處理,得到第二數量的召回文本,其中,所述預設的子文本空間為預設文本庫中的文本的每一字段對應的空間,所述每一字段對應的子文本空間的維度與所述每一字段對應的子特征向量的維度相同;
將所述召回文本作為所述信息檢索請求的檢索結果,輸出所述檢索結果。
2.根據權利要求1所述的方法,其特征在于,所述獲取所述待檢索信息的特征向量和每一字段的子特征向量,包括:
對每一所述字段進行特征提取,對應得到每一字段的子特征向量;
對所述至少兩個字段對應的子特征向量進行拼接,得到所述待檢索信息的特征向量。
3.根據權利要求2所述的方法,其特征在于,所述在預設的全量文本空間內,根據所述特征向量對預設文本庫中的文本進行第一聚類處理,得到第一數量的候選文本,包括:
根據所述待檢索信息的特征向量,確定所述全量文本空間的第一維度;
在所述預設文本庫中,將文本特征向量具有所述第一維度的所述文本,確定為目標文本,形成目標文本集合;
根據所述待檢索信息的所述特征向量和每一目標文本的所述文本特征向量,對所述目標文本集合中的目標文本進行所述第一聚類處理,得到所述第一數量的候選文本。
4.根據權利要求3所述的方法,其特征在于,所述根據所述待檢索信息的特征向量,確定所述全量文本空間的第一維度,包括:
確定每一字段的所述子特征向量的維度;
將所述至少兩個字段對應的所述子特征向量的維度之和,確定為所述待檢索信息的特征向量的維度;
將所述特征向量的維度,確定為所述全量文本空間的第一維度。
5.根據權利要求3所述的方法,其特征在于,所述根據所述待檢索信息的所述特征向量和每一目標文本的所述文本特征向量,對所述目標文本集合中的目標文本進行所述第一聚類處理,得到所述第一數量的候選文本,包括:
對所述目標文本集合中的目標文本進行聚類,得到第三數量的類;
確定每一類的聚類中心對應的中心目標文本;
確定所述待檢索信息的所述特征向量與每一中心目標文本的文本特征向量之間的第一距離;
在所述第三數量的中心目標文本中,根據所述第一距離確定候選目標文本;
將所述候選目標文本所在的所述類中的目標文本,確定為所述候選文本。
6.根據權利要求5所述的方法,其特征在于,所述在所述第三數量的中心目標文本中,根據所述第一距離確定候選目標文本,包括:
將具有最小第一距離的所述中心目標文本確定為所述候選目標文本;或者,
將所述第一距離小于閾值的多個中心目標文本確定為所述候選目標文本。
7.根據權利要求1所述的方法,其特征在于,所述在預設的子文本空間內,根據所述子特征向量對所述第一數量的候選文本進行第二聚類處理,得到第二數量的召回文本,包括:
對于所述至少兩個字段中的任一字段,將所述字段的子特征向量的維度,確定為所述字段在進行所述第二聚類處理時的所述子文本空間的第二維度;
確定每一所述候選文本中與所述第二維度對應的子文本,形成子文本集合;
根據所述字段的所述子特征向量和每一子文本的子文本特征向量,對所述子文本集合中的子文本進行所述第二聚類處理,以得到所述字段與每一所述子文本之間的子距離;
根據每一候選文本的子文本對應的所述子距離,在所述第一數量的候選文本中篩選得到所述第二數量的召回文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010741737.4/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現(xiàn)方法和信息再現(xiàn)設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄裝置、信息再現(xiàn)裝置、信息記錄方法、信息再現(xiàn)方法、信息記錄程序、信息再現(xiàn)程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現(xiàn)方法和信息再現(xiàn)裝置
- 信息終端,信息終端的信息呈現(xiàn)方法和信息呈現(xiàn)程序
- 信息創(chuàng)建、信息發(fā)送方法及信息創(chuàng)建、信息發(fā)送裝置





