[發明專利]相似文本的檢索方法、裝置和系統在審
| 申請號: | 201910060108.2 | 申請日: | 2019-01-22 |
| 公開(公告)號: | CN111460088A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 康楊楊;周笑添;孫常龍;劉曉鐘;司羅 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 文本 檢索 方法 裝置 系統 | ||
1.一種相似文本的檢索方法,其特征在于,所述方法包括:
對接收的查詢文本進行對應的處理,獲取與所述查詢文本對應的文本向量;
根據向量引擎中的索引,從多個樣本向量集中檢索出與所述查詢文本對應的文本向量匹配的樣本向量集;
從所述樣本向量集中獲取與所述查詢文本對應的文本向量相似的樣本向量,并將所述相似的樣本向量對應的樣本文本作為所述查詢文本的相似文本。
2.根據權利要求1所述的方法,其特征在于:
對接收的所述查詢文本進行預處理,獲取所述查詢文本中的詞;
根據獲取的所述詞的詞向量,生成與所述查詢文本對應的所述文本向量。
3.根據權利要求2所述的方法,其特征在于:
對獲取的所述詞的詞向量進行加權平均處理,根據所述加權平均處理的處理結果,生成與所述查詢文本對應的所述文本向量。
4.根據權利要求1所述的方法,其特征在于:所述文本向量用于表示所述查詢文本的語義;所述索引根據所述多個樣本向量集中各自包含的所述至少一樣本向量生成,所述樣本向量用于表示其所對應的樣本文本的語義。
5.根據權利要求1所述的方法,其特征在于:
根據所述查詢文本對應的文本向量與所述樣本向量集中的各所述樣本向量間的相似度,確定與所述查詢文本對應的文本向量相似度最高的N個相似的樣本向量,N為正整數;
獲得N個所述相似的樣本向量所對應的樣本文本,并將N個所述樣本文本作為所述查詢文本的相似文本。
6.根據權利要求5所述的方法,其特征在于:
使用第一相似度算法,計算所述文本向量與所述樣本向量集中各所述樣本向量間的第一相似度,根據所述第一相似度確定候選樣本向量;
使用第二相似度算法,計算所述文本向量與所述候選樣本向量間的第二相似度,根據所述第二相似度確定相似度最高的N個所述相似的樣本向量;
所述第一相似度算法的計算量小于所述第二相似度算法的計算量。
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
對所述向量引擎中的所述索引以及所述索引對應樣本向量集進行更新。
8.根據權利要求1所述的方法,其特征在于,當所述查詢文本為短信或即時通信消息時,所述方法用于檢索短信或即時通信消息的相似文本。
9.一種相似文本的檢索裝置,其特征在于,所述裝置包括:
文本向量獲取模塊,用于對接收的查詢文本進行對應的處理,獲取與所述查詢文本對應的文本向量;
向量集獲取模塊,用于根據向量引擎中的索引,從多個樣本向量集中檢索出與所述查詢文本對應的文本向量匹配的樣本向量集;
文本獲取模塊,用于從所述樣本向量集中獲取與所述查詢文本對應的文本向量相似的樣本向量,并將所述相似的樣本向量對應的樣本文本作為所述查詢文本的相似文本。
10.根據權利要求9所述的裝置,其特征在于,所述文本向量獲取模塊包括:
預處理模塊,用于對接收的所述查詢文本進行預處理,獲取所述查詢文本中與所述查詢文本對應的詞;
生成模塊,用于根據獲取的所述詞的詞向量,生成與所述查詢文本對應的所述文本向量。
11.根據權利要求10所述的裝置,其特征在于,所述生成模塊具體用于:對獲取的所述詞的詞向量進行加權平均處理,根據所述加權平均處理的處理結果,生成與所述查詢文本對應的所述文本向量。
12.根據權利要求9所述的裝置,其特征在于,所述文本向量用于表示所述查詢文本的語義;所述索引根據所述多個樣本向量集中各自包含的所述至少一樣本向量生成,所述樣本向量用于表示其所對應的樣本文本的語義。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910060108.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于交換機的優先級調度方法和裝置
- 下一篇:一種絕緣固化鐵芯及其制作方法





