[發明專利]一種檢索相似文本的方法、裝置以及存儲介質有效
| 申請號: | 201910345077.5 | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110110045B | 公開(公告)日: | 2021-08-31 |
| 發明(設計)人: | 趙瑞輝;喬倩倩;韋偉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06F40/30 |
| 代理公司: | 深圳翼盛智成知識產權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢索 相似 文本 方法 裝置 以及 存儲 介質 | ||
1.一種檢索相似文本的方法,其特征在于,包括:
獲取待檢索文本,所述待檢索文本包括多個待檢索詞;
根據每個待檢索詞之間的第一關聯關系,獲取所述待檢索文本的特征向量;
根據所述第一關聯關系以及第二關聯關系,計算候選詞信息中的每個候選詞在所述特征向量中的權重,其中,所述第二關聯關系為基于預設循環殘差模型中的第二循環殘差網絡生成的所述待檢索詞與所述候選詞之間的關聯關系;
根據多個權重以及所述特征向量,生成所述特征向量對應的中間向量;
基于所述待檢索詞與候選詞信息中的候選詞之間的第二關聯關系、所述候選詞信息以及所述中間向量,生成所述待檢索文本對應的計算文本;
根據所述計算文本與預設文本庫中的候選文本的匹配度,確定與所述計算文本匹配的候選文本作為相似文本。
2.根據權利要求1所述的方法,其特征在于,所述根據每個待檢索詞之間的第一關聯關系,獲取所述待檢索文本的特征向量,包括:
采用預設循環殘差模型中的第一循環殘差網絡對所述待檢索文本以及多個第一關聯關系進行處理,生成所述待檢索文本的特征向量。
3.根據權利要求2所述的方法,其特征在于,所述采用預設循環殘差模型中的第一循環殘差網絡對所述待檢索文本以及多個第一關聯關系進行處理,生成所述待檢索文本的特征向量,包括:
基于所述待檢索文本中的待檢索詞的位置信息,生成所述待檢索文本的文本向量;
采用預設循環殘差模型中的第一循環殘差網絡對所述文本向量進行處理,生成所述待檢索文本對應的特征向量,其中,所述特征向量包括每個待檢索詞之間的第一關聯關系。
4.根據權利要求1所述的方法,其特征在于,所述基于所述待檢索詞與候選詞信息中的候選詞之間的第二關聯關系、所述候選詞信息以及所述中間向量,生成所述待檢索文本對應的計算文本,包括:
采用所述第二循環殘差網絡對所述候選詞信息進行處理,得到候選向量;
根據所述第二關聯關系、所述候選向量以及所述中間向量,生成計算文本。
5.根據權利要求4所述的方法,其特征在于,所述根據所述第二關聯關系、所述候選向量以及所述中間向量,生成計算文本,包括:
提取所述候選詞信息的位置標識,所述位置標識包括起始標識和終止標識;
根據所述起始標識、所述第二關聯關系以及所述中間向量,確定所述待檢索文本對應的當前計算詞;
根據所述起始標識、第二關聯關系、中間向量以及當前計算詞,確定所述待檢索文本對應的第i個計算詞,直至識別到所述終止標識為止,其中,所述i為正整數。
6.根據權利要求4所述的方法,其特征在于,所述采用預設循環殘差模型中的第二循環殘差網絡對所述候選詞信息進行處理,得到候選向量,包括:
提取每個候選詞之間的第三關聯關系;
采用所述第二循環殘差網絡對所述候選詞信息以及多個第三關聯關系進行處理,生成候選向量。
7.根據權利要求1所述的方法,其特征在于,所述根據所述計算文本與預設文本庫中的候選文本的匹配度,確定與所述計算文本匹配的候選文本作為相似文本,包括:
判斷所述計算文本與預設文本庫中的候選文本的匹配度是否大于或等于預設匹配度;
若所述計算文本與預設文本庫中的候選文本的匹配度大于或等于預設匹配度,則確定與所述計算文本匹配的候選文本作為相似文本。
8.根據權利要求1所述的方法,其特征在于,在所述獲取待檢索文本之前,還包括:
設置基礎文本庫,并根據所述基礎文本庫獲取互聯網信息;
根據所述互聯網信息對所述基礎文本庫進行更新,得到候選文本庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910345077.5/1.html,轉載請聲明來源鉆瓜專利網。





