[發(fā)明專利]一種檢索相似文本的方法、裝置以及存儲介質(zhì)有效
| 申請?zhí)枺?/td> | 201910345077.5 | 申請日: | 2019-04-26 |
| 公開(公告)號: | CN110110045B | 公開(公告)日: | 2021-08-31 |
| 發(fā)明(設計)人: | 趙瑞輝;喬倩倩;韋偉 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/284;G06F40/30 |
| 代理公司: | 深圳翼盛智成知識產(chǎn)權事務所(普通合伙) 44300 | 代理人: | 黃威 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 檢索 相似 文本 方法 裝置 以及 存儲 介質(zhì) | ||
本發(fā)明實施例公開了一種檢索相似文本的方法、裝置以及存儲介質(zhì),其中檢索相似文本的方法包括:獲取待檢索文本,所述待檢索文本包括多個待檢索詞;根據(jù)每個待檢索詞之間的第一關聯(lián)關系,獲取所述待檢索文本的特征向量;基于所述待檢索詞與候選詞信息中的候選詞之間的第二關聯(lián)關系、所述候選詞信息以及所述特征向量,生成所述待檢索文本對應的計算文本;根據(jù)所述計算文本與預設文本庫中的候選文本的匹配度,確定與所述計算文本匹配的候選文本作為相似文本,該方案可以提高召回率和檢索結(jié)果的準確性。
技術領域
本發(fā)明涉及通信技術領域,具體涉及一種檢索相似文本的方法、裝置以及存儲介質(zhì)。
背景技術
用戶在使用搜索引擎進行信息搜索時,往往會出現(xiàn)輸入的搜索詞和獲得的搜索結(jié)果中同一個詞的概念出現(xiàn)不一致的情況。為了提高搜索結(jié)果的召回率,通常需要對用戶輸入的搜索詞進行擴展操作,以擴大對搜索詞的搜索范圍,從而提高搜索結(jié)果的準確率。
然而,現(xiàn)有技術中雖然存在對搜索詞進行擴展的方案,但是,現(xiàn)有的方案可能會出現(xiàn)擴展詞的語義與搜索詞的語義發(fā)生漂移的問題,因此,現(xiàn)有方案的召回率差,檢索結(jié)果的準確性不高。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種檢索相似文本的方法、裝置以及存儲介質(zhì),可以提高召回率和檢索結(jié)果的準確性。
本發(fā)明實施例提供了一種檢索相似文本的方法,包括:
獲取待檢索文本,所述待檢索文本包括多個待檢索詞;
根據(jù)每個待檢索詞之間的第一關聯(lián)關系,獲取所述待檢索文本的特征向量;
基于所述待檢索詞與候選詞信息中的候選詞之間的第二關聯(lián)關系、所述候選詞信息以及所述特征向量,生成所述待檢索文本對應的計算文本;
根據(jù)所述計算文本與預設文本庫中的候選文本的匹配度,確定與所述計算文本匹配的候選文本作為相似文本。
相應的,本發(fā)明實施例還提供了一種檢索相似文本的裝置,包括:
第一獲取模塊,用于獲取待檢索文本,所述待檢索文本包括多個待檢索詞;
第二獲取模塊,用于根據(jù)每個待檢索詞之間的第一關聯(lián)關系,獲取所述待檢索文本的特征向量;
生成模塊,用于基于所述待檢索詞與候選詞信息中的候選詞之間的第二關聯(lián)關系、所述候選詞信息以及所述特征向量,生成所述待檢索文本對應的計算文本;
確定模塊,用于根據(jù)所述計算文本與預設文本庫中的候選文本的匹配度,確定與所述計算文本匹配的候選文本作為相似文本。
可選的,在本發(fā)明的一些實施例中,所述第二獲取模塊具體用于:
采用預設循環(huán)殘差模型中的第一循環(huán)殘差網(wǎng)絡對所述待檢索文本以及多個第一關聯(lián)關系進行處理,生成所述待檢索文本的特征向量。
可選的,在本發(fā)明的一些實施例中,所述第二獲取模塊,包括:
第一生成子單元,用于基于所述待檢索文本中的待檢索詞的位置信息,生成所述待檢索文本的文本向量;
第二生成子單元,用于采用預設循環(huán)殘差模型中的第一循環(huán)殘差網(wǎng)絡對所述文本向量進行處理,生成所述待檢索文本對應的特征向量,其中,所述特征向量包括每個待檢索詞之間的第一關聯(lián)關系。
可選的,在本發(fā)明的一些實施例中,還包括:
計算模塊,用于采用預設循環(huán)殘差模型中的全局注意力網(wǎng)絡對所述特征向量進行計算,得到所述特征向量對應的中間向量;
所述生成模塊具體用于:基于所述待檢索詞與候選詞信息中的候選詞之間的第二關聯(lián)關系、所述候選詞信息以及所述中間向量,生成所述待檢索文本對應的計算文本。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910345077.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





