[發明專利]文本相似度檢測方法、電子設備及計算機可讀存儲介質有效
| 申請號: | 201910069758.3 | 申請日: | 2019-01-24 |
| 公開(公告)號: | CN110162750B | 公開(公告)日: | 2023-07-07 |
| 發明(設計)人: | 陳誠;王軍偉;陳亮 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194 |
| 代理公司: | 北京市立方律師事務所 11330 | 代理人: | 張筱寧 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 檢測 方法 電子設備 計算機 可讀 存儲 介質 | ||
本申請實施例提供了一種文本相似度檢測方法、電子設備及計算機可讀存儲介質,涉及計算機技術領域。該方法包括:基于預設文本相似度召回算法以及目標文本信息,從多個文本信息中召回至少一個待檢測文本信息,然后基于自然語言處理NLP技術的文本相似度檢測算法,分別確定目標文本信息與各個待檢測文本信息之間的相似度,然后基于確定結果,分別確定目標文本信息與各個待檢測文本信息是否相似。本申請實施例提供的文本相似度檢測方法、電子設備及計算機可讀存儲介質可以提升文本相似度檢測的準確度,進而可以提升用戶體驗。
技術領域
本申請涉及計算機技術領域,具體而言,本申請涉及一種文本相似度檢測方法、電子設備及計算機可讀存儲介質。
背景技術
隨著信息技術的發展,互聯網技術隨之發展,互聯網上充斥著大量的信息,例如,新聞、資訊等信息,但是這些信息中存在一些內容極其相近甚至完全相同的內容。互聯網中發布這些極其相近甚至完全相同的內容,從而導致用戶在瀏覽互聯網信息時可能看見大量重復的信息,導致用戶體驗很差,因此對信息進行相似度檢測成為一個關鍵問題。
目前,通過Simhash算法對海量的文檔、資訊、網頁等文本信息進行相似度檢測。在通過Simhash算法對兩個文本信息進行相似度檢測時,包括:對各個文本信息進行分詞處理;將各個文本信息分別對應的分詞信息進行哈希hash計算;將各個文本信息分別對應的hash值進行加權并合并;將各個合并后的hash值分別進行降維處理;基于各個降維處理后的數據確定這兩個文本信息之間的漢明距離,并基于計算出的漢明距離,確定兩個文本信息的相似度。
然而,當通過Simhash算法計算文本信息的相似度時,由于在合并處理以及降維處理的步驟中導致信息損失較大,可能導致完全不相關的文本信息的漢明距離較小甚至為0,從而導致文本相似度檢測的準確度較低,進而導致用戶體驗較差。
發明內容
本申請提供了一種文本相似度檢測方法、電子設備及計算機可讀存儲介質,可以解決文本相似度檢測準確度較低以及用戶體驗較差的問題。技術方案如下:
第一方面,提供了一種文本相似度檢測方法,該方法包括:
基于預設文本相似度召回算法以及目標文本信息,從多個文本信息中召回至少一個待檢測文本信息;
基于自然語言處理NLP技術的文本相似度檢測算法,分別確定目標文本信息與各個待檢測文本信息之間的相似度;
基于確定結果,分別確定目標文本信息與各個待檢測文本信息是否相似。
在一種可能的實現方式中,當從多個文本信息中召回多個待檢測文本信息時,
基于自然語言處理NLP技術的文本相似度檢測算法,分別確定目標文本信息與各個待檢測文本信息之間的相似度,之前還包括:
基于各個待檢測文本信息與目標文本信息之間的距離,從多個待檢測文本信息中篩選出第一預設個數的待檢測文本信息;
基于自然語言處理NLP技術的文本相似度檢測算法,分別確定目標文本信息與各個待檢測文本信息之間的相似度,包括:
基于NLP技術的文本相似度檢測算法,分別確定目標文本信息與第一預設個數的待檢測文本信息中各個待檢測文本信息之間的相似度。
在一種可能的實現方式中,基于各個待檢測文本信息與目標文本信息之間的距離,從多個待檢測文本信息中篩選出第一預設個數的待檢測文本信息,包括以下至少一項:
基于各個待檢測文本信息與目標文本信息之間的距離,對各個待檢測文本信息進行排序,并基于排序結果按照由小到大的順序篩選出第一預設個數的待檢測文本信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910069758.3/2.html,轉載請聲明來源鉆瓜專利網。





