[發明專利]相似文本確定方法及相關設備有效

申請號：	202110071000.0	申請日：	2021-01-19
公開（公告）號：	CN112395886B	公開（公告）日：	2021-04-13
發明（設計）人：	李小娟	申請（專利權）人：	深圳壹賬通智能科技有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/194;G06F40/289;G06K9/62
代理公司：	深圳市賽恩倍吉知識產權代理有限公司 44334	代理人：	楊毅玲;劉麗華
地址：	518000 廣東省深圳市***	國省代碼：	廣東;44
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	相似文本確定方法相關設備
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明涉及人工智能，提供一種相似文本確定方法及相關設備。該方法能夠確定待檢測文本及目標文本，生成待檢測特征向量及目標特征向量，計算待檢測特征向量與目標特征向量的相似度，確定相似系數及極性特征，根據文本相似度、相似系數及極性特征生成文本特征，將待檢測文本轉換為待檢測語義向量，并將目標文本轉換為目標語義向量，生成待檢測文本與目標文本的語義特征，根據文本特征及語義特征確定相似結果。本發明能夠提高相似文本的確定準確率。此外，本發明還涉及區塊鏈技術，所述相似結果可存儲于區塊鏈中。

技術領域

本發明涉及人工智能技術領域，尤其涉及一種相似文本確定方法及相關設備。

背景技術

目前，在傳統的無監督文本相似度算法中，通過文字的共現信息確定句子的相似度，然而，如果在文本中出現了同詞異義或者同義異詞的詞語，則無法準確計算出兩個文本之間的相似度，從而導致相似文本確定的準確率降低，為了克服上述的缺陷，深度文本相似算法隨之產生，在目前的深度文本相似算法中，通過編碼層將句子映射到語義空間進而計算出文本的相似度，然而，如果出現了文本信息相近但是含義相反的文本，會造成相似文本的確定準確率低下。

發明內容

鑒于以上內容，有必要提供一種相似文本確定方法及相關設備，能夠提高相似文本的確定準確率。

一方面，本發明提出一種相似文本確定方法，所述相似文本確定方法包括：

接收相似文本確定請求，并根據所述相似文本確定請求確定待檢測文本；

從所述相似文本確定請求中獲取目標文本；

根據所述待檢測文本及所述目標文本生成待檢測特征向量，并根據所述待檢測文本及所述目標文本生成目標特征向量；

計算所述待檢測特征向量與所述目標特征向量的相似度，得到所述待檢測文本與所述目標文本的文本相似度，并根據所述待檢測文本及所述目標文本確定相似系數；

根據所述待檢測文本的語氣與所述目標文本的語氣確定所述待檢測文本與所述目標文本的極性特征；

根據所述文本相似度、所述相似系數及所述極性特征生成所述待檢測文本與所述目標文本的文本特征；

將所述待檢測文本轉換為待檢測語義向量，并將所述目標文本轉換為目標語義向量；

根據所述待檢測語義向量及所述目標語義向量生成所述待檢測文本與所述目標文本的語義特征，并根據所述文本特征及所述語義特征確定所述待檢測文本與所述目標文本的相似結果。

根據本發明優選實施例，所述根據所述相似文本確定請求確定待檢測文本包括：