[發明專利]相似文本確定方法及相關設備有效
| 申請號: | 202110071000.0 | 申請日: | 2021-01-19 |
| 公開(公告)號: | CN112395886B | 公開(公告)日: | 2021-04-13 |
| 發明(設計)人: | 李小娟 | 申請(專利權)人: | 深圳壹賬通智能科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/194;G06F40/289;G06K9/62 |
| 代理公司: | 深圳市賽恩倍吉知識產權代理有限公司 44334 | 代理人: | 楊毅玲;劉麗華 |
| 地址: | 518000 廣東省深圳市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 相似 文本 確定 方法 相關 設備 | ||
本發明涉及人工智能,提供一種相似文本確定方法及相關設備。該方法能夠確定待檢測文本及目標文本,生成待檢測特征向量及目標特征向量,計算待檢測特征向量與目標特征向量的相似度,確定相似系數及極性特征,根據文本相似度、相似系數及極性特征生成文本特征,將待檢測文本轉換為待檢測語義向量,并將目標文本轉換為目標語義向量,生成待檢測文本與目標文本的語義特征,根據文本特征及語義特征確定相似結果。本發明能夠提高相似文本的確定準確率。此外,本發明還涉及區塊鏈技術,所述相似結果可存儲于區塊鏈中。
技術領域
本發明涉及人工智能技術領域,尤其涉及一種相似文本確定方法及相關設備。
背景技術
目前,在傳統的無監督文本相似度算法中,通過文字的共現信息確定句子的相似度,然而,如果在文本中出現了同詞異義或者同義異詞的詞語,則無法準確計算出兩個文本之間的相似度,從而導致相似文本確定的準確率降低,為了克服上述的缺陷,深度文本相似算法隨之產生,在目前的深度文本相似算法中,通過編碼層將句子映射到語義空間進而計算出文本的相似度,然而,如果出現了文本信息相近但是含義相反的文本,會造成相似文本的確定準確率低下。
發明內容
鑒于以上內容,有必要提供一種相似文本確定方法及相關設備,能夠提高相似文本的確定準確率。
一方面,本發明提出一種相似文本確定方法,所述相似文本確定方法包括:
接收相似文本確定請求,并根據所述相似文本確定請求確定待檢測文本;
從所述相似文本確定請求中獲取目標文本;
根據所述待檢測文本及所述目標文本生成待檢測特征向量,并根據所述待檢測文本及所述目標文本生成目標特征向量;
計算所述待檢測特征向量與所述目標特征向量的相似度,得到所述待檢測文本與所述目標文本的文本相似度,并根據所述待檢測文本及所述目標文本確定相似系數;
根據所述待檢測文本的語氣與所述目標文本的語氣確定所述待檢測文本與所述目標文本的極性特征;
根據所述文本相似度、所述相似系數及所述極性特征生成所述待檢測文本與所述目標文本的文本特征;
將所述待檢測文本轉換為待檢測語義向量,并將所述目標文本轉換為目標語義向量;
根據所述待檢測語義向量及所述目標語義向量生成所述待檢測文本與所述目標文本的語義特征,并根據所述文本特征及所述語義特征確定所述待檢測文本與所述目標文本的相似結果。
根據本發明優選實施例,所述根據所述相似文本確定請求確定待檢測文本包括:
解析所述相似文本確定請求的報文,得到所述報文攜帶的數據信息;
從所述數據信息中獲取用于指示位置的信息作為存儲位置;
從所述存儲位置中確定待檢測文本庫,并從所述待檢測文本庫中提取任意文本作為所述待檢測文本。
根據本發明優選實施例,所述根據所述待檢測文本及所述目標文本生成待檢測特征向量包括:
對所述待檢測文本進行分詞處理,得到多個待檢測分詞,并對所述目標文本進行分詞處理,得到多個目標分詞;
獲取所述多個待檢測分詞與所述多個目標分詞的并集,得到所有分詞;
根據所述多個待檢測分詞與所述所有分詞的映射關系生成所述待檢測特征向量。
根據本發明優選實施例,所述根據所述待檢測文本及所述目標文本確定相似系數包括:
將所述多個待檢測分詞與所述多個目標分詞的交集確定為共現詞語;
計算所述共現詞語的共現數量,并計算所述所有分詞的分詞總量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳壹賬通智能科技有限公司,未經深圳壹賬通智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110071000.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:視頻數據處理方法及設備
- 下一篇:一種帶電子標簽的輪胎硫化膠囊及其制備方法





