[發明專利]文本相似度確定方法、裝置、設備及存儲介質有效
| 申請號: | 202011009879.8 | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112149414B | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 向玥佳;劉博;陳曦;林鎮溪;文瑞;管沖;高文龍;孫繼超;張子恒;徐超;楊奕凡;張云燕 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/216;G06F18/22;G06F16/35 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 徐立 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 相似 確定 方法 裝置 設備 存儲 介質 | ||
本申請公開了一種文本相似度確定方法、裝置、設備及存儲介質,屬于人工智能技術領域。所述方法包括:獲取第一文本;確定第一文本中包含的要素詞;對于N個要素種類中的目標要素種類,獲取第一文本中屬于目標要素種類的各個目標要素詞與第二文本中屬于目標要素種類的各個目標要素詞之間的字詞相似度;基于字詞相似度,確定第一文本與第二文本在目標要素種類上的相似度;基于第一文本與第二文本在N個要素種類上的相似度,確定第一文本與第二文本之間的相似度。本申請實施例提供的技術方案,從要素詞相似的角度確定不同文本在各個要素種類上的相似度,進而確定不同文本的相似度,提升了不同文本間相似度確定的準確性,擴大了適用范圍。
技術領域
本申請涉及人工智能技術領域,特別涉及一種文本相似度確定方法、裝置、設備及存儲介質。
背景技術
隨著人工智能技術的發展,人們需要處理的信息量激增。為了更好地利用這些海量信息進行統計分析,往往需要先對這些信息進行標準化處理。比如,在醫療領域中,往往需要將同一病情的多種表達方式統一為標準表達后,再進行統計分析。
相關技術中,是通過計算非標準表達文本與標準表達文本之間的編輯距離,來體現非標準表達文本與標準表達文本之間的相似度,在利用編輯距離作為相似度的同時輔助一些同義詞規則,例如替換非標準表達中的字詞,實現標準化任務。
通過相關技術確定的文本相似度的準確性低、適用范圍小。例如,“癌”和“結節”的編輯距離是2,“癌”和“惡心腫瘤”的編輯距離是4,但是“癌”和“惡心腫瘤”顯然要比“癌”和“結節”更接近。又比如用戶輸入的是“良性腫瘤”,那么會匹配成“良性癌”這種醫學上不存在的表達。
發明內容
本申請實施例提供了一種文本相似度確定方法、裝置、設備及存儲介質,能夠提升文本之間相似度計算的準確度,使得輸出標準文本更加準確。所述技術方案如下:
根據本申請實施例的一個方面,提供了一種文本相似度確定方法,所述方法包括:
獲取第一文本;
確定所述第一文本中包含的要素詞,所述要素詞是指屬于預定義的N個要素種類中的任一要素種類的字詞,所述N為正整數;
對于所述N個要素種類中的目標要素種類,獲取所述第一文本中屬于所述目標要素種類的各個目標要素詞與第二文本中屬于所述目標要素種類的各個目標要素詞之間的字詞相似度;
基于所述字詞相似度,確定所述第一文本與所述第二文本在所述目標要素種類上的相似度;
基于所述第一文本與所述第二文本在所述N個要素種類上的相似度,確定所述第一文本與所述第二文本之間的相似度。
根據本申請實施例的一個方面,提供了一種文本相似度確定裝置,所述裝置包括:
文本獲取模塊,用于獲取第一文本;
要素詞確定模塊,用于確定所述第一文本中包含的要素詞,所述要素詞是指屬于預定義的N個要素種類中的任一要素種類的字詞,所述N為正整數;
字詞相似度獲取模塊,用于對于所述N個要素種類中的目標要素種類,獲取所述第一文本中屬于所述目標要素種類的各個目標要素詞與第二文本中屬于所述目標要素種類的各個目標要素詞之間的字詞相似度;
要素相似度確定模塊,用于基于所述字詞相似度,確定所述第一文本與所述第二文本在所述目標要素種類上的相似度;
整體相似度確定模塊,用于基于所述第一文本與所述第二文本在所述N個要素種類上的相似度,確定所述第一文本與所述第二文本之間的相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011009879.8/2.html,轉載請聲明來源鉆瓜專利網。





