[發明專利]一種文本相似度的計算方法以及相關設備有效
| 申請號: | 201910129311.0 | 申請日: | 2019-02-21 |
| 公開(公告)號: | CN109871540B | 公開(公告)日: | 2022-12-23 |
| 發明(設計)人: | 徐樂樂 | 申請(專利權)人: | 武漢斗魚魚樂網絡科技有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/216;G06F40/289;G06K9/62 |
| 代理公司: | 北京眾達德權知識產權代理有限公司 11570 | 代理人: | 徐松 |
| 地址: | 430000 湖北省武漢市東湖新技術開發區軟件園東路*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文本 相似 計算方法 以及 相關 設備 | ||
本發明實施例提供了一種文本相似度的計算方法及相關設備,結合文本中分詞的權重計算文本之間的相似度,相較于傳統的文本相似度算法而言,獲得的精確度更高。該方法包括:獲取至少兩個文本,所述至少兩個文本為待計算相似度的文本;對所述至少兩個文本分別進行分詞得到所述至少兩個文本對應的至少兩個分詞集合;確定所述至少兩個分詞集合中每個分詞的歸一化后的權重;確定所述至少兩個分詞集合中每個分詞的詞向量;基于所述至少兩個分詞集合中每個分詞的歸一化后的權重以及所述至少兩個分詞集合中每個分詞的詞向量確定所述至少兩個文本對應的至少兩個文本向量;根據所述至少兩個文本向量計算所述至少兩個文本中任意兩個文本的相似度。
技術領域
本發明涉及信息處理技術領域,尤其涉及一種文本相似度的計算方法以及相關設備。
背景技術
在自然語言處理(Natural Language Processing,NLP)中,經常會涉及到如何度量兩個文本的相似度問題。在諸如對話系統(Dialog system)和信息檢索(Informationretrieval)等的問題中,如何度量句子或者短語之間的相似度尤為重要。文本相似度計算在信息檢索、數據挖掘、機器翻譯、文檔復制檢測等領域有著廣泛的應用。
度量文本相似度一般是基于關鍵詞匹配的傳統方法,或者利用余弦顯示度的方法,但是利用關鍵詞匹配的傳統方法,或者利用余弦相似度的方法度量精度不高。
發明內容
本發明實施例提供了一種文本相似度的計算方法及相關設備,結合文本中分詞的權重以及文本的分詞向量綜合計算文本對應的向量,并通過文本對應的向量計算文本之間的相似度,相較于傳統的文本相似度算法而言,獲得的精確度更高。
本發明實施例的第一方面提供了一種文本相似度的計算方法,包括:
獲取至少兩個文本,所述至少兩個文本為待計算相似度的文本;
對所述至少兩個文本分別進行分詞得到所述至少兩個文本對應的至少兩個分詞集合;
確定所述至少兩個分詞集合中每個分詞的歸一化后的權重;
確定所述至少兩個分詞集合中每個分詞的詞向量;
基于所述至少兩個分詞集合中每個分詞的歸一化后的權重以及所述至少兩個分詞集合中每個分詞的詞向量確定所述至少兩個文本對應的至少兩個文本向量;
根據所述至少兩個文本向量計算所述至少兩個文本中任意兩個文本的相似度。
可選地,所述確定所述至少兩個分詞集合中每個分詞的歸一化后的權重包括:
通過如下公式確定所述至少兩個分詞集合中每個分詞的歸一化后的權重:
其中,WordHeight(wordij)為所述至少兩個文本中第i篇文本的第j個分詞的歸一化前權重,且wordij為所述至少兩個文本中第i篇文本的第j個分詞的歸一化后的權重,為所述至少兩個文本中第i篇文本的第j個分詞出現的次數,為所述至少兩個文本中第i篇文本的第j個分詞出現在文本中的文本數,為所述至少兩個文本中第k篇文本的第j個分詞出現在文本中的文本數,m為所述至少兩個文本中第k篇文本對應的分詞集合中的分詞數量,N為所述至少兩個文本中的文本數量,C為所述至少兩個文本的分詞集合中的總詞數。
可選地,所述基于所述至少兩個分詞集合中每個分詞的歸一化后的權重以及所述至少兩個分詞集合中每個分詞的詞向量確定所述至少兩個文本對應的至少兩個文本向量包括:
通過如下公式確定所述至少兩個文本對應的至少兩個文本向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢斗魚魚樂網絡科技有限公司,未經武漢斗魚魚樂網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910129311.0/2.html,轉載請聲明來源鉆瓜專利網。





