[發明專利]一種詞條結構的合并方法有效

申請號：	201710131120.9	申請日：	2017-03-07
公開（公告）號：	CN108572953B	公開（公告）日：	2023-06-20
發明（設計）人：	馬也馳;譚紅	申請（專利權）人：	上海頤為網絡科技有限公司
主分類號：	G06F40/103	分類號：	G06F40/103;G06F40/284;G06F18/22
代理公司：	上海專利商標事務所有限公司 31100	代理人：	施浩
地址：	200030 上***	國省代碼：	上海;31
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種詞條結構合并方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明公開了一種詞條結構的合并方法，能夠自動將相近的詞條結構進行合并，提升了用戶檢索詞條、獲取知識的效率。其技術方案為：將詞條結構格式轉化為文本格式；在文本格式的基礎上，基于詞條與詞條的余弦相似度以及詞條與文本的余弦相似度將多個文本合并為一個文本；將合并后的文本格式再轉化為詞條結構格式。

技術領域

本發明涉及一種詞條結構的合并方法，尤其涉及基于余弦相似度這一參數對詞條結構進行合并的方法。

背景技術

在以詞條結構為基礎的信息平臺上，隨著用戶數量的增加，會有很多用戶對同樣的知識體系進行定義和結構化。在用戶對詞條進行搜索的過程中，一個詞條必然會出現眾多相同或者相似的解釋，這會給用戶帶來困擾，也會降低知識獲取的效率。

以前遇到這樣的情況，是由信息平臺的管理人員手工對相似詞條進行合并，然而這種手工合并的方式不僅費時費力，而且受限于管理人員自身的知識儲備，手工合并的方式也會存在大量的合并失誤。

因此，目前業界亟待可自動化的合并相近詞條結構的方法。

發明內容

以下給出一個或多個方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構想到的方面的詳盡綜覽，并且既非旨在指認出所有方面的關鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個或多個方面的一些概念以為稍后給出的更加詳細的描述之序。

本發明的目的在于解決上述問題，提供了一種詞條結構的合并方法，能夠自動將相近的詞條結構進行合并，提升了用戶檢索詞條、獲取知識的效率。

本發明的技術方案為：本發明揭示了一種詞條結構的合并方法，包括：

步驟一：將詞條結構格式轉化為文本格式；

步驟二：在文本格式的基礎上，基于詞條與詞條的余弦相似度以及詞條與文本的余弦相似度將多個文本合并為一個文本；

步驟三：將合并后的文本格式再轉化為詞條結構格式。

根據本發明的詞條結構的合并方法的一實施例，在步驟一中，詞條結構中的詞條屬性按照鍵值對以哈希存儲方式進行存儲，其中詞條屬性包括詞條標識、詞條名稱、詞條文本、父級詞條、子級詞條，在將詞條結構格式轉化為文本格式的過程中，將詞條結構中的根詞條的詞條屬性以及根詞條下所有子詞條的詞條屬性讀取出來以形成文本格式。

根據本發明的詞條結構的合并方法的一實施例，步驟二進一步包括：

步驟1：將第一文檔作為合并主體，將第二文檔作為合并次體；

步驟2：第二文檔的根詞條遍歷第一文檔的所有詞條，得到相應的余弦相似度；

步驟3：比較步驟2中得到的余弦相似度，找到最大的余弦相似度的值；

步驟4：若步驟3得到的最大的余弦相似度的值大于第一閾值，則執行步驟5，否則執行步驟7；

步驟5：記錄最大余弦相似度的值對應的合并主體中的詞條，將合并次體的根詞條合并到所記錄的合并主體中的對應詞條中；

步驟6：將合并后的詞條的所有子詞條進行兩兩余弦相似度計算，若余弦相似度大于第一閾值，則將兩詞條合并，合并后的詞條再重復進行步驟6，直到最后合并后的詞條的所有子詞條的兩兩余弦相似度全部小于第一閾值后結束；

步驟7：將第二文檔作為合并主體，將第一文檔作為合并次體；

步驟8：第一文檔的根詞條遍歷第二文檔的所有詞條，得到相應的余弦相似度；

步驟9：比較步驟8中得到的余弦相似度，找到最大的余弦相似度的值；

步驟10：若步驟9得到的最大的余弦相似度的值大于第一閾值，則執行步驟11，否則執行步驟13；

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。