[發明專利]一種詞條結構的合并方法有效
| 申請號: | 201710131120.9 | 申請日: | 2017-03-07 |
| 公開(公告)號: | CN108572953B | 公開(公告)日: | 2023-06-20 |
| 發明(設計)人: | 馬也馳;譚紅 | 申請(專利權)人: | 上海頤為網絡科技有限公司 |
| 主分類號: | G06F40/103 | 分類號: | G06F40/103;G06F40/284;G06F18/22 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200030 上*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 詞條 結構 合并 方法 | ||
1.一種詞條結構的合并方法,其特征在于,包括:
步驟一:將詞條結構格式轉化為文本格式,其中,詞條結構中的詞條屬性按照鍵值對以哈希存儲方式進行存儲,其中詞條屬性包括詞條標識、詞條名稱、詞條文本、父級詞條、子級詞條,在將詞條結構格式轉化為文本格式的過程中,將詞條結構中的根詞條的詞條屬性以及根詞條下所有子詞條的詞條屬性讀取出來以形成文本格式;
步驟二:在文本格式的基礎上,基于詞條與詞條的余弦相似度以及詞條與文本的余弦相似度將多個文本合并為一個文本;
步驟三:將合并后的文本格式再轉化為詞條結構格式。
2.根據權利要求1所述的詞條結構的合并方法,其特征在于,步驟二進一步包括:
步驟1:將第一文檔作為合并主體,將第二文檔作為合并次體;
步驟2:第二文檔的根詞條遍歷第一文檔的所有詞條,得到相應的余弦相似度;
步驟3:比較步驟2中得到的余弦相似度,找到最大的余弦相似度的值;
步驟4:若步驟3得到的最大的余弦相似度的值大于第一閾值,則執行步驟5,否則執行步驟7;
步驟5:記錄最大余弦相似度的值對應的合并主體中的詞條,將合并次體的根詞條合并到所記錄的合并主體中的對應詞條中;
步驟6:將合并后的詞條的所有子詞條進行兩兩余弦相似度計算,若余弦相似度大于第一閾值,則將兩詞條合并,合并后的詞條再重復進行步驟6,直到最后合并后的詞條的所有子詞條的兩兩余弦相似度全部小于第一閾值后結束;
步驟7:將第二文檔作為合并主體,將第一文檔作為合并次體;
步驟8:第一文檔的根詞條遍歷第二文檔的所有詞條,得到相應的余弦相似度;
步驟9:比較步驟8中得到的余弦相似度,找到最大的余弦相似度的值;
步驟10:若步驟9得到的最大的余弦相似度的值大于第一閾值,則執行步驟11,否則執行步驟13;
步驟11:記錄最大的余弦相似度的值對應的合并主體中的詞條,將合并次體的根詞條合并到所記錄的合并主體中的對應詞條中;
步驟12:將合并后的詞條的所有子詞條進行兩兩余弦相似度計算,若余弦相似度大于第一閾值,則將兩詞條合并,合并后的詞條再重復進行步驟12,直到最后合并后的詞條的所有子詞條的兩兩余弦相似度全部小于第一閾值后結束;
步驟13:重新將第一文檔作為合并主體,將第二文檔作為合并次體;
步驟14:第二文檔的根詞條遍歷第一文檔的所有詞條的文本,得到相應的余弦相似度;
步驟15:比較步驟14中得到的余弦相似度,找到最大的余弦相似度的值;
步驟16:若步驟15得到的最大的余弦相似度的值大于第二閾值,則執行步驟17,否則執行步驟18;
步驟17:記錄最大余弦相似度的值對應的合并主體中的詞條,將合并次體的根詞條合并到對應的合并主體中的所記錄的詞條;
步驟18:將第二文檔作為合并主體,將第一文檔作為合并次體;
步驟19:第一文檔的根詞條遍歷第二文檔的所有詞條的文本,得到相應的余弦相似度;
步驟20:比較步驟19中得到的余弦相似度,找到最大的余弦相似度的值;
步驟21:若步驟20得到的最大余弦相似度的值大于第二閾值,則執行步驟22,否則判斷兩詞條文本無相關性;
步驟22:記錄最大余弦相似度的值對應的合并主體中的詞條,將合并次體的根詞條合并到對應的合并主體中的所記錄的詞條,合并結束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海頤為網絡科技有限公司,未經上海頤為網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710131120.9/1.html,轉載請聲明來源鉆瓜專利網。





