[發明專利]一種基于模式匹配的實體并列關系相似度計算方法在審
| 申請號: | 201910583113.1 | 申請日: | 2019-07-01 |
| 公開(公告)號: | CN110781309A | 公開(公告)日: | 2020-02-11 |
| 發明(設計)人: | 劉家祥 | 申請(專利權)人: | 廈門美域中央信息科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62;G06Q50/26 |
| 代理公司: | 11589 北京勁創知識產權代理事務所(普通合伙) | 代理人: | 王志敏 |
| 地址: | 361008 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體信息 聚類 語料 圖譜 數據庫 初始數據 片段信息 網絡 檢索 相似度計算 并列關系 工作效率 模式匹配 匹配成功 輸入模式 相似度 構建 | ||
一種基于模式匹配的實體并列關系相似度計算方法,包括以下具體步驟:構建知識圖譜A和數據庫B;輸入模式匹配成功的初始數據C;將初始數據C輸入知識圖譜A中,對得到實體片段信息組D進行聚類,并根據得到第一聚類實體信息E建立第一共詞網絡F;在數據庫中檢索包括實體片段信息組D的語料,并將得到語料組G輸入知識圖譜A中,得到語料組G所包括的實體信息H;將得到的實體信息H進行聚類,并根據得到第二聚類實體信息I建立語料組G對應的第二共詞網絡J;計算第一共詞網絡F和第二共詞網絡J之間的相似度。本發明能縮短使用者從數據庫中獲取使用者所需信息的檢索時間,進而提高了工作效率。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種基于模式匹配的實體并列關系相似度計算方法。
背景技術
實體相似度的計算有諸多應用,相似度模型的典型應用場景就是找到和某個實體相似的其他實體。隨著信息網絡技術的發展,網絡上的信息呈指數增長,當需要對相關主題的信息進行統計時,由于網絡上統計出的數據信息無法估計,只是依靠人力管理勢必會浪費諸多的人力資源,且需要耗費大量的時間才能得到所需的相關信息,往往還會出現偏差;為此,本申請提出一種基于模式匹配的實體并列關系相似度計算方法。
發明內容
(一)發明目的
為解決背景技術中存在的技術問題,本發明提出一種基于模式匹配的實體并列關系相似度計算方法,本發明能縮短使用者從數據庫中獲取使用者所需信息的檢索時間,進而提高了工作效率。
(二)技術方案
為解決上述問題,本發明提供了一種基于模式匹配的實體并列關系相似度計算方法,包括以下具體步驟:
S1、構建知識圖譜A和數據庫B;
S2、輸入模式匹配成功的初始數據C;
S3、將初始數據C輸入知識圖譜A中,得到實體片段信息組D;
S4、將得到的實體片段信息組D進行聚類,得到第一聚類實體信息E;
S5、根據第一聚類實體信息E建立初始數據A對應的第一共詞網絡F;
S6、在數據庫中檢索包括實體片段信息組D的語料,得到語料組G;
S7、將語料組G輸入知識圖譜A中,得到語料組G所包括的實體信息H;
S8、將得到的實體信息H進行聚類,得到第二聚類實體信息I;
S9、根據第二聚類實體信息I建立語料組G對應的第二共詞網絡J;
S10、計算第一共詞網絡F和第二共詞網絡J之間的相似度。
優選的,初始數據C包括結構化數據、非結構化的數據和半結構化的數據。
優選的,S3中對初始數據C輸入知識圖譜A進行處理的具體步驟為:
S31、將初始數據C轉化為結構化數據K;
S32、對結構化數據K進行分詞,得到實體片段信息組D。
優選的,對結構化數據K進行分詞后,需要對其進行分詞后的信息進行過濾。
優選的,S3中初始數據C輸入到知識圖譜A中,得到初始數據C相關的知識圖譜A1。
優選的,S7中語料組G輸入到知識圖譜A中,得到語料組G相關的知識圖譜A2。
優選的,S6中在得到的語料組G之前需要對得到的語料信息進行篩選,具體方法為:檢測得到的語料信息是否包含實體,若包括,則對語料信息進行匯總,得到語料組G;若不包括,則對不包括實體的語料信息進行舍棄。
本發明的上述技術方案具有如下有益的技術效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廈門美域中央信息科技有限公司,未經廈門美域中央信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910583113.1/2.html,轉載請聲明來源鉆瓜專利網。





