[發明專利]一種知識圖譜模型的構建方法和系統在審
| 申請號: | 202210405898.5 | 申請日: | 2022-04-18 |
| 公開(公告)號: | CN114722215A | 公開(公告)日: | 2022-07-08 |
| 發明(設計)人: | 周昔元;母坤平;眭新光 | 申請(專利權)人: | 成都卓訊智安科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06N5/02;G06F40/295;G06K9/62 |
| 代理公司: | 北京睿博行遠知識產權代理有限公司 11297 | 代理人: | 申超平 |
| 地址: | 610000 四川省成都市成*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 知識 圖譜 模型 構建 方法 系統 | ||
1.一種知識圖譜模型的構建方法,其特征在于,所述方法包括:
根據用戶發出的模型創建指令確定用戶指定的模型類型;
基于預設關系庫抽取模型從預設關系型數據庫中抽取與所述模型類型對應的第一類實體數據,并基于預設文件數據抽取模型從預設文件數據中抽取與所述模型類型對應的第二類實體數據;
調用全局屬性庫確定所述第一類實體數據和所述第二類實體數據中的各實體的實體屬性;
根據預設融合策略分別對各所述實體和各所述實體屬性進行融合,并根據融合結果生成多個具有目標屬性的目標實體;
根據預設語料數據構建各所述目標實體之間的關聯關系,并根據構建結果生成知識圖譜模型;
其中,所述全局屬性庫是用戶預先基于從多種數據源抽取的實體屬性信息構建的。
2.如權利要求1所述的方法,其特征在于,根據預設融合策略分別對各所述實體和各所述實體屬性進行融合,具體為:
基于各所述實體名稱及所屬業務類型判斷是否存在屬于同含義的實體,若存在,在屬于同含義的實體的別名列表中追加別名;
基于各所述實體屬性的名稱和所屬業務類型判斷是否存在屬于同含義的屬性,若存在,在屬于同含義的屬性的別名列表中追加別名。
3.如權利要求2所述的方法,其特征在于,所述方法還包括:
在接收到用戶發出的查重指令時,基于預設實體消歧聚類法確定屬于同含義的實體和屬于同含義的屬性并向用戶展示;
在接收到用戶對屬于同含義的實體的融合指令時,對屬于同含義的實體進行合并消歧;
在接收到用戶對屬于同含義的屬性的融合指令時,對屬于同含義的屬性進行合并消歧。
4.如權利要求1所述的方法,其特征在于,所述預設語料數據包括結構化數據和非結構化數據,根據預設語料數據構建各所述目標實體之間的關聯關系,具體為:
若所述預設語料數據為非結構化數據,對所述預設語料數據進行語義識別后確定所述關聯關系;
若所述預設語料數據為結構化數據,根據所述預設語料數據中的表的關聯關系、表與表之間的主外鍵關系及描述確定所述關聯關系。
5.如權利要求4所述的方法,其特征在于,所述方法還包括:
在接收到用戶對所述關聯關系的修正或編輯指令時,對所述關聯關系進行修正或編輯。
6.如權利要求1所述的方法,其特征在于,基于預設關系庫抽取模型從預設關系型數據庫中抽取與所述模型類型對應的第一類實體數據,具體為:
通過驅動連接所述預設關系庫抽取模型和所述預設關系型數據庫;
基于所述預設關系庫抽取模型對所述預設關系型數據庫中的數據表結構進行提取和分析;
基于提取和分析的結果抽取所述第一類實體數據;
其中,所述預設關系庫抽取模型是根據已知的實體實例迭代進行特征建模后生成的。
7.如權利要求1所述的方法,其特征在于,基于預設文件數據抽取模型從預設文件數據中抽取與所述模型類型對應的第二類實體數據,具體為:
基于所述預設文件數據抽取模型對所述預設文件數據進行語義識別后確定待分類實體數據;
基于所述預設文件數據抽取模型對所述待分類實體數據聚類分析后抽取所述第二類實體數據;
其中,所述預設文件數據包括非結構化文件數據以及掃描到或用戶上傳的結構化文件數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都卓訊智安科技有限公司,未經成都卓訊智安科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210405898.5/1.html,轉載請聲明來源鉆瓜專利網。





