[發明專利]一種構建知識圖譜的方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010890276.7 | 申請日: | 2020-08-29 |
| 公開(公告)號: | CN112182235A | 公開(公告)日: | 2021-01-05 |
| 發明(設計)人: | 張永平;孫璨;張俊峰 | 申請(專利權)人: | 深圳唄佬智能有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/335;G06F16/338;G06F40/279 |
| 代理公司: | 深圳市中融創智專利代理事務所(普通合伙) 44589 | 代理人: | 葉垚平;李立 |
| 地址: | 518000 廣東省深圳市南山區粵海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 構建 知識 圖譜 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及一種構建知識圖譜的方法、裝置、計算機設備及存儲介質,該方法包括:準備數據資源;從所述數據資源中進行知識的抽取;通過抽取的知識的結構構建word embedding模型;通過所述知識構建TF映射值表;將所述模型和所述映射表對知識進行歸一化;將歸一化后的知識進行存儲。
技術領域
本申請涉及文字處理技術領域,尤其涉及一種構建知識圖譜的方法、裝置、 計算機設備及存儲介質。
背景技術
知識圖譜能夠應用在很多領域,比如在中文語義消歧中,結合句子的上下 文信息可以對某一有歧義的詞語進行消歧;又比如在語義搜索、對話理解和知 識回答等上層通用應用中,知識圖譜可以對語義信息進行拓展和推理。
基于特定領域下的知識圖譜構建方法中,主要是將圖譜定義為一個三元組 entity1,relation,entity1,其中entity1、entity1表示客觀世界中某具 體對象的描述,稱為實體,relation表示兩個實體之間的關聯,稱為實體關系。 主要的構建過程是:首先收集大量結構化、非結構化和半結構化數據,然后按 照一定算法或規則從數據中抽取實體和實體關系,最后按照一定方式表示和存 儲知識圖譜。
上述現有知識圖譜構建時抽取的實體和實體關系都存在同一意思不同表述 的情況,比如實體關系“妻子”和“老婆”,實體“NLP”和“自然語言處理” 等。由于這些實體和實體關系沒有歸一化,首先會造成存儲實體時需要更大的 空間,也就意味著后續圖譜應用時需要更大的查詢壓力;其次會造成某些實體 間關系的缺失;這兩點會影響后續的上層應用,比如知識問答,推薦系統等, 也對后續知識圖譜的拓展融合造成影響。
發明內容
本申請提供了一種構建知識圖譜的方法、裝置、計算機設備及存儲介質, 以解決上述問題。
第一方面,本申請提供了一種構建知識圖譜的方法,所述方法包括:
準備數據資源;
從所述數據資源中進行知識的抽取;
通過抽取的知識的結構構建word embedding模型;
通過所述知識構建TF映射值表;
將所述模型和所述映射表對知識進行歸一化;
將歸一化后的知識進行存儲。
第二方面,本申請還提供了一種構建圖譜的裝置,該裝置包括:
數據資源單元,用于準備數據資源;
知識抽取單元,用于從所述數據資源中抽取知識;
模型構建單元,用于通過抽取的知識結構構建word embedding模型;
TF映射單元,用于在訓練滑動窗口中加入一個global relations,同時通 過所述知識構建TF映射值表;
歸一化單元,用于將所述模型和所述映射表對知識進行歸一化;
存儲單元,用于將歸一化后的知識進行存儲。
第三方面,本申請還提供了一種計算機設備,所述計算機設備包括存儲器 和處理器;所述存儲器用于存儲計算機程序;所述處理器,用于執行所述計算 機程序并在執行所述計算機程序時實現如上述的構建知識圖譜的方法。
第四方面,本申請還提供了一種計算機可讀存儲介質,所述計算機可讀存 儲介質存儲有計算機程序,所述計算機程序被處理器執行時使所述處理器實現 如上述的構建知識圖譜的方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳唄佬智能有限公司,未經深圳唄佬智能有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010890276.7/2.html,轉載請聲明來源鉆瓜專利網。





