[發(fā)明專利]知識圖譜構(gòu)建方法及裝置、可讀存儲介質(zhì)、電子設(shè)備有效
| 申請?zhí)枺?/td> | 201910408077.5 | 申請日: | 2019-05-15 |
| 公開(公告)號: | CN110188207B | 公開(公告)日: | 2021-06-04 |
| 發(fā)明(設(shè)計)人: | 徐豐碩;林鳳綠;王倪東 | 申請(專利權(quán))人: | 出門問問創(chuàng)新科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京睿派知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11597 | 代理人: | 劉鋒 |
| 地址: | 210038 江蘇省南京市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識 圖譜 構(gòu)建 方法 裝置 可讀 存儲 介質(zhì) 電子設(shè)備 | ||
公開了一種知識圖譜構(gòu)建方法及裝置、可讀存儲介質(zhì)、電子設(shè)備,本申請實施例使用部分已標(biāo)注好的數(shù)據(jù)集,即百科的結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),利用其本身的特性進行鏈接,提高了鏈接過程的準(zhǔn)確率和效率。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種知識圖譜構(gòu)建方法及裝 置、可讀存儲介質(zhì)、電子設(shè)備。
背景技術(shù)
知識圖譜的構(gòu)建過程一般包括信息抽取、知識融合、知識加工。其 中,信息抽取包括實體抽取、關(guān)系抽取、屬性抽取;知識融合包括實體 鏈接和知識合并;知識加工包括本體構(gòu)建、知識推理、質(zhì)量評估和知識 更新。目前關(guān)于知識圖譜的融合的主要工具有Falcon-AO、Dedupe、Limes、 Silk等。
傳統(tǒng)的鏈接方法中信息抽取的數(shù)據(jù)形式主要包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié) 構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)較為單一,可直接轉(zhuǎn)化為 三元組使用,但數(shù)據(jù)規(guī)模較小,一般在特定領(lǐng)域內(nèi)使用;非結(jié)構(gòu)化數(shù)據(jù) 需要采用統(tǒng)計學(xué)習(xí)或者機器學(xué)習(xí)等方法,經(jīng)過實體抽取、關(guān)系抽取、屬 性抽取轉(zhuǎn)化為三元組后才能使用,但目前的準(zhǔn)確率較低,還不能滿足商業(yè)需求。半結(jié)構(gòu)化數(shù)據(jù)均衡了數(shù)據(jù)規(guī)模和準(zhǔn)確率,經(jīng)過預(yù)處理和標(biāo)準(zhǔn)化, 可轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)進而轉(zhuǎn)換為三元組。同時在知識融合的鏈接過程中, 傳統(tǒng)鏈接方法的程序繁瑣且容易出現(xiàn)誤差,導(dǎo)致準(zhǔn)確率和效率不高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種知識圖譜構(gòu)建方法及裝置、可讀 存儲介質(zhì)、電子設(shè)備,旨在提高鏈接過程的準(zhǔn)確率和效率。
第一方面,本發(fā)明實施例公開了一種知識圖譜構(gòu)建方法,所述知識 圖譜用于表示實體的實體信息及不同實體之間的關(guān)系,所述方法包括:
根據(jù)爬取到的數(shù)據(jù)信息創(chuàng)建信息模式,所述信息模式包括概念和與 概念對應(yīng)的屬性;
根據(jù)所述信息模式對數(shù)據(jù)信息進行實體分類,確定每個實體的實體 信息和用于識別所述實體的實體標(biāo)識,所述實體信息包括實體屬性和屬 性值,所述實體屬性包括數(shù)據(jù)屬性和對象屬性,所述對象屬性的屬性值 指向另一個實體;
根據(jù)所述信息模式中屬性的名稱統(tǒng)一不同實體的實體屬性名稱;
為每個實體確定一個標(biāo)識鏈接或非標(biāo)識鏈接;
對比鏈接前綴相同的實體,將非標(biāo)識鏈接的實體屬性并入標(biāo)識鏈接 的實體屬性,合并每個實體相同的實體屬性,所述鏈接前綴為鏈接中不 包括標(biāo)識的部分;
對比名稱相同的實體,響應(yīng)于匹配的實體屬性大于閾值,將不同實 體的實體信息并入同一實體,合并每個實體相同的實體屬性;
輸出實體的實體信息及不同實體之間的關(guān)系。
進一步地,所述為每個實體確定一個標(biāo)識鏈接或非標(biāo)識鏈接包括:
分割實體的對象屬性使每個對象屬性對應(yīng)一個屬性值;
為每個實體及所述實體的每個對象屬性值確定一個標(biāo)識鏈接或非 標(biāo)識鏈接。
進一步地,所述為每個實體確定一個標(biāo)識鏈接或非標(biāo)識鏈接還包括:
響應(yīng)于所述數(shù)據(jù)信息中不存在與所述實體對應(yīng)的標(biāo)識鏈接,確定一 個非標(biāo)識鏈接。
進一步地,所述為每個實體確定一個標(biāo)識鏈接或非標(biāo)識鏈接還包括:
響應(yīng)于所述數(shù)據(jù)信息中存在與所述實體對應(yīng)的標(biāo)識鏈接,選擇一個 標(biāo)識鏈接。
進一步地,所述方法還包括:
響應(yīng)于所述數(shù)據(jù)屬性值的數(shù)據(jù)類型為字符串類型,為所述數(shù)據(jù)屬性 值增加語言標(biāo)簽;
響應(yīng)于所述數(shù)據(jù)屬性值的數(shù)據(jù)類型為數(shù)字類型,統(tǒng)一所述數(shù)據(jù)屬性 值的單位。
進一步地,所述將非標(biāo)識鏈接的實體屬性并入標(biāo)識鏈接的實體屬性 包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于出門問問創(chuàng)新科技有限公司,未經(jīng)出門問問創(chuàng)新科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910408077.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計算機設(shè)備
- 一種支持增量實體關(guān)聯(lián)的關(guān)系圖譜計算方法
- 構(gòu)建墊、實體圖像構(gòu)建物和構(gòu)建構(gòu)建物支撐件的方法
- 支持松耦合的軟件構(gòu)建方法、系統(tǒng)及該系統(tǒng)的實現(xiàn)方法
- 版本的構(gòu)建系統(tǒng)及方法
- 工程構(gòu)建系統(tǒng)及其構(gòu)建方法
- 實例構(gòu)建方法、裝置及軟件系統(tǒng)
- 軟件構(gòu)建方法、軟件構(gòu)建裝置和軟件構(gòu)建系統(tǒng)
- 天花板地圖構(gòu)建方法、構(gòu)建裝置以及構(gòu)建程序
- 一種項目構(gòu)建方法、持續(xù)集成系統(tǒng)及終端設(shè)備
- 并行構(gòu)建的方法、裝置及設(shè)備
- 構(gòu)建肺癌預(yù)測模型構(gòu)建方法





