[發(fā)明專利]知識圖譜建立的方法和裝置在審
| 申請?zhí)枺?/td> | 201910849080.0 | 申請日: | 2019-09-09 |
| 公開(公告)號: | CN112463974A | 公開(公告)日: | 2021-03-09 |
| 發(fā)明(設(shè)計(jì))人: | 段戎;胡康興 | 申請(專利權(quán))人: | 華為技術(shù)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35 |
| 代理公司: | 北京龍雙利達(dá)知識產(chǎn)權(quán)代理有限公司 11329 | 代理人: | 王雷;時林 |
| 地址: | 518129 廣東*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 知識 圖譜 建立 方法 裝置 | ||
1.一種知識圖譜建立的方法,其特征在于,包括:
獲取語料;
對所述語料中的實(shí)體進(jìn)行聚類,以得到目標(biāo)聚類結(jié)果;
根據(jù)所述目標(biāo)聚類結(jié)果,確定所述語料中的新增實(shí)體與種子圖譜中的實(shí)體的相似度;
根據(jù)所述相似度,將所述新增實(shí)體添加至所述種子圖譜,以建立知識圖譜。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對所述語料中的實(shí)體進(jìn)行聚類,以得到目標(biāo)聚類結(jié)果,包括:
根據(jù)M種初始聚類個數(shù),對所述語料中的實(shí)體進(jìn)行聚類,以得到與所述M種初始聚類個數(shù)一一對應(yīng)的M種初始聚類結(jié)果,M為正整數(shù);
根據(jù)所述種子圖譜中實(shí)體之間的連接關(guān)系,從所述M種初始聚類結(jié)果中確定所述目標(biāo)聚類結(jié)果。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述種子圖譜包括與所述語料中的實(shí)體相同的共有實(shí)體,
所述根據(jù)所述種子圖譜中實(shí)體的連接關(guān)系,從所述M種初始聚類結(jié)果中確定所述目標(biāo)聚類結(jié)果,包括:
根據(jù)所述種子圖譜中實(shí)體的連接關(guān)系以及每一個所述初始聚類結(jié)果,確定每一個所述初始聚類結(jié)果的分散度和可及性,所述分散度用于表示所述種子圖譜中的每個共有實(shí)體的近鄰結(jié)構(gòu)在上所述初始聚類結(jié)果中的離散程度,所述近鄰結(jié)構(gòu)由一個共有實(shí)體和所述共有實(shí)體在所述種子圖譜中的所有相鄰的共有實(shí)體組成,所述可及性用于表示在所述初始聚類結(jié)果的每個類中所述共有實(shí)體在所述種子圖譜中的最短距離;
根據(jù)所述分散度和所述可及性,從所述初始聚類結(jié)果中確定所述目標(biāo)聚類結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述目標(biāo)聚類結(jié)果的分散度和可及性的差值的絕對值在所述M種初始聚類結(jié)果中最小。
5.根據(jù)權(quán)利要求1-4中任一項(xiàng)所述的方法,其特征在于,所述種子圖譜包括與所述語料中的實(shí)體相同的共有實(shí)體,所述種子圖譜中包括與所述語料之外的類外實(shí)體,所述方法還包括:
當(dāng)所述類外實(shí)體在所述種子圖譜中位于所述目標(biāo)聚類結(jié)果的第一類中兩個共有實(shí)體的最短路徑上,將所述類外實(shí)體添加至所述第一類;和/或,
根據(jù)所述種子圖譜中與所述類外實(shí)體相鄰的共有實(shí)體與所述目標(biāo)分類結(jié)果的每個類中的實(shí)體的相似度,將所述類外實(shí)體添加至所述目標(biāo)分類結(jié)果中的實(shí)體相似度滿足預(yù)設(shè)條件的一個或多個類。
6.根據(jù)權(quán)利要求1-5中任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述目標(biāo)聚類結(jié)果,確定所述語料中的新增實(shí)體與種子圖譜中的實(shí)體的相似度,包括:
確定所述目標(biāo)聚類結(jié)果中的每個實(shí)體的實(shí)體向量,所述實(shí)體向量的第n位表示所述實(shí)體是否屬于所述目標(biāo)分類結(jié)果中的第n類,n為正整數(shù);
確定所述新增實(shí)體與所述種子圖譜中的實(shí)體的向量的距離,所述距離用于表示所述新增實(shí)體與所述種子圖譜中的實(shí)體的相似度。
7.根據(jù)權(quán)利要求1-6中任一項(xiàng)所述的方法,其特征在于,所述目標(biāo)分類結(jié)果包括多個類,所述多個類中的第j類包括新增實(shí)體,
所述方法還包括:根據(jù)所述第j類中的實(shí)體與所述種子圖譜中的多個子圖的相似性,確定與所述第j類最相似的第j目標(biāo)子圖,所述多個子圖中的每個子圖由所述種子圖譜中的一個實(shí)體以及所述實(shí)體在所述種子圖譜中的所有相鄰的實(shí)體組成;
所述根據(jù)所述相似度,將所述新增實(shí)體添加至所述種子圖譜,包括:根據(jù)所述相似度,將所述第j類中的新增實(shí)體添加至所述第j目標(biāo)子圖。
8.一種知識圖譜建立裝置,其特征在于,包括:
獲取模塊,用于獲取語料;
聚類模塊,用于對所述語料中的實(shí)體進(jìn)行聚類,以得到目標(biāo)聚類結(jié)果;
確定模塊,用于根據(jù)所述目標(biāo)聚類結(jié)果,確定所述語料中的新增實(shí)體與種子圖譜中的實(shí)體的相似度;
添加模塊,用于根據(jù)所述相似度,將所述新增實(shí)體添加至所述種子圖譜,以建立知識圖譜。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華為技術(shù)有限公司,未經(jīng)華為技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910849080.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法





