[發(fā)明專利]一種結(jié)合圖注意力和屬性聚類的實體對齊方法有效
| 申請?zhí)枺?/td> | 202110777340.5 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN113505239B | 公開(公告)日: | 2022-10-28 |
| 發(fā)明(設(shè)計)人: | 包鐵;朱蓓蓓;彭濤 | 申請(專利權(quán))人: | 吉林大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 北京慕達星云知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 11465 | 代理人: | 符繼超 |
| 地址: | 130000 吉*** | 國省代碼: | 吉林;22 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)合 注意力 屬性 實體 對齊 方法 | ||
本發(fā)明公開了一種結(jié)合圖注意力和屬性聚類的實體對齊方法,包括:S1:將兩個知識圖譜的實體,輸入到結(jié)合圖注意力和密集連接的圖卷積網(wǎng)絡(luò),得到實體嵌入表示;S2:基于所述實體嵌入表示,計算所述實體嵌入表示中實體間的相似性,得到序列s;S3:使用k?prototype聚類方法對實體的屬性進行混合聚類,并計算簇間的相異性,得到實體間的相異性;S4:根據(jù)預(yù)設(shè)閾值,利用所述實體間的相異性對所述序列s進行排序,得到候選集;S5:利用所述候選集過濾弱相關(guān)的實體,得到等價實體。本發(fā)明考慮多方面因素,并提高語義信息利用率,結(jié)合圖注意力和屬性聚類提升了兩個知識圖譜之間實體對齊的效率和精度。
技術(shù)領(lǐng)域
本發(fā)明屬于自然語言處理技術(shù)領(lǐng)域,涉及一種結(jié)合圖注意力和屬性聚類的實體對齊方法。
背景技術(shù)
近年來,知識圖譜被應(yīng)用到無數(shù)領(lǐng)域。構(gòu)建知識圖譜的數(shù)據(jù)源可以是結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、無結(jié)構(gòu)化數(shù)據(jù)和通用知識圖譜等,但是不同組織會根據(jù)自己的業(yè)務(wù)需求去選擇數(shù)據(jù)來源。此外構(gòu)建不同領(lǐng)域知識圖譜的方法也不具備統(tǒng)一的行業(yè)標準,這都導致了不同知識圖譜間存在著異質(zhì)和冗余問題。例如,圖1顯示了DBP15K數(shù)據(jù)集里面的中文知識圖譜和英文知識圖譜對實體“李宇春”的介紹存在互補和重復的情況,如果能夠關(guān)聯(lián)兩個知識圖譜的信息,會對李宇春這個人有更詳細和更全面的認知。因此為了充分利用實體的信息,醫(yī)學、電商和地理等領(lǐng)域的研究人員通過對齊的方式來融合不同的知識圖譜。
但是現(xiàn)存的實體對齊方法首先沒有很好的同時利用結(jié)構(gòu)和屬性信息。其次,沒有很好地將節(jié)點特征之間的相關(guān)性融入到模型中。再次,沒有采用有效的技術(shù)利用屬性信息去過濾與測試源實體弱相關(guān)的等價實體集,這不利于實體對齊領(lǐng)域的發(fā)展。
由于實體對齊對于融合知識圖譜非常關(guān)鍵,已經(jīng)有研究人員對其進行研究。現(xiàn)有技術(shù)中北京大學王選計算機研究所的吳雨婷等人所做的聯(lián)合學習實體和關(guān)系表示用于實體對齊,該技術(shù)方案顯式地利用有價值的關(guān)系去輔助實體對齊,無需依賴預(yù)先對齊的關(guān)系種子去學習關(guān)系表示,而是利用圖卷積神經(jīng)網(wǎng)絡(luò)學習到的實體嵌入去近似關(guān)系表示。該研究方法的步驟如下:首先利用普通的圖卷積神經(jīng)網(wǎng)絡(luò)去嵌入各種知識圖譜到向量空間以進行初步的實體對齊。然后,使用實體嵌入去近似可以被用于對齊跨知識圖譜間關(guān)系的關(guān)系表示。最后,將實體嵌入和關(guān)系表示聯(lián)合在一起,繼續(xù)使用圖卷積神經(jīng)網(wǎng)絡(luò)融合鄰居的結(jié)構(gòu)信息以獲得更好的實體和關(guān)系表示。該研究方法有一定的局限性,不能利用注意力很好地將節(jié)點特征之間的相關(guān)性融入到模型中。另外,也沒有利用實體的屬性信息去輔助實體對齊。
通過對現(xiàn)有技術(shù)分析,發(fā)現(xiàn)現(xiàn)有技術(shù)主要存在的缺點包括:
(1)語義信息利用程度較低:僅僅嵌入結(jié)構(gòu)和關(guān)系,沒有考慮實體的屬性信息對于實體對齊性能的影響。
(2)不能自動選擇與實體對齊任務(wù)相關(guān)的子圖:普通圖卷積網(wǎng)絡(luò)將各個鄰居都視作具有相同的貢獻度是不合理的,不能很好地將節(jié)點特征之間的相關(guān)性融入到模型中,效率較低。
(3)未考慮深度學習模型層數(shù)變多引起的梯度下降問題:現(xiàn)有的部分研究利用深度模型進行訓練,但是在堆疊很多層神經(jīng)網(wǎng)絡(luò)的時候沒有考慮噪聲對模型性能的影響,不利于特征傳播和模型的精度。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明的目的在于提供一種至少部分解決上述技術(shù)問題的一種結(jié)合圖注意力和屬性聚類的實體對齊方法。
本發(fā)明實施例提供一種結(jié)合圖注意力和屬性聚類的實體對齊方法,包括:
S1:將兩個知識圖譜的實體,輸入到結(jié)合圖注意力和密集連接的圖卷積網(wǎng)絡(luò),得到實體嵌入表示;
S2:基于所述實體嵌入表示,計算所述實體嵌入表示中實體間的相似性,得到序列s;
S3:使用k-prototype聚類方法對實體的屬性進行混合聚類,并計算簇間的相異性,得到實體間的相異性;
S4:根據(jù)預(yù)設(shè)閾值,利用所述實體間的相異性對所述序列s進行排序,得到候選集;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于吉林大學,未經(jīng)吉林大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110777340.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





