[發(fā)明專利]一種基于關(guān)系旋轉(zhuǎn)的知識表示學(xué)習(xí)方法在審
| 申請?zhí)枺?/td> | 202310491665.6 | 申請日: | 2023-05-05 |
| 公開(公告)號: | CN116629355A | 公開(公告)日: | 2023-08-22 |
| 發(fā)明(設(shè)計)人: | 王俊;王明杰;劉金生;甘健侯;周菊香;代飛;強(qiáng)振平;李子杰 | 申請(專利權(quán))人: | 云南師范大學(xué) |
| 主分類號: | G06N5/02 | 分類號: | G06N5/02;G06F16/36 |
| 代理公司: | 昆明明潤知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 53215 | 代理人: | 王鵬飛 |
| 地址: | 650500 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 關(guān)系 旋轉(zhuǎn) 知識 表示 學(xué)習(xí)方法 | ||
本發(fā)明公開了一種基于關(guān)系旋轉(zhuǎn)的知識表示學(xué)習(xí)方法。包括以下步驟:(1)對知識圖譜中的實體和關(guān)系進(jìn)行初始化向量表示(2)將訓(xùn)練集中的正樣例通過替換頭、尾實體以及關(guān)系的方法構(gòu)造一定比例的負(fù)樣例(3)將步驟(2)中得到的正、負(fù)樣例代入到模型中,計算正、負(fù)損失以及總損失(4)根據(jù)步驟(3)中的損失通過Adam優(yōu)化器來更新實體和關(guān)系的向量表示(5)重復(fù)步驟(2)~(4),直到迭代次數(shù)到達(dá)預(yù)先設(shè)定的最大迭代次數(shù),最后輸出實體和關(guān)系的向量表示,完成知識表示學(xué)習(xí)。發(fā)明可以有效地建模復(fù)雜知識圖譜中的各種關(guān)系模式,提高鏈接預(yù)測以及知識圖譜補(bǔ)全等任務(wù)的性能。
技術(shù)領(lǐng)域
本發(fā)明涉及知識圖譜表示學(xué)習(xí)領(lǐng)域,具體涉及一種基于關(guān)系旋轉(zhuǎn)的知識表示學(xué)習(xí)方法。
背景技術(shù)
谷歌為優(yōu)化搜索引擎的效果,在2012年提出了知識圖譜的概念,知識圖譜為組織、管理和理解海量互聯(lián)網(wǎng)數(shù)據(jù)提供了一種新的技術(shù)手段。隨著知識圖譜的發(fā)展,其在個性化推薦、智能問答能搜索和自然語言處理任務(wù)中的應(yīng)用價值也得以充分體現(xiàn)。知識圖譜是由數(shù)以萬計的事實三元組組成的,三元組雖然是一種簡潔高效的表示方法,但隨著知識圖譜規(guī)模的不斷增加,數(shù)據(jù)稀疏、知識的不完備等問題也暴露出來。因此,大量研究工作的重點在于知識圖譜補(bǔ)全或鏈接預(yù)測任務(wù),這些任務(wù)旨在通過機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的方法,實現(xiàn)知識圖譜的半自動、全自動補(bǔ)全。知識圖譜補(bǔ)全技術(shù)采用的方法各不相同,主要有路徑查找、規(guī)則推理和知識表示學(xué)習(xí)等,其中基于知識表示學(xué)習(xí)的補(bǔ)全方法采用將知識中的實體和關(guān)系映射到低緯、實值空間,使得知識可計算的方法進(jìn)行補(bǔ)全。這種方法根據(jù)知識圖譜中預(yù)測的對象不同又分為三個子任務(wù):預(yù)測頭實體、預(yù)測尾實體、預(yù)測關(guān)系。尾實體預(yù)測任務(wù)需要給定三元組的關(guān)系以及頭實體,預(yù)測可以正確組成三元組的尾實體,頭實體預(yù)測和關(guān)系預(yù)測同理。
基于知識表示學(xué)習(xí)的知識圖譜補(bǔ)全算法的效果好壞往往取決于知識表示學(xué)習(xí)模型對關(guān)系的建模能力。Word2Vec詞向量的發(fā)展,使得研究人員發(fā)現(xiàn)了詞向量空間中存在著平移不變現(xiàn)象,即兩個語義相似的詞語在詞向量空間中也存在著某種聯(lián)系。受此啟發(fā),Bordes等人成功將這種平移不變性應(yīng)用到了知識表示學(xué)習(xí)模型中并提出了TransE模型,此模型將三元組中的關(guān)系定義為從頭實體到尾實體的一種平移變換,此模型簡單高效,但是在面對一對多、多對一、多對多和自反等復(fù)雜關(guān)系時存在著較大的局限性,不能很好地對這些關(guān)系進(jìn)行建模。為了能處理更復(fù)雜的關(guān)系,Wang等人提出了TransH模型,此模型引入了超平面,使得某一個固定的實體通過映射到不同的超平面能得到不同的向量表示,然而在真實世界中,實體作為多個關(guān)系的結(jié)合體,這種建模方式仍然是存在一定缺陷。隨后,Lin等人提出了TransR模型,此模型對圖譜中的實體同樣進(jìn)行映射操作,不同的是此模型將實體和關(guān)系的向量空間完全分開,通過映射矩陣得到不同的關(guān)系空間,強(qiáng)調(diào)了相似實體之間的區(qū)別;由于引入了映射矩陣,不可避免的將模型的參數(shù)帶到一個新的高度,這不僅延長了模型訓(xùn)練的周期,而且使得模型對超參數(shù)變得極其敏感,同時,因?qū)嶓w屬性的差異,其所在的實體空間應(yīng)該有所不同。因此,Ji等人提出了TransD模型,提供了兩個動態(tài)投影矩陣分別投影頭、尾實體,且這兩個映射矩陣由頭、尾實體共同決定,這使得它們有區(qū)別的同時也在相互作用,此模型不僅考慮了關(guān)系的多樣性,也考慮到了實體的多樣性,但此模型仍然存在參數(shù)過多和知識共享困難等問題。Trans系列模型簡單高效,其中TransR、TransH模型可以的建模對稱、反對稱模式,但是不能推斷反轉(zhuǎn)和組合模式。
語義匹配模型又成“雙線性模型”,其核心思想是將實體中隱藏語義同表示空間中已有的關(guān)系進(jìn)行匹配,從而判斷事實是否成立。其中Yang?等人提出的DistMult模型可以對頭實體、尾實體和關(guān)系進(jìn)行交互建模,只能推理對稱模式,無法建模反對稱和反轉(zhuǎn)模式;Trouillon等人提出的ComplEx模型考慮在復(fù)數(shù)空間中學(xué)習(xí)實體和關(guān)系的向量表示,可以有效處理對稱與反對稱關(guān)系,但無法建模反轉(zhuǎn)模式以及組合關(guān)系,DistMult和ComplEx等模型僅考慮了三元組之間的關(guān)系,沒有考慮更高階的關(guān)系和復(fù)雜的圖結(jié)構(gòu),難以表示語義上更復(fù)雜的關(guān)系。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于云南師范大學(xué),未經(jīng)云南師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310491665.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





