[發(fā)明專(zhuān)利]基于AHE對(duì)齊超平面的文本知識(shí)嵌入方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011520861.4 | 申請(qǐng)日: | 2020-12-21 |
| 公開(kāi)(公告)號(hào): | CN112541589B | 公開(kāi)(公告)日: | 2022-10-14 |
| 發(fā)明(設(shè)計(jì))人: | 汪璟玢;張旺 | 申請(qǐng)(專(zhuān)利權(quán))人: | 福州大學(xué) |
| 主分類(lèi)號(hào): | G06N5/02 | 分類(lèi)號(hào): | G06N5/02;G06F16/36 |
| 代理公司: | 福州元?jiǎng)?chuàng)專(zhuān)利商標(biāo)代理有限公司 35100 | 代理人: | 陳明鑫;蔡學(xué)俊 |
| 地址: | 350108 福建省福州市*** | 國(guó)省代碼: | 福建;35 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 ahe 對(duì)齊 平面 文本 知識(shí) 嵌入 方法 | ||
本發(fā)明涉及一種基于AHE對(duì)齊超平面的文本知識(shí)嵌入方法,包括以下步驟:步驟S1:對(duì)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練詞向量,獲得文本描述的精確表示;步驟S2:采用AHE對(duì)齊超平面策略,將文本向量與內(nèi)部向量對(duì)齊為統(tǒng)一的隱含層維度,并分別對(duì)頭尾實(shí)體進(jìn)行文本超平面投影,獲得交互增強(qiáng)的表示向量,并將其應(yīng)用至知識(shí)庫(kù)基礎(chǔ)模型中。解決了傳統(tǒng)文本聯(lián)合學(xué)習(xí)模型對(duì)文本描述引入的不精確性和不靈活性,進(jìn)一步有效提高知識(shí)圖譜補(bǔ)全效果。
技術(shù)領(lǐng)域
本發(fā)明涉及知識(shí)圖譜領(lǐng)域,具體涉及一種基于AHE對(duì)齊超平面的文本知識(shí)嵌入方法。
背景技術(shù)
現(xiàn)有的方法在文本描述的利用上已經(jīng)有了一定的成功,但仍然存在一些問(wèn)題。在DKRL]中,每一個(gè)實(shí)體分別關(guān)聯(lián)了結(jié)構(gòu)表示向量和描述表示向量,但是其最終的聯(lián)合模型采用的是簡(jiǎn)單的一階約束來(lái)同時(shí)學(xué)習(xí)兩類(lèi)向量,這無(wú)法有效地捕獲文本與三元組的相關(guān)性。Han等人的SSP方法改進(jìn)了這一點(diǎn),通過(guò)建立頭尾描述特定的語(yǔ)義超平面來(lái)投影內(nèi)部結(jié)構(gòu)的得分,并在內(nèi)部結(jié)構(gòu)得分和投影得分之間通過(guò)λ超參數(shù)權(quán)衡二者,這在某種程度上是能夠精確捕獲的,但其性能依賴(lài)于頭尾描述信息的語(yǔ)義組成函數(shù),這影響了模型的可擴(kuò)展性。另外,二者的文本描述向量與結(jié)構(gòu)表示向量都是聯(lián)合學(xué)習(xí)的,文本向量的學(xué)習(xí)通常需要深層神經(jīng)網(wǎng)絡(luò)的支持,這產(chǎn)生了很長(zhǎng)的訓(xùn)練周期,而結(jié)構(gòu)表示向量往往不需要這一點(diǎn),聯(lián)合學(xué)習(xí)的方法無(wú)法在訓(xùn)練時(shí)長(zhǎng)和訓(xùn)練精度上有一個(gè)很好的折衷。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種基于AHE對(duì)齊超平面的文本知識(shí)嵌入方法,解決了傳統(tǒng)文本聯(lián)合學(xué)習(xí)模型對(duì)文本描述引入的不精確性和不靈活性,進(jìn)一步有效提高知識(shí)圖譜補(bǔ)全效果。
為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
一種基于AHE對(duì)齊超平面的文本知識(shí)嵌入方法,包括以下步驟:
步驟S1:對(duì)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練詞向量,獲得文本描述的精確表示;
步驟S2:采用AHE對(duì)齊超平面策略,將文本向量與內(nèi)部向量對(duì)齊為統(tǒng)一的隱含層維度,并分別對(duì)頭尾實(shí)體進(jìn)行文本超平面投影,獲得交互增強(qiáng)的表示向量,并將其應(yīng)用至知識(shí)庫(kù)基礎(chǔ)模型中。
進(jìn)一步的,所述數(shù)據(jù)集包括FB-Text數(shù)據(jù)集和WN9-Text數(shù)據(jù)集。
進(jìn)一步的,對(duì)于FB-Text數(shù)據(jù)集,采用word2vec框架中為Freebase實(shí)體提供的預(yù)訓(xùn)練詞向量,具體的預(yù)訓(xùn)練詞向量通過(guò)在Google News Dataset上使用skip-gram模型訓(xùn)練得到,并應(yīng)用l2范數(shù)獲得向量的歸一化表示。
進(jìn)一步的,對(duì)于WN9-Text數(shù)據(jù)集,采用AutoExtend框架,具體的使用預(yù)訓(xùn)練的300維Golve詞向量,當(dāng)Golve中不存在對(duì)應(yīng)的含義嵌入時(shí),AutoExtend將為這樣的同義詞生成值為0的初始化向量,并應(yīng)用l2范數(shù)獲得向量的歸一化表示。
進(jìn)一步的,所述步驟S2具體為:
步驟S21:對(duì)于一個(gè)三元組(s,r,o),通過(guò)步驟S1得到它們文本描述向量sw(ow),以及通過(guò)隨機(jī)初始化的方法得到內(nèi)部結(jié)構(gòu)向量si(oi);
步驟S22:利用AHE對(duì)齊過(guò)程將sw(ow)對(duì)齊到與si(oi)統(tǒng)一的空間中,得到snew(onew);
步驟S23:通過(guò)si(oi)在snew(onew)的超平面投影,建模它們之間的交互,得到s'(o');
步驟S24:將得到的s'(o')輸入到原始模型的得分函數(shù)中,得到融合文本描述信息的新得分。
該專(zhuān)利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專(zhuān)利權(quán)人授權(quán)。該專(zhuān)利全部權(quán)利屬于福州大學(xué),未經(jīng)福州大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專(zhuān)利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011520861.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專(zhuān)利網(wǎng)。





