[發(fā)明專利]基于翻譯模型的協(xié)同迭代聯(lián)合實(shí)體對齊方法及裝置在審
| 申請?zhí)枺?/td> | 201910380017.7 | 申請日: | 2019-05-08 |
| 公開(公告)號: | CN110188206A | 公開(公告)日: | 2019-08-30 |
| 發(fā)明(設(shè)計(jì))人: | 鄂海紅;宋美娜;程瑞;牛佩晴;陳忠富 | 申請(專利權(quán))人: | 北京郵電大學(xué) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 北京清亦華知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11201 | 代理人: | 張潤 |
| 地址: | 100876 北京市海淀區(qū)西*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 對齊 三元組 圖譜 迭代 聯(lián)合 嵌入空間 嵌入模塊 預(yù)設(shè)距離 協(xié)同 數(shù)據(jù)預(yù)處理模塊 迭代訓(xùn)練 方法生成 模塊選取 頻率選擇 語言知識(shí) 語義距離 翻譯 異質(zhì) 預(yù)設(shè) 融合 更新 統(tǒng)計(jì) | ||
1.一種基于翻譯模型的協(xié)同迭代聯(lián)合實(shí)體對齊方法,其特征在于,包括以下步驟:
S1,獲取多個(gè)知識(shí)圖譜,通過數(shù)據(jù)預(yù)處理模塊對所述多個(gè)知識(shí)圖譜進(jìn)行處理,以統(tǒng)計(jì)所述多個(gè)知識(shí)圖譜中的實(shí)體、關(guān)系、屬性、屬性值、關(guān)系三元組和屬性三元組各個(gè)數(shù)據(jù),根據(jù)預(yù)設(shè)的頻率選擇方法對所述關(guān)系三元組和所述屬性三元組中的實(shí)體進(jìn)行選擇生成實(shí)體對齊種子集;
S2,通過關(guān)系三元組聯(lián)合嵌入模塊基于翻譯模型的知識(shí)表示學(xué)習(xí)方法對統(tǒng)計(jì)的實(shí)體、關(guān)系和所述關(guān)系三元組進(jìn)行嵌入,生成關(guān)系三元組聯(lián)合嵌入空間;
S3,通過屬性三元組聯(lián)合嵌入模塊基于所述翻譯模型的知識(shí)表示學(xué)習(xí)方法對統(tǒng)計(jì)的實(shí)體、屬性、屬性值和所述屬性三元組進(jìn)行嵌入,生成屬性三元組聯(lián)合嵌入空間;
S4,通過協(xié)同迭代訓(xùn)練模塊選取所述關(guān)系三元組聯(lián)合嵌入空間和所述屬性三元組聯(lián)合嵌入空間中語義距離最小的一對實(shí)體組成實(shí)體對,根據(jù)預(yù)設(shè)距離閾值判斷所述實(shí)體對是否為新的對齊實(shí)體對,若是,則將所述實(shí)體對添加到所述實(shí)體對齊種子集以對所述實(shí)體對齊種子集進(jìn)行更新;
S5,對步驟S2、S3、S4進(jìn)行迭代,直至不存在滿足所述預(yù)設(shè)距離閾值的所述實(shí)體對,根據(jù)更新的實(shí)體對齊種子集生成對齊實(shí)體對集合。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述S1還包括:
將統(tǒng)計(jì)的所述多個(gè)知識(shí)圖譜中的實(shí)體、關(guān)系、屬性、屬性值、所述關(guān)系三元組和所述屬性三元組的數(shù)據(jù)由文本轉(zhuǎn)換為數(shù)字,并進(jìn)行編號。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將所述實(shí)體對添加到所述實(shí)體對齊種子集以對所述實(shí)體對齊種子集進(jìn)行更新,包括:
通過參數(shù)共享方法對實(shí)體、所述關(guān)系三元組和所述屬性三元組中的實(shí)體進(jìn)行更新以更新所述實(shí)體對齊種子集。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語義距離計(jì)算公式為:
其中,E(e1,e2)為實(shí)體對e1和e2的語義距離,E1和E2為不同知識(shí)圖譜中實(shí)體集,e1為E1中的未對齊實(shí)體,e2為E2中的未對齊實(shí)體,||e1-e2||L1/L2為采用L1范式或L2范式計(jì)算的e1到e2的距離運(yùn)算,L1/L2為采用L1范式或L2范式計(jì)算距離。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)距離閾值判斷所述實(shí)體對是否為新的對齊實(shí)體對,包括:
若則實(shí)體對e1和為所述新的對齊實(shí)體對,否則,則不是所述新的對齊實(shí)體對,其中,e1和為不同知識(shí)圖譜中的未對齊實(shí)體,為實(shí)體對e1和的語義距離,θ為所述預(yù)設(shè)距離閾值。
6.一種基于翻譯模型的協(xié)同迭代聯(lián)合實(shí)體對齊裝置,其特征在于,包括:
處理模塊,用于獲取多個(gè)知識(shí)圖譜,通過數(shù)據(jù)預(yù)處理模塊對所述多個(gè)知識(shí)圖譜進(jìn)行處理,以統(tǒng)計(jì)所述多個(gè)知識(shí)圖譜中的實(shí)體、關(guān)系、屬性、屬性值、關(guān)系三元組和屬性三元組各個(gè)數(shù)據(jù),根據(jù)預(yù)設(shè)的頻率選擇方法對所述關(guān)系三元組和所述屬性三元組中的實(shí)體進(jìn)行選擇生成實(shí)體對齊種子集;
第一嵌入模塊,用于通過關(guān)系三元組聯(lián)合嵌入模塊基于所述翻譯模型的知識(shí)表示學(xué)習(xí)方法對統(tǒng)計(jì)的實(shí)體、關(guān)系和所述關(guān)系三元組進(jìn)行嵌入,生成關(guān)系三元組聯(lián)合嵌入空間;
第二嵌入模塊,用于通過屬性三元組聯(lián)合嵌入模塊基于翻譯模型的知識(shí)表示學(xué)習(xí)方法對統(tǒng)計(jì)的實(shí)體、屬性、屬性值和所述屬性三元組進(jìn)行嵌入,生成屬性三元組聯(lián)合嵌入空間;
更新模塊,用于通過協(xié)同迭代訓(xùn)練模塊選取所述關(guān)系三元組聯(lián)合嵌入空間和所述屬性三元組聯(lián)合嵌入空間中語義距離最小的一對實(shí)體組成實(shí)體對,根據(jù)預(yù)設(shè)距離閾值判斷所述實(shí)體對是否為新的對齊實(shí)體對,若是,則將所述實(shí)體對添加到所述實(shí)體對齊種子集以對所述實(shí)體對齊種子集進(jìn)行更新;
迭代模塊,用于通過迭代直至不存在滿足所述預(yù)設(shè)距離閾值的所述實(shí)體對,根據(jù)更新的實(shí)體對齊種子集生成對齊實(shí)體對集合。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京郵電大學(xué),未經(jīng)北京郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910380017.7/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種保護(hù)敏感資源描述框架數(shù)據(jù)的方法、裝置及系統(tǒng)
- 一種存儲(chǔ)資源描述框架數(shù)據(jù)的方法和裝置
- 采用知識(shí)圖譜推薦供求信息的方法和裝置
- 知識(shí)圖譜表示學(xué)習(xí)方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 三元組獲取方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)
- 語義行業(yè)術(shù)語
- 基于碎片化知識(shí)下的卷積嵌入表示推理方法
- 三元組預(yù)測模型生成方法、關(guān)系三元組提取方法和裝置
- 基于結(jié)構(gòu)化上下文信息的知識(shí)圖譜預(yù)訓(xùn)練方法
- 一種結(jié)合命名實(shí)體識(shí)別的開放域信息抽取方法
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法





