[發(fā)明專利]實體嵌入數(shù)據(jù)的提取方法和裝置、電子設(shè)備、存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202111139516.0 | 申請日: | 2021-09-26 |
| 公開(公告)號: | CN113849661A | 公開(公告)日: | 2021-12-28 |
| 發(fā)明(設(shè)計)人: | 司世景;王健宗 | 申請(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 廣州嘉權(quán)專利商標(biāo)事務(wù)所有限公司 44205 | 代理人: | 廖慧賢 |
| 地址: | 518000 廣東省深圳市福田區(qū)福*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實體 嵌入 數(shù)據(jù) 提取 方法 裝置 電子設(shè)備 存儲 介質(zhì) | ||
本公開實施例提供實體嵌入數(shù)據(jù)的提取方法和裝置、電子設(shè)備、存儲介質(zhì),涉及人工智能技術(shù)領(lǐng)域。該實體嵌入數(shù)據(jù)的提取方法,包括:根據(jù)知識圖譜的實體提取至少兩個三元組;其中每一三元組包括實體、屬性和屬性值;將至少兩個三元組的屬性值進(jìn)行拼接,得到文本數(shù)據(jù);將所述文本數(shù)據(jù)映射至嵌入空間,得到初始嵌入數(shù)據(jù);其中,每一屬性值對應(yīng)所述初始嵌入數(shù)據(jù)的維度;對所述初始嵌入數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到正例對;將所述正例對輸入到預(yù)設(shè)的對比學(xué)習(xí)模型中進(jìn)行訓(xùn)練,得到目標(biāo)嵌入數(shù)據(jù),通過本公開實施例提供的技術(shù)方案可以提高實體嵌入數(shù)據(jù)的質(zhì)量。
技術(shù)領(lǐng)域
本發(fā)明涉及人工智能技術(shù)領(lǐng)域,尤其涉及實體嵌入數(shù)據(jù)的提取方法和裝置、電子設(shè)備和存儲介質(zhì)。
背景技術(shù)
在構(gòu)建知識圖譜的過程中,往往需要將文本向量化,因此基于文本數(shù)據(jù)的Word2Vec應(yīng)運(yùn)而生,Word2Vec通過淺神經(jīng)網(wǎng)絡(luò)語言模型將每個詞用一個向量表示,通過構(gòu)建輸入層、映射層和輸出層,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)可預(yù)測在該詞上下文中出現(xiàn)概率最大的詞語;通過對文本詞庫的訓(xùn)練將文本轉(zhuǎn)化為n維向量空間中的向量,并通過在空間中的余弦相似度代表詞語在語義上的接近程度。傳統(tǒng)的Word2Vec方法得到的詞向量往往存在一定的缺陷,例如無法很好的區(qū)分同義詞、近義詞等文本問題,得到的嵌入數(shù)據(jù)(embedding)質(zhì)量往往都不是很高,該方法得到的embedding應(yīng)用在下游任務(wù)中會使下游任務(wù)的質(zhì)量大打折扣。
發(fā)明內(nèi)容
本公開實施例的主要目的在于提出一種實體嵌入數(shù)據(jù)的提取方法和裝置、電子設(shè)備和存儲介質(zhì),提高實體嵌入數(shù)據(jù)的質(zhì)量。
為實現(xiàn)上述目的,本公開實施例的第一方面提出了一種實體嵌入數(shù)據(jù)的提取方法,包括:
根據(jù)知識圖譜的實體提取至少兩個三元組;其中每一三元組包括實體、屬性和屬性值;
將至少兩個三元組的屬性值進(jìn)行拼接,得到文本數(shù)據(jù);
將所述文本數(shù)據(jù)映射至嵌入空間,得到初始嵌入數(shù)據(jù);其中,每一屬性值對應(yīng)所述初始嵌入數(shù)據(jù)的維度;
對所述初始嵌入數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到正例對;
將所述正例對輸入到預(yù)設(shè)的對比學(xué)習(xí)模型中進(jìn)行訓(xùn)練,得到目標(biāo)嵌入數(shù)據(jù)。
在一些實施例,所述對所述初始嵌入數(shù)據(jù)進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到正例對,包括:
根據(jù)所述初始嵌入數(shù)據(jù)得到第一樣本數(shù)據(jù)和第二樣本數(shù)據(jù);其中,所述初始嵌入數(shù)據(jù)、所述一樣本數(shù)據(jù)和所述第二樣本數(shù)據(jù)相同;
將所述第一樣本數(shù)據(jù)輸入至dropout編碼器進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到第一向量;
將所述第二樣本數(shù)據(jù)輸入至dropout編碼器進(jìn)行數(shù)據(jù)增強(qiáng)處理,得到第二向量;其中,所述第一向量與所述第二向量不同;
根據(jù)所述第一向量與所述第二向量形成所述正例對。
在一些實施例,所述將所述正例對輸入到預(yù)設(shè)的對比學(xué)習(xí)模型中進(jìn)行訓(xùn)練,得到目標(biāo)嵌入數(shù)據(jù),包括:
將所述正例對輸入到所述對比學(xué)習(xí)模型;
通過所述對比學(xué)習(xí)模型的損失函數(shù)計算出所述正例對的第一相似度和負(fù)例對的第二相似度;
根據(jù)所述第一相似度和所述第二相似度對所述對比學(xué)習(xí)模型的損失函數(shù)進(jìn)行優(yōu)化,以更新所述對比學(xué)習(xí)模型;
通過更新后的對比學(xué)習(xí)模型輸出所述目標(biāo)嵌入數(shù)據(jù)。
在一些實施例,所述第一相似度和所述第二相似度均為余弦相似度,所述根據(jù)所述第一相似度和所述第二相似度對所述對比學(xué)習(xí)模型的損失函數(shù)進(jìn)行優(yōu)化,包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111139516.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





