[發明專利]一種文本知識提取方法、裝置、設備及存儲介質在審
| 申請號: | 201910178007.5 | 申請日: | 2019-03-08 |
| 公開(公告)號: | CN109871542A | 公開(公告)日: | 2019-06-11 |
| 發明(設計)人: | 王濤;王靜;張凡龍 | 申請(專利權)人: | 廣東工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 羅滿 |
| 地址: | 510060 廣東省*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 圖譜 文本知識 結構化信息 描述信息 知識表示 構建 可讀存儲介質 表示數據 存儲介質 結構信息 描述數據 模型構建 潛在關系 實體結構 提取裝置 細節描述 信息融合 置信度 單詞 挖掘 名字 補充 幫助 | ||
本發明公開了一種基于知識圖譜的文本知識提取方法,涉及知識圖譜技術領域,為每個實體構建兩種表示數據,基于結構的表示以及基于描述的表示,將實體結構化數據與實體描述數據進行信息融合,基于結構的表示能夠挖掘實體名字中有相同單詞的相似實體之間可能存在的潛在關系,而描述表示能夠作為知識圖譜中置信度較高的結構化信息的輔助幫助模型構建更準確的知識表示,將實體的描述信息與知識圖譜自身的結構信息結合起來,充分考慮了實體描述信息中深入的細節描述作為知識圖譜中已有結構化信息的輔助與補充,構建了更全面的知識表示。本發明還公開了一種基于知識圖譜的文本知識提取裝置、設備及一種可讀存儲介質,具有上述有益效果。
技術領域
本發明涉及知識圖譜技術領域,特別涉及一種基于知識圖譜的文本知識提取方法、裝置、設備及可讀存儲介質。
背景技術
知識圖譜是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系,其基本組成單位是【實體—關系—實體】三元組,以及實體及其【相關屬性—值】對,實體之間通過關系相互聯結,構成網狀的知識結構。作為人工智能時代最重要的知識表示方式之一,知識圖譜能夠使得企業能夠通過互聯網便利地獲取用戶們更為廣泛的反饋信息,目前知識圖譜廣泛應用于用戶興趣分析中。
用戶興趣通常分布在Web上的不同系統中,在分析用戶興趣時需要基于原始數據進行文本信息的獲取,根據獲取的文本信息進行進一步數據分析。相關技術中知識表示學習的方法主要集中在用戶興趣的結構化信息分析中,但基于結構性信息對于在分布式環境中獲得用戶興趣的相對完整描述不是非常有效。
因此,如何提升文本信息提取能力,提升知識表示學習的性能,是本領域技術人員需要解決的技術問題。
發明內容
本發明的目的是提供一種基于知識圖譜的文本知識提取方法,該方法嵌入多源信息很好地作為知識圖譜中已有結構化信息的輔助與補充,提供更加深入的細節描述,提升了知識表示學習的性能;本發明的另一目的是提供一種基于知識圖譜的文本知識提取裝置、設備及一種可讀存儲介質。
為解決上述技術問題,本發明提供一種基于知識圖譜的文本知識提取方法,包括:
對輸入的知識圖譜進行數據篩選,得到實體描述的文本信息;
將所述實體描述的文本信息輸入至描述表示構建模型進行基于描述的知識表示的構建,生成實體描述數據;其中,所述描述表示構建模型為預訓練的基于神經網絡的描述編碼器;
將根據所述知識圖譜提取的實體結構化數據與所述實體描述數據進行信息融合,得到融合數據,并將所述融合數據作為所述知識圖譜數據的知識表示。
可選地,將所述實體描述的文本信息輸入至描述表示構建模型進行基于描述的知識表示的構建,包括:
對所述實體描述的文本信息進行數據預處理,得到待處理詞向量;其中,所述數據預處理包括:非可用詞剔除以及詞向量構建;
將所述待處理詞向量通過卷積層進行數據特征提取,得到卷積輸出向量;
將所述卷積輸出向量通過池化層進行下采樣,得到實體描述數據。
可選地,所述池化層包括最大池化層以及平均池化層;則將所述卷積輸出向量通過池化層進行下采樣,包括:
將所述待處理詞向量通過最大池化層進行最大池化,得到第一池化輸出向量;
將所述初始池化輸出向量通過所述平均池化層進行均值池化,得到第二池化輸出向量,并將所述第二池化輸出向量作為所述實體描述數據。
可選地,將根據所述知識圖譜提取的實體結構化數據與所述實體描述數據進行信息融合,包括:
將根據所述知識圖譜數據預先提取實體結構化數據以及所述實體描述數據映射至同一向量空間,得到結構向量以及描述向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東工業大學,未經廣東工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910178007.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于多語言多領域的命名實體識別方法
- 下一篇:一種意圖獲取方法及系統





