[發明專利]一種結合序列文本信息的知識圖譜表示學習方法及裝置在審
| 申請號: | 201610852672.4 | 申請日: | 2016-09-26 |
| 公開(公告)號: | CN107871158A | 公開(公告)日: | 2018-04-03 |
| 發明(設計)人: | 劉知遠;孫茂松;吳佳煒;謝若冰;林衍凱 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08;G06F17/27 |
| 代理公司: | 北京路浩知識產權代理有限公司11002 | 代理人: | 李相雨 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 序列 文本 信息 知識 圖譜 表示 學習方法 裝置 | ||
技術領域
本發明屬于自然語言處理和信息抽取領域,具體涉及一種結合序列文本信息的知識圖譜表示學習方法及裝置。
背景技術
在社會飛速發展的背景下,人類現在處于信息爆炸的時代,每天都會有海量的實體知識和信息產生。這些信息廣泛分布在互聯網上,并且通常以文字或者圖片等非結構化的形式產生并存儲。然而,隨著用戶對互聯網上有效信息篩選與歸納的需求日益增加,如何從海量數據中獲取有價值的信息成為一個難題。于是,知識圖譜應運而生。
知識圖譜將世界上所有的具象事物(如人物、地名、書名、球隊名等專有名詞)與抽象概念表示為實體,將實體之間內在的交互聯系表示為關系,旨在構建一個結構化信息的數據庫。在典型的知識圖譜中,實體與實體之間的關系被構建成一張巨大的圖,其中圖中的節點表示實體,而圖中的邊表示實體間的關系,因此世界的海量知識被表示為實體之間利用關系作為橋梁的三元關系組。例如,針對北京是中國的首都這一知識,在知識圖譜就利用三元關系組(北京,是……首都,中國)進行表示。傳統的自然語言處理存在歧義性的問題,而在知識圖譜的構建過程中,一個關鍵詞對應的不同語義(如蘋果對應的水果語義和科技公司的語義)有著不同的實體。知識圖譜通過三元關系組記錄了實體之間的內在聯系以及實體內在的屬性,因此被廣泛運用于信息檢索、問答系統和數據挖掘等多個領域。
由于知識圖譜中實體數量龐大,但實體之間的利用關系相對較少,知識圖譜網絡存在嚴重的結構稀疏性問題,同時也存在著知識信息不完整的問題。并且隨著信息在極短的時間內不斷增加,實體之間的關系也不斷進行更新與變化,僅靠人工維護與更新信息難以擔當重任。因此,知識圖譜的表示與自動補全成為當今重要的研究熱點。
近年來,表示學習在知識圖譜上的運用獲得了巨大的成功,顯著提高了知識圖譜的表示與自動補全性能。表示學習使用分布式表示方法,將實體與關系映射到低維連續向量空間中,解決了之前知識圖譜表示學習中的稀疏性問題,同時也提高了效率,其中基于轉化的模型表現最為突出。但是,現有的知識圖譜表示學習方法往往只考慮知識圖譜三元組關系本身。考慮到實體本身是從語料文本中提取的,這些現有的表示學習方法忽略了語料庫中豐富的包含實體的序列文本信息,因此限制了知識圖譜的表示性能。
發明內容
本發明所要解決的技術問題是如何提供一種結合序列文本信息的知識圖譜表示學習方法,解決現有技術中存在的未能充分利用語料庫中包含實體的序列文本信息的問題,以提高知識圖譜的表示性能。
針對以上技術問題,本發明提供了一種結合序列文本信息的知識圖譜表示學習方法,包括:
S1:獲取知識圖譜中的三元組關系,所述三元組關系的頭實體和尾實體,并從語料庫中獲取僅包含所述頭實體的至少一個第一參考語句和僅包含所述尾實體的至少一個第二參考語句;
S2:針對每一個所述第一參考語句和每一個所述第二參考語句,采用循環神經網絡或長短時記憶網絡構建所述第一參考語句對應的第一最終向量表示,所述第二參考語句對應的第二最終向量表示;
S3:根據所述頭實體對應的基于結構向量表示和至少一個所述第一最終向量表示,采用注意力模型得到所述頭實體的基于文本向量表示,并根據所述尾實體對應的基于結構向量表示和至少一個所述第二最終向量表示,采用注意力模型得到所述尾實體的基于文本向量表示;
S4:根據所述頭實體基于結構向量表示和基于文本向量表示、所述尾實體基于結構向量表示和基于文本向量表示,以及所述頭實體和尾實體的關系向量表示,構建能量方程;
S5:根據所述能量方程構建基于邊際的評價函數,通過最小化所述評價函數,學習所述頭實體和尾實體的基于結構向量表示、基于文本的向量表示以及關系向量表示。
可選地,所述步驟S2包括:
將所述語料庫中的每一個單詞轉化為一個詞向量矩陣中的詞向量,其中,所述詞向量包括用于表示所述單詞語法和語義向量以及用于表示所述單詞相對于所述頭實體或者尾實體的位置的向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610852672.4/2.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





