[發明專利]一種基于表示學習的知識庫實體分類的計算方法有效
| 申請號: | 201710608234.8 | 申請日: | 2017-07-24 |
| 公開(公告)號: | CN107545033B | 公開(公告)日: | 2020-12-01 |
| 發明(設計)人: | 李涓子;侯磊;金海龍;張鵬 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06F40/30 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王瑩;李官 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 表示 學習 知識庫 實體 分類 計算方法 | ||
1.一種基于表示學習的知識庫實體分類的計算方法,其特征在于,包括:
A:對于給定類別標注的知識庫中的實體,構造詞語-詞語、實體-詞語、類別-詞語、實體-類別一共4個層次的共現網絡,將語義信息整合到4個異構的共現網絡中;
B:基于所述4個異構的共現網絡,利用基于網絡的表示學習算法,學習得到每個實體和類別的向量表示;
C:基于所述實體和類別的向量表示,利用學習排序算法,學習實體和類別的映射矩陣,將實體和類別映射到同一個語義空間中;
D:根據所述向量表示和所述映射矩陣,計算實體和類別之間的相似度,利用自頂向下的搜索方法,給未標注的實體分配類別路徑。
2.根據權利要求1所述的方法,其特征在于,所述步驟A包括:
A1:構造word-word共現網絡Gww,用于描述在實體描述中詞語級別的共現信息,形式化地表示為Gww=(V,Eww),每個結點代表一個word,邊上地權重ωij表示兩個詞在文本中的共現次數;
A2:構造entity-word共現網絡Gew,是一個由entity和word構成的二分圖,形式化地表示為Gew=(ε∪V,Eew),邊上地權重ωij表示一個詞語wj在一個實體ei的文本描述中出現的次數;
A3:構造type-word共現網絡Gtw,是一個由type和word構成的二分圖,形式化地表示為邊上地權重ωij表示一個詞語wj在一個類型ti中出現的次數;
A4:構造entity-type共現網絡Get,是一個由entity和type構成的二分圖,形式化地表示為實體ei和類別tj之間存在一條邊ωij=1,當且僅當實體ei屬于類別tj;
其中,ωij表示一條邊上的權重;wi表示一個詞語;ti表示一個類別;ei表示一個實體;Gww表示詞語-詞語共現網絡;V表示所有詞語的集合;Eww表示詞語-詞語共現網絡中邊的集合;Gew表示實體-詞語共現網絡;ε表示所有實體的集合;Eew表示實體-詞語共現網絡中邊的集合;Gtw表示類別-詞語共現網絡;表示所有類別的集合;Etw表示類別-詞語共現網絡中邊的集合;Get表示實體-類別共現網絡;Eet表示實體-類別共現網絡中邊的集合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710608234.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種氨茶堿粒型原料藥的生產方法
- 下一篇:預處理酯交換反應系統





