[發明專利]跨語言領域知識圖譜構建方法及裝置在審
| 申請號: | 202011507796.1 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112487213A | 公開(公告)日: | 2021-03-12 |
| 發明(設計)人: | 李涓子;劉丁梟;侯磊;張鵬;唐杰;許斌 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 楊明月 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 領域 知識 圖譜 構建 方法 裝置 | ||
1.一種跨語言領域知識圖譜構建方法,其特征在于,包括:
獲取目標領域對應的至少兩種語言的種子詞匯;
利用所述至少兩種語言的種子詞匯,進行詞匯擴展,直至擴展得到的詞匯數量滿足預設條件,獲得所述至少兩種語言的擴展詞匯;
對所述至少兩種語言的擴展詞匯執行交叉補充操作,獲得所述目標領域的相關詞匯;
從現有數據庫中提取所述相關詞匯對應的原始數據;
對所述原始數據進行知識圖譜的構建,生成所述目標領域的知識圖譜。
2.根據權利要求1所述的跨語言領域知識圖譜構建方法,其特征在于,所述對所述至少兩種語言的擴展詞匯執行交叉補充操作,獲得所述目標領域的相關詞匯,包括:
獲取所述至少兩種語言的擴展詞匯的交集數據,將所述交集數據作為所述目標領域的相關詞匯;或者,
獲取所述至少兩種語言的擴展詞匯的并集數據,將所述并集數據作為所述目標領域的相關詞匯;或者,
將所述至少兩種語言的擴展詞匯進行優先級排序,將排序后的擴展詞匯作為所述目標領域的相關詞匯。
3.根據權利要求1所述的跨語言領域知識圖譜構建方法,其特征在于,所述對所述原始數據進行知識圖譜的構建,生成所述目標領域的知識圖譜,包括:
對所述原始數據進行預處理,獲得經過預處理后的目標數據;
基于所述經過預處理后的目標數據,執行知識建模操作,獲得概念數據、不同概念之間的上下位關系和概念屬性數據;
基于所述經過預處理后的目標數據,執行知識獲取操作,獲得實例數據、實例與概念之間的關系以及實例屬性數據;
根據所述概念數據、不同概念之間的上下位關系和概念屬性數據,以及實例數據、實例與概念之間的關系以及實例屬性數據,執行知識融合操作,生成所述目標領域的知識圖譜。
4.根據權利要求3所述的跨語言領域知識圖譜構建方法,其特征在于,所述基于所述經過預處理后的目標數據,執行知識建模操作,獲得概念數據、不同概念之間的上下位關系和概念屬性數據,包括:
基于所述經過預處理后的目標數據,執行概念獲取操作,獲得概念數據;
基于所述經過預處理后的目標數據,執行概念上下文生成操作,獲得不同概念之間的上下位關系;
基于所述經過預處理后的目標數據,執行概念屬性獲取操作,獲得概念屬性數據。
5.根據權利要求3所述的跨語言領域知識圖譜構建方法,其特征在于,所述基于所述經過預處理后的目標數據,執行知識獲取操作,獲得實例數據、實例與概念之間的關系以及實例屬性數據,包括:
基于所述經過預處理后的目標數據,執行實例抽取操作,獲得實例數據;
基于所述經過預處理后的目標數據,執行實例分類操作,獲得實例與概念之間的關系;
基于所述經過預處理后的目標數據,執行實例屬性抽取操作,獲得實例屬性數據。
6.根據權利要求3所述的跨語言領域知識圖譜構建方法,其特征在于,所述根據所述概念數據、不同概念之間的上下位關系和概念屬性數據,以及實例數據、實例與概念之間的關系以及實例屬性數據,執行知識融合操作,生成所述目標領域的知識圖譜,包括:
根據所述概念數據、不同概念之間的上下位關系和概念屬性數據,以及實例數據、實例與概念之間的關系以及實例屬性數據,執行概念融合操作,實現概念層數據對齊;
根據所述概念數據、不同概念之間的上下位關系和概念屬性數據,以及實例數據、實例與概念之間的關系以及實例屬性數據,執行實例融合操作,實現實例層數據對齊;
根據所述概念數據、不同概念之間的上下位關系和概念屬性數據,以及實例數據、實例與概念之間的關系以及實例屬性數據,執行關系融合操作,實現概念和概念之間的關系、概念和實例之間的關系以及實例和實例之間的關系的對齊,生成所述目標領域的知識圖譜。
7.根據權利要求3所述的跨語言領域知識圖譜構建方法,其特征在于,所述對所述原始數據進行預處理,獲得經過預處理后的目標數據,包括:
對所述原始數據進行摘要截取、正文截取和/或信息框截取,獲得經過預處理后的目標數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011507796.1/1.html,轉載請聲明來源鉆瓜專利網。





