[發(fā)明專利]跨語言領(lǐng)域知識圖譜構(gòu)建方法及裝置在審
| 申請?zhí)枺?/td> | 202011507796.1 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112487213A | 公開(公告)日: | 2021-03-12 |
| 發(fā)明(設(shè)計)人: | 李涓子;劉丁梟;侯磊;張鵬;唐杰;許斌 | 申請(專利權(quán))人: | 清華大學(xué) |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/289 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 楊明月 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 語言 領(lǐng)域 知識 圖譜 構(gòu)建 方法 裝置 | ||
本發(fā)明提供一種跨語言領(lǐng)域知識圖譜構(gòu)建方法及裝置,所述方法包括:獲取目標(biāo)領(lǐng)域?qū)?yīng)的至少兩種語言的種子詞匯;利用所述至少兩種語言的種子詞匯,進(jìn)行詞匯擴展,直至擴展得到的詞匯數(shù)量滿足預(yù)設(shè)條件,獲得所述至少兩種語言的擴展詞匯;對所述至少兩種語言的擴展詞匯執(zhí)行交叉補充操作,獲得所述目標(biāo)領(lǐng)域的相關(guān)詞匯;從現(xiàn)有數(shù)據(jù)庫中提取所述相關(guān)詞匯對應(yīng)的原始數(shù)據(jù);對所述原始數(shù)據(jù)進(jìn)行知識圖譜的構(gòu)建,生成所述目標(biāo)領(lǐng)域的知識圖譜。本發(fā)明實現(xiàn)了適用于任何領(lǐng)域的跨語言領(lǐng)域知識圖譜的構(gòu)建方法,知識圖譜的構(gòu)建過程中無需依賴該特定領(lǐng)域的專家知識和行業(yè)調(diào)研才能實現(xiàn),可有效提升知識圖譜的構(gòu)建效率,節(jié)省人力物力。
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種跨語言領(lǐng)域知識圖譜構(gòu)建方法及裝置。
背景技術(shù)
知識圖譜是存儲知識的數(shù)據(jù)庫,知識圖譜是由谷歌公司在2012年正式提出的概念,它的主要目的是在面對互聯(lián)網(wǎng)高速發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)爆炸增長的時代,增強搜索效率,完善用戶體驗。知識圖譜憑借其卓越的語義處理技術(shù)和互聯(lián)性,為信息智能應(yīng)用建立了基礎(chǔ),廣泛運用于搜索、問答、情報分析等方面,促進(jìn)信息技術(shù)從信息服務(wù)向知識服務(wù)發(fā)展。近幾年,各行各業(yè)都在研究將知識圖譜應(yīng)用于專業(yè)領(lǐng)域,更好的服務(wù)特定領(lǐng)域。
但是目前知識圖譜的構(gòu)建需要基于特定領(lǐng)域的某一語言的原始數(shù)據(jù),不能實現(xiàn)跨語言的知識圖譜構(gòu)建,并需要借助該特定領(lǐng)域的專家知識和行業(yè)調(diào)研才能實現(xiàn),會耗費較多的人力物力。
發(fā)明內(nèi)容
本發(fā)明提供一種跨語言領(lǐng)域知識圖譜構(gòu)建方法及裝置,用以解決現(xiàn)有知識圖譜的構(gòu)建需要基于特定領(lǐng)域的某一語言的原始數(shù)據(jù),不能實現(xiàn)跨語言的知識圖譜構(gòu)建,并需要借助該特定領(lǐng)域的專家知識和行業(yè)調(diào)研才能實現(xiàn),會耗費較多的人力物力的缺陷。
本發(fā)明提供一種跨語言領(lǐng)域知識圖譜構(gòu)建方法,包括:
獲取目標(biāo)領(lǐng)域?qū)?yīng)的至少兩種語言的種子詞匯;
利用所述至少兩種語言的種子詞匯,進(jìn)行詞匯擴展,直至擴展得到的詞匯數(shù)量滿足預(yù)設(shè)條件,獲得所述至少兩種語言的擴展詞匯;
對所述至少兩種語言的擴展詞匯執(zhí)行交叉補充操作,獲得所述目標(biāo)領(lǐng)域的相關(guān)詞匯;
從現(xiàn)有數(shù)據(jù)庫中提取所述相關(guān)詞匯對應(yīng)的原始數(shù)據(jù);
對所述原始數(shù)據(jù)進(jìn)行知識圖譜的構(gòu)建,生成所述目標(biāo)領(lǐng)域的知識圖譜。
根據(jù)本發(fā)明提供的一種跨語言領(lǐng)域知識圖譜構(gòu)建方法,所述對所述至少兩種語言的擴展詞匯執(zhí)行交叉補充操作,獲得所述目標(biāo)領(lǐng)域的相關(guān)詞匯,包括:
獲取所述至少兩種語言的擴展詞匯的交集數(shù)據(jù),將所述交集數(shù)據(jù)作為所述目標(biāo)領(lǐng)域的相關(guān)詞匯;或者,
獲取所述至少兩種語言的擴展詞匯的并集數(shù)據(jù),將所述并集數(shù)據(jù)作為所述目標(biāo)領(lǐng)域的相關(guān)詞匯;或者,
將所述至少兩種語言的擴展詞匯進(jìn)行優(yōu)先級排序,將排序后的擴展詞匯作為所述目標(biāo)領(lǐng)域的相關(guān)詞匯。
根據(jù)本發(fā)明提供的一種跨語言領(lǐng)域知識圖譜構(gòu)建方法,所述對所述原始數(shù)據(jù)進(jìn)行知識圖譜的構(gòu)建,生成所述目標(biāo)領(lǐng)域的知識圖譜,包括:
對所述原始數(shù)據(jù)進(jìn)行預(yù)處理,獲得經(jīng)過預(yù)處理后的目標(biāo)數(shù)據(jù);
基于所述經(jīng)過預(yù)處理后的目標(biāo)數(shù)據(jù),執(zhí)行知識建模操作,獲得概念數(shù)據(jù)、不同概念之間的上下位關(guān)系和概念屬性數(shù)據(jù);
基于所述經(jīng)過預(yù)處理后的目標(biāo)數(shù)據(jù),執(zhí)行知識獲取操作,獲得實例數(shù)據(jù)、實例與概念之間的關(guān)系以及實例屬性數(shù)據(jù);
根據(jù)所述概念數(shù)據(jù)、不同概念之間的上下位關(guān)系和概念屬性數(shù)據(jù),以及實例數(shù)據(jù)、實例與概念之間的關(guān)系以及實例屬性數(shù)據(jù),執(zhí)行知識融合操作,生成所述目標(biāo)領(lǐng)域的知識圖譜。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于清華大學(xué),未經(jīng)清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011507796.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識圖譜的構(gòu)建方法、裝置、知識圖譜系統(tǒng)及設(shè)備
- 一種基于知識圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲介質(zhì)
- 一種用于創(chuàng)建知識圖譜的計算機設(shè)備
- 一種支持增量實體關(guān)聯(lián)的關(guān)系圖譜計算方法





