[發明專利]跨語言知識單元遷移方法、裝置、存儲介質及終端在審
| 申請號: | 202110693347.9 | 申請日: | 2021-06-22 |
| 公開(公告)號: | CN113590578A | 公開(公告)日: | 2021-11-02 |
| 發明(設計)人: | 吳旭;吳京宸;頡夏青;管子鍵;邱莉榕;楊金翠;孫利娟;張勇東 | 申請(專利權)人: | 北京郵電大學 |
| 主分類號: | G06F16/21 | 分類號: | G06F16/21;G06F16/28;G06F16/36;G06F16/35 |
| 代理公司: | 北京辰權知識產權代理有限公司 11619 | 代理人: | 李小朋 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語言 知識 單元 遷移 方法 裝置 存儲 介質 終端 | ||
本發明公開了一種跨語言知識單元遷移方法,包括:獲取兩種不同語言各自的知識圖譜,并獲取兩種不同語言對應的跨語言知識對齊種子庫;針對知識圖譜中不同語義層次的知識單元建模后得到第一建模結果;針對知識圖譜中同一語義層次的知識單元建模后得到第二建模結果;將第一建模結果與第二建模結果拼接后,生成拼接結果;根據拼接結果以及跨語言知識對齊種子庫,并通過對齊模型的損失函數將知識單元各自的向量空間進行線性轉換,生成轉換后的知識單元;計算轉換后的知識單元的距離和置信度進行跨語言知識單元遷移。因此,由于本申請通過對知識單元的語義層次進行建模,并對不同語言的向量空間進行線性轉換,從而可以實現跨語言知識單元的遷移。
技術領域
本發明涉及自然語言處理技術領域,特別涉及一種跨語言知識單元遷移方法、裝置、存儲介質及終端。
背景技術
伴隨互聯網的發展,數據信息量爆炸式增長,數據冗雜,規模龐大,為解決這一系列問題,旨在描述現實世界中存在的實體以及實體之間關系的知識圖譜技術孕育而生。為了獲得更加完善的知識圖譜,可以采用將多個不同語言知識庫融合的方法,得到一個包含更多信息和實體的多語言的知識圖譜。在這種知識圖譜中存在一些已知的跨語言鏈接,將多種語言指向的同一實體連接起來,即實體對齊。例如在中文知識圖譜中有一個實體“海上鋼琴師”,英文知識圖譜中有一個實體“TheLegendof1900”,如果僅是通過英漢翻譯,他們得到的意思并不相同,但這兩個知識單元實際都是指向的同一個電影,即他們是等同的知識單元。但是這些跨語言鏈接并不是大量存在于知識圖譜中,仍然有許多不同語言的知識單元對之間并沒有這樣的鏈接。因此現在有大量工作在于研究多語言之間知識單元遷移問題,旨在找到更優的跨語言知識圖譜知識單元遷移方法。
不同語種知識在互聯網中深度融合,形成的多語言知識庫一方面彌補了單語言知識圖譜知識不完備的問題,另一方面又為不同語言的知識重疊和知識互補研究帶來了新的挑戰。因此將遷移學習的思想就利用到跨語言知識圖譜研究中,其核心思想是利用已知的跨語言對齊語料,基于語義特征表示和跨語言遷移模型來實現從一種語言到另一種語言的遷移學習,構建出語義豐富的跨語言知識圖譜(Cross-lingual Knowledge Graphs)。跨語言知識圖譜作為大數據時代的知識引擎,能夠提升數據獲取速率,降低知識應用門檻,提高知識利用效率,更好地服務于人工智能的各個領域??缯Z言知識圖譜存儲兩方面的知識:一是單語知識(Monolingual Knowledge),以三元組形式記錄的實體、關系、描述信息等,二是跨語言知識關聯(Cross-lingual Knowledge Association),用于匹配人類語言中的單一語言知識。而對跨語言領域知識的遷移更有助于多語言者工作學習和網絡空間的內容治理。
近年來,基于嵌入的技術越來越收到研究者的關注,受詞嵌入的啟發,知識圖譜嵌入是將實體、屬性和關系等編碼到一個低維的空間中,表示為向量(或矩陣、張量),通過嵌入之間轉換關系的有效計算,完成對知識遷移。雖然基于嵌入的技術可以幫助提高單語知識的完整性,但對于跨語言知識在很大程度上還未被深度探索,匹配同一實體的語際鏈接(Inter-Lingual Links,ILLs)和表示相同關系的三元組對齊(Triple-Wise Alignment,TWA)問題,都對解決多語言知識庫的知識融合和獨立演化問題有著巨大幫助,因此,不少研究者投身于跨語言知識的遷移學習中。找到一種通用且易于掌握的技術來實現跨語言知識遷移是十分必要的,由于以下幾個原因,使得這種語際知識轉換比單語實體鏈接更加困難:(1)各語言表達習慣和書寫方式的不同;(2)各語言實體含義范圍不盡相同;(3)跨語言已知對齊知識只占知識庫的一小部分。
發明內容
本申請實施例提供了一種跨語言知識單元遷移方法、裝置、存儲介質及終端。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現一些概念,以此作為后面的詳細說明的序言。
第一方面,本申請實施例提供了一種跨語言知識單元遷移方法,方法包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學,未經北京郵電大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110693347.9/2.html,轉載請聲明來源鉆瓜專利網。





