[發明專利]一種基于多種語言的實體關系抽取方法及服務器有效
| 申請號: | 201710322534.X | 申請日: | 2017-05-09 |
| 公開(公告)號: | CN107273349B | 公開(公告)日: | 2019-11-22 |
| 發明(設計)人: | 孫茂松;林衍凱;劉知遠 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/36 |
| 代理公司: | 11002 北京路浩知識產權代理有限公司 | 代理人: | 王瑩<國際申請>=<國際公布>=<進入國 |
| 地址: | 100084 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多種 語言 實體 關系 抽取 方法 服務器 | ||
本發明公開一種基于多種語言的實體關系抽取方法及服務器。其中,所述方法包括:在多種語言中獲取待抽取關系的兩個實體以及在每種語言中第一預設數量的與所述兩個實體相關的句子,并構建每個與兩個實體相關的句子的向量表示;根據某一種語言中每個與兩個實體相關的句子的向量表示以及預設的兩個實體間的關系的向量表示,獲得所述某一種語言中與兩個實體相關的句子相對于多種語言中任意一種語言的綜合向量表示;根據各個所述綜合向量表示以及預先建立的關系抽取模型,在所述預設的兩個實體間的關系中抽取兩個實體間的關系。所述服務器用于執行上述方法。本發明提供的基于多種語言的實體關系抽取方法及服務器,提高了兩個實體間關系抽取的準確性。
技術領域
本發明涉及信息處理技術領域,具體涉及一種基于多種語言的實體關系抽取方法及服務器。
背景技術
隨著社會飛速發展,我們已經進入信息爆炸時代,每天都會有海量新的實體與信息產生。互聯網作為當今最為便捷的信息獲取平臺,用戶對有效信息篩選與歸納的需求日益迫切,如何從海量數據中獲取有價值的信息成為一個難題。
為了結構化地對現實世界的知識進行存儲和處理,人們建立了很多大規模的知識圖譜,例如Wikidata和Dbpedia等。知識圖標將世界上所有人物、地名、機構名等專有名詞與事物表示為實體,將實體之間的內在聯系表示為關系,旨在將數據庫中的海量知識表示為實體之間的利用關系,例如,“紐約是美國的一座城市”這一知識,在知識圖譜中則利用三元組關系(紐約,是……的一座城市,美國)進行表示,“紐約”和“美國”為實體,“是……的一座城市”為關系。目前,關系抽取作為一種從自然文本中抽取有結構數據的方法,得到了廣泛應用。現有關系抽取都需要大量的人工標注數據,非常的耗時耗力。針對這個問題,基于遠程監督的關系抽取方法提出可以通過對純文本和知識庫之間進行對其來自動產生訓練數據。但是,這種遠程監督產生的訓練數據存在一個嚴重的問題,就是產生的訓練數據噪音非常嚴重,因為并不是所有的包含兩個實體的句子都會反映他們兩者之間的關系。為了降低噪聲,傳統非神經網絡的方法通常通過概率圖模型的方法優化句子與兩個實體關系之間關系。而上述關系抽取的方法,專注于在單語言數據上進行關系抽取,并沒有涉及到對多語言數據進行關系提取。
因此,如何提出一種方法,能夠基于多種語言資源,提高兩個實體間關系抽取的準確性成為業界亟待解決的重要課題。
發明內容
針對現有技術中的缺陷,本發明提供一種基于多種語言的實體關系抽取方法及服務器。
一方面,本發明提出一種基于多種語言的實體關系抽取方法,包括:
在多種語言中獲取待抽取關系的兩個實體以及在每種語言中第一預設數量的與所述兩個實體相關的句子,并構建每個與所述兩個實體相關的句子的向量表示;
根據某一種語言中每個與所述兩個實體相關的句子的向量表示以及預設的所述兩個實體間的關系的向量表示,獲得所述某一種語言中與所述兩個實體相關的句子相對于所述多種語言中任意一種語言的綜合向量表示;
根據各個所述綜合向量表示以及預先建立的關系抽取模型,在所述預設的所述兩個實體間的關系中抽取所述兩個實體間的關系。
另一方面,本發明提供一種服務器,包括:
第一構建單元,用于在多種語言中獲取待抽取關系的兩個實體以及在每種語言中第一預設數量的與所述兩個實體相關的句子,并構建每個與所述兩個實體相關的句子的向量表示;
第一獲得單元,用于根據某一種語言中每個與所述兩個實體相關的句子的向量表示以及預設的所述兩個實體間的關系的向量表示,獲得所述某一種語言中與所述兩個實體相關的句子相對于所述多種語言中任意一種語言的綜合向量表示;
抽取單元,用于根據各個所述綜合向量表示以及預先建立的關系抽取模型,在所述預設的所述兩個實體間的關系中抽取所述兩個實體間的關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710322534.X/2.html,轉載請聲明來源鉆瓜專利網。





