[發明專利]關系抽取模型的建立方法以及關系抽取方法有效
| 申請號: | 202011309475.0 | 申請日: | 2020-11-20 |
| 公開(公告)號: | CN112364166B | 公開(公告)日: | 2022-02-01 |
| 發明(設計)人: | 周玉 | 申請(專利權)人: | 北京中科凡語科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/295;G06N3/04;G06N3/08 |
| 代理公司: | 北京庚致知識產權代理事務所(特殊普通合伙) 11807 | 代理人: | 韓德凱;李曉輝 |
| 地址: | 100190 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 關系 抽取 模型 建立 方法 以及 | ||
本公開提供了關系抽取模型建立方法,包括:對標注出實體、實體類別及關系類別的文本樣本進行預處理;抽取出標注后的文本樣本中包含相同實體對的多個語句作為一個語句包,獲取文本樣本的語句包組;基于文本樣本的實體有向無環圖以及標注出的文本樣本的實體,獲取每個實體的候選實體類別以及候選實體類別的父類別;基于文本樣本的關系有向無環圖以及每個實體的候選實體類別及父類別,獲取實體對的候選關系以及候選關系的父關系;使用TextCNN獲取多層多分類損失;使用分層注意力網絡獲取分層注意力損失;基于分層多分類損失、分層注意力損失構建關系抽取模型,以標注出的關系類別作為訓練目標對關系抽取模型進行訓練。
技術領域
本公開涉及一種關系抽取模型的建立方法以及關系抽取方法,屬于自然語言處理、信息抽取技術領域。
背景技術
隨著通信技術和互聯網技術的飛速發展,每天在網絡上產生的數據爆炸式增長,使用字符串索引和檢索數據時正在遇到越來越多的噪聲,如何使用語義定義數據,從海量數據中高效地獲取有價值的信息和知識逐漸成為日益迫切的需求,將數據自動結構化,去偽存真,將數據中的信息轉化為經驗證的知識是自然語言處理領域的一個難題。
在這個背景下,以語義形式定義、以知識方式存儲的知識圖譜應運而生。現存的很多大規模知識圖譜例如Wikipedia和Freebase等,利用三元組作為語義單元結構化地存儲了現實世界的知識。其中三元組的獲取就依賴于信息抽取技術,一般分為實體抽取、關系抽取或聯合抽取。
三元組由兩個實體和一個關系組成,實體是一類指代各種具體事物的專有名詞,例如人名和地名,關系則指兩種實體對的內在聯系,例如“中國的首都是北京”。實體在待抽取的原文中可以找到實體指稱項,而關系一般較為抽象,很多時候在原文中沒有顯式地表明,例如“我喜歡讀魯迅的《朝花夕拾》”,暗含了“魯迅是《朝花夕拾》的作者”這樣的關系。目前,關系抽取作為三元組抽取的重要組成部分得到了廣泛的應用,是從自然語言文本中按照語義結構化數據的重要方法。
現有的關系抽取都基于有監督分類的方式,需要大量的人工標注數據,高質量標注數據往往成為關系抽取的瓶頸。針對這個問題,基于遠程監督的關系抽取方法提出可以通過對純文本和知識庫之間進行交互來自動產生訓練數據和抽取結果。但是,這種遠程監督產生的訓練數據存在一個嚴重的問題,就是產生的訓練數據噪音非常嚴重,因為并不是所有的包含兩個實體的句子都會反映他們兩者之間的關系。傳統方法往往構建大量的特征工程,盡可能減少錯標和漏標,或者使用一些神經網絡結構從單一的實體方面或關系方面來解決問題。
發明內容
為了解決上述技術問題中的至少一個,本公開提供一種關系抽取模型的建立方法、關系抽取方法、關系抽取模型的建立裝置、關系抽取裝置、電子設備以及可讀存儲介質。
本公開的關系抽取模型的建立方法、關系抽取方法、關系抽取模型的建立裝置、關系抽取裝置、電子設備以及可讀存儲介質通過以下技術方案實現。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京中科凡語科技有限公司,未經北京中科凡語科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011309475.0/2.html,轉載請聲明來源鉆瓜專利網。





