[發明專利]一種面向中文文本的端到端實體關系聯合抽取方法在審
| 申請號: | 201910659195.3 | 申請日: | 2019-07-22 |
| 公開(公告)號: | CN110472235A | 公開(公告)日: | 2019-11-19 |
| 發明(設計)人: | 徐汕;胡博欽;張晶亮;梁炬;謝水庚;郝志強;職亮亮 | 申請(專利權)人: | 北京航天云路有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06N3/04 |
| 代理公司: | 11210 北京紐樂康知識產權代理事務所(普通合伙) | 代理人: | 劉艷艷<國際申請>=<國際公布>=<進入 |
| 地址: | 100039 北京市海淀區西*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 中文文本 實體關系 抽取 構建 端到端 自動化 非結構化文本 三元組信息 標簽序列 人工標注 人工審核 數據標注 詞向量 三元組 數據集 聯合 分詞 建模 工業產品 學習 句子 標注 圖譜 應用 中文 | ||
本發明公開了一種面向中文文本的端到端實體關系聯合抽取方法,該方法從百度百科中獲得工業產品相關數據,再進行人工標注和人工審核;對標注好的數據集進行分詞,包括其中的句子和實體關系信息,使用Word2Vec方法構建詞向量,構建端到端的深度學習模型來生成標簽序列,所述端到端的深度學習模型為CNN?LSTM模型。本發明的面向中文文本的端到端實體關系聯合抽取方法首次將深度學習應用在中文文本的實體?關系聯合抽取問題中,使用的數據標注方法能夠直接對三元組進行建模,從而從非結構化文本中提取出三元組信息,能夠應用于海量中文文本的知識自動化抽取,為中文知識圖譜自動化構建提供基礎。
技術領域
本發明涉及自然語言處理技術領域,具體來說,涉及一種面向中文文本的端到端實體關系聯合抽取方法。
背景技術
實體和關系抽取是信息抽取的關鍵任務,指的是從非結構化文本中提取出實體并識別它們的語義關系。作為知識庫構建中的關鍵步驟,實體及其關系的抽取方法主要分為兩類:一類是串聯抽取方法,另一類是聯合抽取方法。其中,傳統的串聯抽取就是首先進行實體抽取,然后進行關系識別。這種串聯的方法易于實現,而且各個模塊靈活度比較高。但是這種管道方法沒有考慮到實體識別和關系預測的相關性,而且實體識別的結果會影響到關系識別的結果,所以容易產生誤差累積。
聯合抽取方法使用一個模型同時實現實體抽取和關系抽取,能更好的整合實體及其關系之間的信息。而且現有的聯合抽取方法也存在諸多問題,比如:大部分的聯合抽取模型需要經過復雜的特征工程,由人工參與構建特征,并且嚴重依賴于已有的NLP工具。其中“實體提及和關系的增量聯合提取”(計算協會第52屆年會論文集(第一卷:長篇論文),402–412頁)及“用表格表示的實體與關系聯合提取模型”(2014年自然語言處理經驗方法會議論文集,1858-1869頁)是基于結構預測方法;麻省理工學院出版社出版的《通過線性規劃公式進行實體和關系識別的全局推理》(Global Inference for Entity and RelationIdentification via a Linear Programming Formulation,)及“精細意見提取的聯合推理”(計算語言學協會第51屆年會論文集(第一卷:長篇論文),1640-1649頁)使用整數線性規劃法;“基于紙牌金字塔解析的實體與關系聯合提取”(第14屆計算自然語言學習會議論文集,203-212頁)中提出紙牌金字塔解析法;“用圖形模型方法聯合識別實體和提取百科全書文本中的關系”(Coling 2010:Posters,1399–1407頁)、“實體、關系和共指的聯合推理”(2013年自動化知識庫建設專題討論會論文集,1-6頁)等使用全局的概率圖模型。
近年來,隨著深度學習在許多NLP任務上的成功,神經網絡也被廣泛應用于實體、關系事實的提取。2016年“基于LSTM的序列和樹結構端到端關系提取”(計算語言學協會第54屆年會論文集)為了減少人工抽取特征工作,提出了基于神經網絡的端到端模型,因在模型實現過程中分開抽取實體及其關系而導致信息冗余等問題。“用于聯合實體和關系提取的表格填充多任務遞歸神經網絡”(Proceedings of COLING,2537–2547頁)、“基于全局優化的端到端神經關系提取”(2017年自然語言處理經驗方法會議論文集,1730-1740頁)等也利用端到端的模型將關系抽取問題轉化為表格填充問題。但是目前絕大多數方法都是以英文數據為基礎的,在中文數據方面,利用深度學習對實體-關系聯合抽取的研究還很匱乏。
發明內容
針對相關技術中的上述技術問題,本發明提出一種面向中文文本的端到端實體關系聯合抽取方法,能夠克服現有技術的上述不足。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種面向中文文本的端到端實體關系聯合抽取方法,包括以下步驟:
從百度百科中獲得工業產品相關數據,再進行人工標注和人工審核;
對標注好的數據集進行分詞,包括其中的句子和實體關系信息,使用Word2Vec方法構建詞向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京航天云路有限公司,未經北京航天云路有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910659195.3/2.html,轉載請聲明來源鉆瓜專利網。





