[發明專利]一種基于深度學習的數據實體關系抽取方法在審
| 申請號: | 201910665708.1 | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110399433A | 公開(公告)日: | 2019-11-01 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 福建奇點時空數字科技有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06Q50/26 |
| 代理公司: | 北京勁創知識產權代理事務所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361000 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 抽取 數據實體 訓練數據 標注 知識庫 關系抽取 噪聲 文本對齊 訓練機器 訓練語料 監督 映射 學習 文本 | ||
一種基于深度學習的數據實體關系抽取方法,包括如下步驟:采用開放式實體關系抽取方法獲取訓練數據,借助DBPedia、OpenCyc、YAGO或FreeBase實體知識庫將數據實體關系實例映射到實體知識庫中的大量文本中,通過文本對齊方法獲得訓練數據,獲得的訓練語料中存在噪聲標注;采用有監督的實體關系抽取方法對噪聲標注進行重新標注,并在標注的訓練數據的基礎上訓練機器學習模型;抽取與實體對組合對應的數據實體關系。本發明結合開放式實體關系抽取方法和有監督的實體關系抽取方法進行數據實體關系的抽取,開放式實體關系抽取方法獲取訓練數據效率高,有監督的實體關系抽取方法獲取的訓練數據精確度高,提高了實體關系的抽取效率和精確度。
技術領域
本發明涉及數據處理技術領域,尤其涉及一種基于深度學習的數據實體關系抽取方法。
背景技術
實體關系模型(Entity Relationship Diagram)直接從現實世界中抽象出實體類型和實體間聯系,然后用實體聯系圖(E-R圖)表示數據模型,是描述概念世界,建立概念模型的實用工具,這種數據模型典型的用在信息系統設計的第一階段;比如它們在需求分析階段用來描述信息需求和/或要存儲在數據庫中的信息的類型。但是數據建模技術可以用來描述特定論域的任何本體。在基于數據庫的信息系統設計的情況下,在后面的階段,概念模型要映射到邏輯模型如關系模型上;它依次要在物理設計期間映射到物理模型上。實體關系抽取定義為兩個或多個實體之間的聯系,關系抽取就是自動識別實體之間的某種語義關系。根據數據源的不同,關系抽取分為三類:面向結構化文本的關系抽取、面向非結構化文本的抽取和面向半結構化的文本抽取。基于神經網絡的關系抽取方法的一般步驟是:1、特征表示,將純文本的特征表示為分布式特征表示; 2、神經網絡的構建與高層特征表示;3、模型訓練:利用標注數據優化網絡參數;4、模型分類:利用訓練的模型,對新樣本進行分類,進而完成關系抽取。
在對實體關系進行抽取時,根據對標注數據的依賴程度,實體關系抽取方法被分為有監督學習方法、半監督學習方法、無監督學習方法和開放式抽取方法。有監督學習方法人工標注數據,精確度高,但工作量大;開放式抽取方法獲取訓練數據效率高,但獲取的訓練數據中存在較多的噪聲數據,精確度較差。
發明內容
(一)發明目的
為解決背景技術中存在的技術問題,本發明提出一種基于深度學習的數據實體關系抽取方法,通過結合開放式實體關系抽取方法和有監督的實體關系抽取方法進行數據實體關系的抽取,開放式實體關系抽取方法獲取訓練數據效率高,有監督的實體關系抽取方法獲取的訓練數據精確度高,提高了實體關系的抽取效率和精確度。
(二)技術方案
為解決上述問題,本發明提供了一種基于深度學習的數據實體關系抽取方法,包括如下步驟:
采用開放式實體關系抽取方法獲取訓練數據,借助DBPedia、OpenCyc、YAGO 或FreeBase實體知識庫將數據實體關系實例映射到實體知識庫中的大量文本中,通過文本對齊方法獲得訓練數據,獲得的訓練語料中存在噪聲標注;
采用有監督的實體關系抽取方法對噪聲標注進行重新標注,并在標注的訓練數據的基礎上訓練機器學習模型;
抽取與實體對組合對應的數據實體關系。
優選的,包括如下步驟:
對自然語言文本進行預處理,將文字符號特征表示為分布式特征信息;
構建深度學習網絡訓練集:采集數據中對文本進行處理后的分布式特征信息;
構建實體關系抽取深度學習網絡。
優選的,包括如下步驟:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建奇點時空數字科技有限公司,未經福建奇點時空數字科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910665708.1/2.html,轉載請聲明來源鉆瓜專利網。





