[發明專利]一種基于深度學習的數據實體關系抽取方法在審
| 申請號: | 201910665708.1 | 申請日: | 2019-07-23 |
| 公開(公告)號: | CN110399433A | 公開(公告)日: | 2019-11-01 |
| 發明(設計)人: | 肖清林 | 申請(專利權)人: | 福建奇點時空數字科技有限公司 |
| 主分類號: | G06F16/28 | 分類號: | G06F16/28;G06Q50/26 |
| 代理公司: | 北京勁創知識產權代理事務所(普通合伙) 11589 | 代理人: | 王志敏 |
| 地址: | 361000 福建省廈門市軟件園*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 抽取 數據實體 訓練數據 標注 知識庫 關系抽取 噪聲 文本對齊 訓練機器 訓練語料 監督 映射 學習 文本 | ||
1.一種基于深度學習的數據實體關系抽取方法,其特征在于,包括如下步驟:
采用開放式實體關系抽取方法獲取訓練數據,借助DBPedia、OpenCyc、YAGO或FreeBase實體知識庫將數據實體關系實例映射到實體知識庫中的大量文本中,通過文本對齊方法獲得訓練數據,獲得的訓練語料中存在噪聲標注;
采用有監督的實體關系抽取方法對噪聲標注進行重新標注,并在標注的訓練數據的基礎上訓練機器學習模型;
抽取與實體對組合對應的數據實體關系。
2.根據權利要求1所述的一種基于深度學習的數據實體關系抽取方法,其特征在于,包括如下步驟:
對自然語言文本進行預處理,將文字符號特征表示為分布式特征信息;
構建深度學習網絡訓練集:采集數據中對文本進行處理后的分布式特征信息;
構建實體關系抽取深度學習網絡。
3.根據權利要求2所述的一種基于深度學習的數據實體關系抽取方法,其特征在于,包括如下步驟:
制備數據實體關系特征數據庫:采用開放式實體關系抽取方法獲取訓練數據時,產生合格數據和不合格數據,不合格數據即為存在噪聲標注的數據,再采用有監督的實體關系抽取方法對噪聲標注進行重新標注,以將不合格數據轉化為合格數據,采集上述過程中產生的合格數據,并將合格數據組成數據實體關系特征數據庫;
獲取數據實體關系特征數據庫中存在的實體對組合,以及實體對之間的候選關系,數據實體關系包括一對一、一對多和多對多三種實體關系。
4.根據權利要求1所述的一種基于深度學習的數據實體關系抽取方法,其特征在于,數據實體關系抽取范圍包括句子級別的關系抽取和語料或篇章級的關系抽取。
5.根據權利要求1所述的一種基于深度學習的數據實體關系抽取方法,其特征在于,采用基于傳統機器學習的聯合模型對自然語言處理任務進行聯合學習,聯合模型基于神經網絡的端對端模型同時實現實體抽取和關系抽取,以將實體和實體關系進行結合。
6.根據權利要求1所述的一種基于深度學習的數據實體關系抽取方法,其特征在于,采用基于神經網絡的實體消歧方法對文本和實體的表示進行調整:輸入數據文本,利用深度學習網絡通過預訓練對文本和實體的表示進行微調,以完成實體消歧。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建奇點時空數字科技有限公司,未經福建奇點時空數字科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910665708.1/1.html,轉載請聲明來源鉆瓜專利網。





