[發明專利]實體抽取方法、實體抽取模型的訓練方法、裝置及設備有效
| 申請號: | 202010101702.4 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111324696B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 許澤柯 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 抽取 方法 模型 訓練 裝置 設備 | ||
本申請公開了一種實體抽取方法、實體抽取模型的訓練方法、裝置及設備,涉及人工智能技術領域。該方法包括:獲取屬于短文本領域的電子文檔;運行實體抽取模型對電子文檔進行序列標注處理,得到電子文檔中的實體數據;存儲電子文檔中的實體數據;其中,實體抽取模型是采用對抗式多任務訓練得到的神經網絡模型,多任務包括主任務和輔任務,主任務是對短文本領域的電子文檔進行實體抽取的第一序列標注任務,輔任務是對屬于另一短文本領域的電子文檔進行序列標注的第二序列標注任務。本申請引入了輔任務對該實體抽取模型進行聯合訓練,增加了訓練的樣本量,提升了實體抽取模型的訓練效果,從而進一步加強了對電子文檔進行實體抽取的準確率。
技術領域
本申請涉及人工智能技術領域,特別涉及一種實體抽取方法、實體抽取模型的訓練方法、裝置及設備。
背景技術
隨著人工智能技術的發展,人們需要處理的數據量激增。如何快速高效地從開放領域的文本中抽取出有效信息,成為擺在人們面前的重要問題。實體抽取或者說命名實體識別(Named Entity Recognition,NER),是文本挖掘和信息抽取的核心任務。
實體抽取任務,主要是通過對文本信息建模,自動抽取出文本信息中的實體,并分類為預先定義的類別。在進行特定領域的實體抽取任務時,比如簡歷的實體抽取任務,相關技術的技術方案采用基于深度學習模型的方式來實現。深度學習模型是采用訓練樣本訓練得到的模型。
然而相關技術中的方案,通常會面臨樣本量不足的情況。在樣本量不足的情況下,深度學習模型無法得到充分訓練,導致簡歷的實體抽取結果不夠準確。
發明內容
本申請實施例提供了一種實體抽取方法、實體抽取模型的訓練方法、裝置及設備,通過運用采用對抗式多任務訓練得到的實體抽取模型對屬于短文本領域的電子文檔進行序列標注處理,提升了實體抽取結果的準確性。所述技術方案如下:
根據本申請的一個方面,提供了一種實體抽取方法,所述方法包括:
獲取屬于短文本領域的電子文檔;
運行實體抽取模型對所述電子文檔進行序列標注處理,得到所述電子文檔中的實體數據;
輸出所述電子文檔中的實體數據;
其中,所述實體抽取模型是采用對抗式多任務訓練得到的神經網絡模型,所述多任務包括主任務和輔任務,所述主任務是對短文本領域的電子文檔進行實體抽取的第一序列標注任務,所述輔任務是對屬于另一所述短文本領域的電子文檔進行實體抽取的第二序列標注任務。
根據本申請的一個方面,提供了一種實體抽取模型的訓練方法,所述方法包括:
獲取主任務樣本數據,所述主任務樣本數據是短文本領域的第一序列標注數據;
獲取輔任務樣本數據,所述輔任務樣本數據是屬于另一所述短文本領域的第二序列標注數據;
采用所述主任務樣本數據和所述輔任務樣本數據,對所述實體抽取模型進行對抗式多任務訓練,得到訓練后的所述實體抽取模型。
根據本申請的一個方面,提供了一種實體抽取裝置,所述裝置包括:獲取模塊、處理模塊和輸出模塊;
所述獲取模塊,被配置為獲取屬于短文本領域的電子文檔;
所述處理模塊,被配置為運行實體抽取模型對所述電子文檔進行序列標注處理,得到所述電子文檔中的實體數據;
所述存儲模塊,被配置為輸出所述電子文檔中的實體數據;
其中,所述實體抽取模型是采用對抗式多任務訓練得到的神經網絡模型,所述多任務包括主任務和輔任務,所述主任務是對短文本領域的電子文檔進行實體抽取的第一序列標注任務,所述輔任務是對屬于另一所述短文本領域的電子文檔進行實體抽取的第二序列標注任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010101702.4/2.html,轉載請聲明來源鉆瓜專利網。





