[發明專利]實體抽取方法、實體抽取模型的訓練方法、裝置及設備有效
| 申請號: | 202010101702.4 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111324696B | 公開(公告)日: | 2023-03-14 |
| 發明(設計)人: | 許澤柯 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/36 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 祝亞男 |
| 地址: | 518057 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 抽取 方法 模型 訓練 裝置 設備 | ||
1.一種實體抽取方法,其特征在于,所述方法包括:
獲取屬于短文本領域的電子文檔;
運行實體抽取模型對所述電子文檔進行序列標注處理,得到所述電子文檔中的實體數據;
輸出所述電子文檔中的實體數據;
其中,所述實體抽取模型是采用對抗式多任務訓練得到的神經網絡模型,所述多任務包括主任務和輔任務,所述主任務是對短文本領域的電子文檔進行實體抽取的第一序列標注任務,所述輔任務是對屬于另一所述短文本領域的電子文檔進行序列標注的第二序列標注任務。
2.根據權利要求1所述的方法,其特征在于,所述實體抽取模型包括:主任務層和共享網絡層,所述主任務層是對所述主任務進行訓練得到的神經網絡層,所述共享網絡層是采用所述主任務和所述輔任務訓練的得到的。
3.根據權利要求2所述的方法,其特征在于,所述共享網絡層包括共享特征層和共享HighWay層;
所述主任務層包括:主任務輸入層、主任務HighWay層和主任務序列標注層;其中,
所述主任務輸入層的輸出與所述共享特征層的輸入相連,所述主任務HighWay層的輸入和所述共享特征層的輸出相連,所述主任務HighWay層的輸出與所述主任務序列標注層的第一輸入相連,所述共享HighWay層的輸出與所述主任務序列標注層的第二輸入相連。
4.根據權利要求3所述的方法,其特征在于,所述運行實體抽取模型對所述電子文檔進行序列標注處理,包括:
通過所述主任務輸入層將所述電子文檔輸入至所述共享特征層;
通過所述共享特征層,得到所述電子文檔的特征向量;
通過所述主任務HighWay層對所述特征向量進行映射處理,得到主任務映射向量;以及,通過所述共享HighWay層對所述特征向量進行映射處理,得到共享映射向量;
通過所述主任務序列標注層對所述主任務映射向量和所述共享映射向量進行序列標注處理,得到所述電子文檔的序列標注結果。
5.根據權利要求4所述的方法,其特征在于,所述共享特征層包括:共享嵌入層和共享特征提取層;
所述通過所述共享特征層,得到所述電子文檔的特征向量,包括:
通過所述共享嵌入層對所述電子文檔進行詞嵌入,得到所述電子文檔的嵌入向量;
通過所述共享特征提取層對所述嵌入向量進行特征提取,得到所述電子文檔的特征向量。
6.根據權利要求1至5任一所述的方法,其特征在于,所述短文本領域包括:簡歷、合同、新聞、微博、病例中的至少一種。
7.一種實體抽取模型的訓練方法,其特征在于,所述方法包括:
獲取主任務樣本數據,所述主任務樣本數據是短文本領域的第一序列標注數據;
獲取輔任務樣本數據,所述輔任務樣本數據是屬于另一所述短文本領域的第二序列標注數據;
采用所述主任務樣本數據和所述輔任務樣本數據,對所述實體抽取模型進行對抗式多任務訓練,得到訓練后的所述實體抽取模型。
8.根據權利要求7所述的方法,其特征在于,所述實體抽取模型包括:共享網絡層、共享使用所述共享網絡層的主任務層和輔任務層、與所述共享網絡層相連的梯度反轉層和判別器;
所述采用所述主任務樣本數據和所述輔任務樣本數據,對所述實體抽取模型進行對抗式多任務訓練,得到訓練后的所述實體抽取模型,包括:
采用所述主任務樣本數據,對所述主任務層和所述共享網絡層進行主任務訓練;
采用所述輔任務樣本數據,對所述輔任務層和所述共享網絡層進行輔任務訓練;
采用樣本數據對所述共享網絡層、所述梯度反轉層和所述判別器進行對抗式多任務訓練,所述樣本數據是所述主任務樣本數據和所述輔任務樣本數據中的一種;
響應于所述主任務訓練、所述輔任務訓練和所述對抗式多任務訓練滿足預設條件,得到訓練后的所述實體抽取模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010101702.4/1.html,轉載請聲明來源鉆瓜專利網。





