[發明專利]深度學習模型的訓練方法和裝置在審
| 申請號: | 202110197789.4 | 申請日: | 2021-02-22 |
| 公開(公告)號: | CN114970527A | 公開(公告)日: | 2022-08-30 |
| 發明(設計)人: | 譚傳奇;劉坤;黃非;陳漠沙;黃松芳 | 申請(專利權)人: | 阿里巴巴集團控股有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京展翼知識產權代理事務所(特殊普通合伙) 11452 | 代理人: | 張陽 |
| 地址: | 英屬開曼群島大開*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 深度 學習 模型 訓練 方法 裝置 | ||
1.一種命名實體識別模型的訓練方法,包括:
獲得訓練數據,所述訓練數據包括至少一個詞語及其對應的標簽;
獲得所述詞語的損失函數;以及
如果所述詞語的損失函數在所述訓練數據中達到預設目標,則使用所述詞語及其對應的標簽對所述命名實體識別模型進行訓練。
2.如權利要求1所述的方法,其中,所述訓練數據包括多個詞語的情況下,所述方法還包括:
根據多個詞語分別對應的標簽,將所述多個詞語分為正例集合和負例集合;
相應的:
如果所述多個詞語中的第一詞語屬于正例集合,且所述第一詞語的損失函數在所述正例集合的詞語中達到第一預設目標,則使用所述第一詞語及其對應的標簽對所述命名實體識別模型進行訓練;
如果所述多個詞語中的第二詞語屬于負例集合,且所述第二詞語的損失函數在所述負例集合的詞語中達到第二預設目標,則使用所述第二詞語及其對應的標簽對所述命名實體識別模型進行訓練。
3.如權利要求2所述的方法,其中,所述方法還包括:
如果所述第一詞語屬于正例集合,但所述第一詞語的損失函數在所述正例集合的詞語中未達到第一預設目標,則將所述第一詞語標記為噪聲正例;
如果所述第二詞語屬于負例集合,但所述第二詞語的損失函數在所述負例集合的詞語中未達到第二預設目標,則將所述第二詞語標記為噪聲負例;以及
不使用所述噪聲正例和所述噪聲負例所對應的標簽對所述命名實體識別模型進行訓練。
4.如權利要求2所述的方法,其中,所述使用所述詞語及其對應的標簽對所述命名實體識別模型進行訓練,包括:
使用所述第一詞語及其對應的標簽,以及所述第二詞語及其對應的標簽,對所述命名實體識別模型進行訓練。
5.如權利要求1所述的方法,其中,獲得所述詞語的損失函數包括:
基于命名實體識別模型及其當前參數計算當前批次中包含的所述詞語的損失函數。
6.如權利要求5所述的方法,還包括:
獲取下一批次的訓練數據;
基于當前模型參數獲取所述下一批次訓練數據中包含的詞語的損失函數;
如果所述下一批次訓練數據中包含的詞語的損失函數在所述訓練數據中達到預設目標,則使用達到預設目標的詞語及其對應的標簽對所述命名實體識別模型進行訓練,以更新模型參數。
7.如權利要求6所述的方法,其中,獲取多個批次的訓練數據以分別進行如權利要求1所述的訓練,多個批次的訓練完成一個訓練時期;以及
對所述模型進行多個訓練時期的訓練。
8.如權利要求5所述的方法,其中,基于命名實體識別模型及其當前參數計算當前批次中包含的所述詞語的損失函數包括:
基于命名實體識別模型及其當前參數計算當前批次中包含的所述詞語的交叉熵損失函數。
9.如權利要求1所述的方法,其中,所述詞語的損失函數在所述訓練數據中達到預設目標包括:
選取損失函數前R%小的所述詞匯,其中,R根據所述訓練數據中預估的噪聲標簽占比τ確定。
10.如權利要求8所述的方法,其中,所述R的取值在所述所述命名實體識別模型的訓練過程中逐漸減小。
11.如權利要求1所述的方法,其中,所述命名實體識別模型利用雙向長短時記憶(BiLSTM)神經網絡,并使用條件隨機場(CRF)作為用于更新參數的損失函數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于阿里巴巴集團控股有限公司,未經阿里巴巴集團控股有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110197789.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:連續管疲勞損耗預警方法及裝置
- 下一篇:一種直流分壓器異常檢測方法





