[發明專利]命名實體識別方法、命名實體識別模型的訓練方法及裝置有效
| 申請號: | 201910200009.X | 申請日: | 2019-03-15 |
| 公開(公告)號: | CN109902307B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 李長亮;侯昶宇;汪美玲;唐劍波 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/08 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 孫翠賢;高鶯然 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 模型 訓練 裝置 | ||
1.一種命名實體識別方法,其特征在于,所述方法包括:
獲取待進行命名實體識別的目標文本;
將所述目標文本輸入到預設的命名實體識別模型中,得到所述目標文本的命名實體識別結果;
其中,所述命名實體識別模型為采用訓練樣本和所述訓練樣本的標注信息訓練得到的模型;所述命名實體識別模型包括:長短期記憶網絡LSTM層;
其中,所述LSTM層對所述訓練樣本中的每一個字的處理過程包括:
針對所述訓練樣本中的第一個字,對該字的字向量進行特征提取,得到該字的初始特征向量;
針對所述訓練樣本中的第二個字,對該字的字向量和該字的上一個字的初始特征向量進行特征提取,得到該字的初始特征向量;
針對所述訓練樣本中除前兩個字以外的每一個字,如果所述訓練樣本中該字之前的內容存在詞語,判斷所存在詞語中,是否包含該字對應的目標詞,所述目標詞為:在該字之前,且與該字相鄰的詞語;如果存在,對該字的字向量、該字的上一個字的初始特征向量和所存在詞語的詞向量進行特征提取,得到該字的初始特征向量;否則,對該字的字向量和該字的上一個字的初始特征向量進行特征提取,得到該字的初始特征向量。
2.根據權利要求1所述的方法,其特征在于,所述LSTM層針對所述訓練樣本的每一個字,在提取該字的初始特征向量之前,還包括:
獲取所述訓練樣本中,以該字作為第一個字的多個文字組合,其中,每一文字組合為所述訓練樣本中連續且少于預定數量的各個字的組合;
針對每一文字組合,判斷預設的詞語庫中是否存在該文字組合,如果存在,判定該文字組合為詞語。
3.根據權利要求1或2所述的方法,其特征在于,所述命名實體識別模型還包括中間層,所述中間層為膨脹卷積層。
4.一種命名實體識別模型的訓練方法,其特征在于,所述方法包括:
獲得待利用的訓練樣本和所述訓練樣本的標注信息;
基于所述訓練樣本和所述訓練樣本的標注信息,對所述命名實體識別模型中的各個網絡層進行訓練,得到訓練完成的命名實體識別模型;
其中,所述各個網絡層包括長短期記憶網絡LSTM層,所述LSTM層對所述訓練樣本中的每一個字的處理過程包括:
針對所述訓練樣本中的第一個字,對該字的字向量進行特征提取,得到該字的初始特征向量;
針對所述訓練樣本中的第二個字,對該字的字向量和該字的上一個字的初始特征向量進行特征提取,得到該字的初始特征向量;
針對所述訓練樣本中除前兩個字以外的每一個字,如果所述訓練樣本中該字之前的內容存在詞語,判斷所存在詞語中,是否包含該字對應的目標詞,所述目標詞為:在該字之前,且與該字相鄰的詞語;如果存在,對該字的字向量、該字的上一個字的初始特征向量和所存在詞語的詞向量進行特征提取,得到該字的初始特征向量;否則,對該字的字向量和該字的上一個字的初始特征向量進行特征提取,得到該字的初始特征向量。
5.根據權利要求4所述的方法,其特征在于,所述LSTM層針對所述訓練樣本的每一個字,在提取該字的初始特征向量之前,還包括:
獲取所述訓練樣本中,以該字作為第一個字的多個文字組合,其中,每一文字組合為所述訓練樣本中連續且少于預定數量的各個字的組合;
針對每一文字組合,判斷預設的詞語庫中是否存在該文字組合,如果存在,判定該文字組合為詞語。
6.根據權利要求4或5所述的方法,其特征在于,所述各個網絡層還包括中間層,所述中間層為膨脹卷積層。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司,未經北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910200009.X/1.html,轉載請聲明來源鉆瓜專利網。





