[發明專利]命名實體識別方法、命名實體識別模型的訓練方法及裝置有效
| 申請號: | 201910200009.X | 申請日: | 2019-03-15 |
| 公開(公告)號: | CN109902307B | 公開(公告)日: | 2023-06-02 |
| 發明(設計)人: | 李長亮;侯昶宇;汪美玲;唐劍波 | 申請(專利權)人: | 北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/08 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 孫翠賢;高鶯然 |
| 地址: | 100085 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 模型 訓練 裝置 | ||
本發明實施例提供了一種命名實體識別方法,方法包括:獲取待進行命名實體識別的目標文本;將目標文本輸入到預設的命名實體識別模型中,得到目標文本的命名實體識別結果;其中,命名實體識別模型為采用訓練樣本和訓練樣本的標注信息訓練得到的;命名實體識別模型包括:長短期記憶網絡LSTM層;其中,LSTM層對訓練樣本中除前兩個字以外的每一個字的處理過程包括:如果訓練樣本中該字之前的內容存在詞語,對該字的字向量、該字的上一個字的初始特征向量和所存在詞語的詞向量進行特征提取,得到該字的初始特征向量。與現有技術相比,應用本發明實施例提供的方法,對文本進行命名實體識別時,可以提高得到的識別結果的準確率。
技術領域
本發明涉及計算機技術領域,特別是涉及命名實體識別方法、命名實體識別模型的訓練方法及裝置。
背景技術
當前,命名實體識別任務的需求越來越多,例如,問答系統、機器翻譯系統等。所謂命名實體識別(Named?Entity?Recognition,NER)又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。
其中,基于訓練得到的命名實體識別模型來執行命名實體識別任務,是一種常用的方式。該命名實體識別模型可以包括用于提取文本中各個字的特征向量的LSTM(LongShort-Term?Memory,長短期記憶網絡)層、用于基于各個字的初始特征向量提取各個字的深度特征向量的中間層和用于對所述中間層的輸出內容進行類別標定的輸出層。
相關技術中,在對命名實體識別模型進行訓練時,LSTM層對訓練樣本處理過程,包括:獲取該訓練樣本中的每個字的字向量;針對第一個字,基于該字的字向量提取該字的特征向量;針對除第一個字以外的任一個字,基于該字的字向量和上一個字的特征向量,提取該字的特征向量。
然而,在上述相關技術中,由于LSTM層的處理過程中忽略了訓練樣本所包括各個字的詞序信息,從而沒有學習到訓練樣本的整體特征,因此,采用上述相關技術中訓練得到的命名實體識別模型對文本進行命名實體識別時,得到的識別結果的準確率較低。
發明內容
本發明實施例的目的在于提供一種命名實體識別方法、裝置、電子設備、計算機可讀存儲介質及芯片,以及一種命名實體識別模型的訓練方法、裝置、電子設備、計算機可讀存儲介質及芯片,以提高識別結果準確率。
具體技術方案如下:
第一方面,本發明實施例提供了一種命名實體識別方法,所述方法包括:
獲取待進行命名實體識別的目標文本;
將所述目標文本輸入到預設的命名實體識別模型中,得到所述目標文本的命名實體識別結果;
其中,所述命名實體識別模型為采用訓練樣本和所述訓練樣本的標注信息訓練得到的模型;所述命名實體識別模型包括:長短期記憶網絡LSTM層;
其中,所述LSTM層對所述訓練樣本中的每一個字的處理過程包括:
針對所述訓練樣本中的第一個字,對該字的字向量進行特征提取,得到該字的初始特征向量;
針對所述訓練樣本中的第二個字,對該字的字向量和該字的上一個字的初始特征向量進行特征提取,得到該字的初始特征向量;
針對所述訓練樣本中除前兩個字以外的每一個字,如果所述訓練樣本中該字之前的內容存在詞語,對該字的字向量、該字的上一個字的初始特征向量和所存在詞語的詞向量進行特征提取,得到該字的初始特征向量;否則,對該字的字向量和該字的上一個字的初始特征向量進行特征提取,得到該字的初始特征向量。
可選的,一種具體實現方式中,所述LSTM層對該字的字向量、該字的上一個字的初始特征向量和所存在詞語的詞向量進行特征提取,得到該字的初始特征向量的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司,未經北京金山數字娛樂科技有限公司;成都金山互動娛樂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910200009.X/2.html,轉載請聲明來源鉆瓜專利網。





