[發明專利]一種實體識別模型訓練的方法以及相關裝置有效
| 申請號: | 202010413102.1 | 申請日: | 2020-05-15 |
| 公開(公告)號: | CN111597804B | 公開(公告)日: | 2023-03-10 |
| 發明(設計)人: | 鄭孫聰;原雯 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙) 44285 | 代理人: | 聶秀娜 |
| 地址: | 518064 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 模型 訓練 方法 以及 相關 裝置 | ||
本申請公開了一種實體識別模型訓練的方法以及相關裝置,涉及人工智能的自然語言處理技術,可以應用于智能問答的過程中。通過獲取實體訓練數據;并識別實體訓練數據中的實體信息;然后基于實體信息抽取關聯信息,以生成訓練序列,關聯信息基于至少一個維度信息確定,維度信息基于實體信息的語義特征所得;進而根據訓練序列訓練識別模型,識別模型用于對實體信息進行識別。由于識別模型基于實體信息所得,其關聯信息復雜度較低,減少了模型訓練的任務量;且由于訓練序列中的相關性高,提高了實體識別模型識別過程的準確性。
技術領域
本申請涉及計算機技術領域,尤其涉及一種實體識別模型訓練的方法以及相關裝置。
背景技術
自然語言處理(Nature Language Processing,NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系。自然語言處理技術通常包括文本處理、語義理解、機器翻譯、信息檢索、機器人問答系統和知識圖譜等技術。
其中,知識圖譜可以為文本處理、語義理解、機器翻譯、信息檢索、機器人問答系統等多種自然語言處理技術提供知識源,即進行實體識別的過程。一般可以通過判斷句子是否是包含實體定義的句子來確定實體。
但是,由于上述方法在句子識別的過程中比較寬泛,沒有識別出具體的實體及定義信息,容易造成實體識別錯誤,影響實體識別的準確性。
發明內容
有鑒于此,本申請提供一種實體識別模型訓練的方法,可以有效避免由于訓練樣本的原因造成的實體識別錯誤,提高實體識別模型識別過程的準確性。
本申請第一方面提供一種實體識別模型訓練的方法,可以應用于終端設備中包含模型訓練功能的系統或程序中,具體包括:獲取實體訓練數據;
識別所述實體訓練數據中的實體信息;
基于所述實體信息抽取關聯信息,以生成訓練序列,所述關聯信息基于至少一個維度信息確定,所述維度信息基于所述實體信息的語義特征所得;
根據所述訓練序列訓練識別模型,所述識別模型用于對所述實體信息進行識別。
可選的,在本申請一些可能的實現方式中,所述基于所述實體信息抽取關聯信息,以生成訓練序列,包括:
確定所述實體信息中的詞信息;
基于所述詞信息進行關聯,以得到關聯信息;
根據預設規則對所述詞信息和所述關聯信息進行拼接,以生成所述訓練序列,所述預設規則基于所述詞信息的位置確定。
可選的,在本申請一些可能的實現方式中,所述方法還包括:
獲取所述詞信息和所述關聯信息拼接過程中的交叉熵;
根據所述交叉熵獲取第一損失函數,所述第一損失函數用于指示所述識別模型的參數調整。
可選的,在本申請一些可能的實現方式中,所述方法還包括:
基于所述詞信息的位置設置標簽標識;
根據所述標簽標識對所述訓練序列進行更新。
可選的,在本申請一些可能的實現方式中,所述根據所述訓練序列訓練識別模型,包括:
獲取所述實體信息在所述實體訓練數據中的原始定義信息;
基于余弦相似性獲取所述原始定義信息和所述關聯信息的相似度分數;
根據所述相似度分數確定第二損失函數,以對所述識別模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010413102.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種自卸貨集裝箱及運輸裝置
- 下一篇:一種顯示終端的控制方法及顯示終端





