[發明專利]自然語言處理方法及其模型的獲取方法、裝置、存儲介質在審
| 申請號: | 202011583809.3 | 申請日: | 2020-12-28 |
| 公開(公告)號: | CN113515943A | 公開(公告)日: | 2021-10-19 |
| 發明(設計)人: | 秦禹嘉;林衍凱;高信龍一;劉知遠;李鵬;周杰 | 申請(專利權)人: | 清華大學;騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/35;G06F16/33;G06F16/332;G06F40/58;G06N3/08 |
| 代理公司: | 北京三高永信知識產權代理有限責任公司 11138 | 代理人: | 鄭曉玉 |
| 地址: | 100084*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 自然語言 處理 方法 及其 模型 獲取 裝置 存儲 介質 | ||
1.一種自然語言處理方法,其特征在于,所述方法包括:
獲取目標文本,所述目標文本包括至少一個實體;
獲取目標自然語言處理模型,所述目標自然語言處理模型為基于基礎處理模型的實體預測損失值和實體關系預測損失值對所述基礎處理模型進行更新得到的模型,所述實體預測損失值基于所述基礎處理模型預測的各個實體的相似度確定,所述實體關系預測損失值基于所述基礎處理模型預測的各個實體對的關系相似度確定,其中,每個所述實體對包括兩個實體;
將所述目標文本輸入所述目標自然語言處理模型,得到所述目標自然語言處理模型輸出的處理結果。
2.一種自然語言處理模型的獲取方法,其特征在于,所述方法包括:
獲取多個第一訓練樣本和多個第二訓練樣本,每個所述第一訓練樣本包括一個實體對,每個所述第二訓練樣本包括兩個實體對,所述實體對包括兩個實體;
將所述多個第一訓練樣本輸入至基礎處理模型,得到所述基礎處理模型的實體預測損失值,所述實體預測損失值基于所述基礎處理模型預測的各個所述第一訓練樣本中兩個實體的相似度確定;
將所述多個第二訓練樣本輸入至所述基礎處理模型,得到所述基礎處理模型的實體關系預測損失值,所述實體關系預測損失值基于所述基礎處理模型預測的各個所述第二訓練樣本中兩個實體對的關系相似度確定;
基于所述實體預測損失值和所述實體關系預測損失值,更新所述基礎處理模型的參數,得到目標自然語言處理模型。
3.根據權利要求2所述的方法,其特征在于,所述多個第一訓練樣本包括:從第一文檔集合包括的多個第一文檔中獲取到的M個第一正訓練樣本,以及與每個所述第一正訓練樣本對應的多個第一負訓練樣本;其中,每個所述第一正訓練樣本包括:一個所述第一文檔中的一個頭實體,以及所述頭實體的尾實體,每個所述第一負訓練樣本包括:所述第一負訓練樣本所對應的第一正訓練樣本中的頭實體,以及所述頭實體所屬的第一文檔中的參考實體,所述參考實體為所述第一文檔中除所述尾實體之外的實體,M為大于1的整數;
所述多個第二訓練樣本包括:從第二文檔集合包括的多個第二文檔中獲取到的N個第二正訓練樣本,以及與每個所述第二正訓練樣本對應的多個第二負訓練樣本;其中,每個所述第二正訓練樣本包括:從至少一個所述第二文檔中獲取到的具有相同關系的兩個實體對,每個所述第二負訓練樣本包括:從至少一個所述第二文檔中獲取到的具有不同關系的兩個實體對,以及無關系的兩個實體對,且每個所述第二負訓練樣本中的一個實體對與所述第二負訓練樣本對應的一個第二正訓練樣本中的一個實體對相同,N為大于1的整數。
4.根據權利要求3所述的方法,其特征在于,所述將所述多個第一訓練樣本輸入至基礎處理模型,得到所述基礎處理模型的實體預測損失值,包括:
將每個所述第一正訓練樣本和對應的多個所述第一負訓練樣本輸入至基礎處理模型,得到所述基礎處理模型的實體預測損失值;
所述將所述多個第二訓練樣本輸入至所述基礎處理模型,得到所述基礎處理模型的實體關系預測損失值,包括:
將每個所述第二正訓練樣本和對應的多個所述第二負訓練樣本輸入至所述基礎處理模型,得到所述基礎處理模型的實體關系預測損失值。
5.根據權利要求4所述的方法,其特征在于,
基于第m個第一正訓練樣本和對應的多個第一負訓練樣本得到的基礎處理模型的實體預測損失值Lep滿足:
其中,是指第m個第一正訓練樣本中頭實體和尾實體的相似度,是指與所述第m個第一正訓練樣本對應的多個第一負訓練樣本中,第j個第一負訓練樣本所包括的頭實體和參考實體的相似度,I是指所述多個第一負訓練樣本的數量,且m為小于等于M的整數,j為小于等于I的整數;
基于第n個第二正訓練樣本和對應的多個第二負訓練樣本得到的基礎處理模型的實體關系預測損失值Lrp滿足:
其中,是指第n個第二正訓練樣本中兩個實體對的關系相似度,是指與所述第n個第二正訓練樣本對應的多個第二負訓練樣本中,第k個第二負訓練樣本所包括的兩個實體對的關系相似度,Nneg是指所述多個第二負訓練樣本的數量,且n為小于等于N的整數,k為小于等于Nneg的整數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學;騰訊科技(深圳)有限公司,未經清華大學;騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011583809.3/1.html,轉載請聲明來源鉆瓜專利網。





