[發明專利]一種基于知識蒸餾的實體關系抽取方法有效
| 申請號: | 202011279537.8 | 申請日: | 2020-11-16 |
| 公開(公告)號: | CN112528034B | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 趙笑艷;楊敏;曲強 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/28;G06N3/04;G06N3/08;G06N20/10 |
| 代理公司: | 北京市誠輝律師事務所 11430 | 代理人: | 耿慧敏 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 知識 蒸餾 實體 關系 抽取 方法 | ||
1.一種基于知識蒸餾的實體關系抽取方法,包括以下步驟:
構建包含實體教師模型、關系教師模型和學生模型的深度生成模型,其中實體教師模型用于識別句子中的實體;關系教師模型用于識別實體之間的關系,學生模型用于融合實體教師模型和關系教師模型中學習到的知識;
以設定的蒸餾損失函數最小化為優化目標訓練所述深度生成模型,其中,訓練過程中,實體教師模型以句子文本信息與特權實體特征作為輸入;關系教師模型以句子文本信息和特權關系特征作為輸入,學生模型以句子文本信息作為輸入并在訓練過程融合實體教師模型的輸出和關系教師模型輸出;
利用經訓練的學生模型對輸入句子進行實體關系抽取,獲得對應的目標序列;
其中,所述蒸餾損失函數設置為:
Lstu=LCE+λ1LED+λ2LRD
其中λ1,λ2∈[0,1]是設定的超參數,LED是實體教師模型和學生模型之間的實體信息蒸餾損失,LRD是關系教師模型和學生模型之間的關系信息蒸餾損失,LCE是學生模型學習過程中的交叉熵損失;
其中,所述實體教師模型和學生模型之間的實體信息蒸餾損失表示為:
其中θ是學生模型的參數,c表示當前目標標記,C是目標序列集,表示實體教師模型的學習參數,yi是對應的目標序列,表示實體教師模型的輸入特征,T是輸入特征的數量,si是輸入的句子序列,PteaE(·|·)是實體教師模型的輸出概率,Pstu(·|·)是學生模型的輸出概率。
2.根據權利要求1所述的方法,其中,根據以下步驟獲取所述特權實體特征和特權關系特權特征:
對于已標注數據集,設ei∈E,ri∈R分別是句子序列si中的實體集和關系集,其中R為關系集,E為實體集,i是數據集中各樣本數據的索引;
針對所述已標注數據集的目標標簽yi,提取對應的特權實體特征ei和特權關系特征ri,其中ei∪ri=yi。
3.根據權利要求1所述的方法,其中,所述關系教師模型和學生模型之間的關系信息蒸餾損失表示為:
其中θ是學生模型的參數,c表示當前目標標記,C是目標序列集,表示關系教師模型的學習參數,yi是對應的目標序列,表示關系教師模型的輸入特征,T是輸入特征的數量,si是輸入的句子序列,Pstu(·|·)是學生模型的輸出概率,PteaR(·|·)是關系教師模型的輸出概率。
4.根據權利要求1所述的方法,其中,所述學生模型學習過程中的交叉熵損失表示為:
其中θ是學生模型的參數,c表示當前目標標記,C是目標序列集,yi是對應的目標序列,T是輸入特征的數量,si是輸入的句子序列,Pstu(·|·)是學生模型的輸出概率。
5.根據權利要求1所述的方法,其中,所述深度生成模型是基于注意力機制的長短時記憶網絡,用于捕獲動態的全局特征和短時依賴性,并基于先前時間戳學習到的特征來預測下一個時間戳的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011279537.8/1.html,轉載請聲明來源鉆瓜專利網。





