[發(fā)明專利]文本處理方法、文本特征關(guān)系抽取方法及裝置有效
| 申請?zhí)枺?/td> | 202010660758.3 | 申請日: | 2020-07-10 |
| 公開(公告)號: | CN111553170B | 公開(公告)日: | 2020-10-20 |
| 發(fā)明(設(shè)計)人: | 盧睿軒;文瑞;陳曦 | 申請(專利權(quán))人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06N20/00 |
| 代理公司: | 廣州華進聯(lián)合專利商標代理有限公司 44224 | 代理人: | 陳小娜 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 文本 處理 方法 特征 關(guān)系 抽取 裝置 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
獲取第一文本樣本集、第二文本樣本集、以及模型結(jié)構(gòu)相同的目標模型和參照模型;所述第一文本樣本集中包括噪聲文本樣本,所述第二文本樣本集中不包括噪聲文本樣本,所述噪聲文本樣本是攜帶錯誤訓(xùn)練標簽的樣本;
采用所述第一文本樣本集中的第一文本樣本、并根據(jù)所述第一文本樣本的權(quán)重訓(xùn)練所述目標模型,對所述目標模型進行模型參數(shù)更新;
將所述目標模型的模型參數(shù)共享至所述參照模型;
采用所述第二文本樣本集中的第二文本樣本、并根據(jù)所述第一文本樣本的權(quán)重構(gòu)建參照損失函數(shù)訓(xùn)練所述參照模型,對所述第一文本樣本進行權(quán)重更新;
采用所述第一文本樣本、并根據(jù)所述第一文本樣本更新后的權(quán)重二次訓(xùn)練所述目標模型,對所述目標模型進行模型參數(shù)二次更新;
繼續(xù)循環(huán)進行所述模型參數(shù)更新、所述權(quán)重更新和所述模型參數(shù)二次更新,直至滿足訓(xùn)練停止條件時結(jié)束訓(xùn)練;所述目標模型用于對文本提取特征字段及所述特征字段相應(yīng)的語義關(guān)系。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用所述第一文本樣本集中的第一文本樣本、并根據(jù)所述第一文本樣本的權(quán)重訓(xùn)練所述目標模型,對所述目標模型進行模型參數(shù)更新,包括:
從所述第一文本樣本集中選取多于一個第一文本樣本;
將所述多于一個第一文本樣本分別輸入所述目標模型,得到所述多于一個第一文本樣本各自對應(yīng)的目標損失函數(shù);
將所述目標損失函數(shù)按照各自對應(yīng)的第一文本樣本的權(quán)重,構(gòu)建目標優(yōu)化函數(shù);
按照最小化所述目標優(yōu)化函數(shù)的方向,對所述目標模型進行模型參數(shù)更新。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述采用所述第一文本樣本、并根據(jù)所述第一文本樣本更新后的權(quán)重二次訓(xùn)練所述目標模型,對所述目標模型進行模型參數(shù)二次更新,包括:
將所述多于一個第一文本樣本分別輸入模型參數(shù)更新后的所述目標模型,得到所述多于一個第一文本樣本各自對應(yīng)的更新后的目標損失函數(shù);
將所述更新后的目標損失函數(shù)按照各自對應(yīng)的第一文本樣本更新后的權(quán)重,更新所述目標優(yōu)化函數(shù);
按照最小化更新后的目標優(yōu)化函數(shù)的方向,對所述目標模型進行模型參數(shù)二次更新。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用所述第一文本樣本集中的第一文本樣本、并根據(jù)所述第一文本樣本的權(quán)重訓(xùn)練所述目標模型,對所述目標模型進行模型參數(shù)更新,包括:
獲取所述第一文本樣本集中的第一文本樣本;
向量化所述第一文本樣本得到文本特征向量;
將所述文本特征向量輸入所述目標模型得到目標損失函數(shù);
將所述第一文本樣本的權(quán)重賦予所述目標損失函數(shù)后,按照最小化所述目標損失函數(shù)的方向,對所述目標模型進行模型參數(shù)更新。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述采用所述第二文本樣本集中的第二文本樣本、并根據(jù)所述第一文本樣本的權(quán)重構(gòu)建參照損失函數(shù)訓(xùn)練所述參照模型,對所述第一文本樣本進行權(quán)重更新,包括:
獲取所述第二文本樣本集中的第二文本樣本;
將所述第二文本樣本輸入所述參照模型,得到所述第二文本樣本對應(yīng)的、且以所述第一文本樣本的權(quán)重為變量的參照損失函數(shù);所述參照損失函數(shù)以所述參照模型的模型參數(shù)為變量;所述參照模型的模型參數(shù)共享自所述目標模型;所述目標模型的模型參數(shù)以所述第一文本樣本的權(quán)重為變量;
按照最小化所述參照損失函數(shù)的方向,對所述第一文本樣本進行權(quán)重更新。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于騰訊科技(深圳)有限公司,未經(jīng)騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010660758.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





