[發(fā)明專利]文本生成模型的訓練方法、裝置及電子設備有效
| 申請?zhí)枺?/td> | 202010470844.8 | 申請日: | 2020-05-28 |
| 公開(公告)號: | CN111709248B | 公開(公告)日: | 2023-07-11 |
| 發(fā)明(設計)人: | 李偉;肖欣延;吳華;王海峰 | 申請(專利權(quán))人: | 北京百度網(wǎng)訊科技有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/205;G06F40/289;G06F18/214 |
| 代理公司: | 北京清亦華知識產(chǎn)權(quán)代理事務所(普通合伙) 11201 | 代理人: | 石茵汀 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 生成 模型 訓練 方法 裝置 電子設備 | ||
1.一種文本生成模型的訓練方法,包括:
獲取第一樣本數(shù)據(jù)集,其中,所述第一樣本數(shù)據(jù)集中包括多個第一樣本數(shù)據(jù);
對多個所述第一樣本數(shù)據(jù)分別進行結(jié)構(gòu)化信息提取,以生成所述多個第一樣本數(shù)據(jù)分別對應的目標結(jié)構(gòu)化信息,所述目標結(jié)構(gòu)化信息包括所述第一樣本數(shù)據(jù)中的全部或部分短語,及各短語在所述第一樣本數(shù)據(jù)中扮演的角色;
將所述多個第一樣本數(shù)據(jù)輸入至初始文本生成模型,以生成所述多個第一樣本數(shù)據(jù)分別對應的預測結(jié)構(gòu)化信息;
根據(jù)所述多個第一樣本數(shù)據(jù)對應的預測結(jié)構(gòu)化信息與對應的所述目標結(jié)構(gòu)化信息的差異,生成第一損失值;以及
根據(jù)所述第一損失值對所述初始文本生成模型進行短語生成能力訓練,以生成文本生成模型;
其中,所述目標結(jié)構(gòu)化信息包括多個短語,所述方法,還包括:
獲取所述多個短語之中的待掩碼位置;
將所述待掩碼位置之上的掩碼短語進行掩碼;
將掩碼之后的所述目標結(jié)構(gòu)化信息輸入至所述文本生成模型,以生成所述掩碼位置對應的預測短語;
根據(jù)所述掩碼短語和所述預測短語生成第二損失值;以及
根據(jù)所述第二損失值對所述文本生成模型進行短語間關系能力訓練;
其中,所述初始文本生成模型包括初始編碼器和初始解碼器,所述將所述多個第一樣本數(shù)據(jù)輸入至初始文本生成模型,以生成所述多個第一樣本數(shù)據(jù)分別對應的預測結(jié)構(gòu)化信息,包括:
將所述第一樣本數(shù)據(jù)輸入至所述初始編碼器,以生成每個所述第一樣本數(shù)據(jù)對應的向量表示組;
將所述第一樣本數(shù)據(jù)對應的向量表示組輸入至所述初始解碼器,以生成多個預測片段;以及
根據(jù)所述第一樣本數(shù)據(jù)對應的所述多個預測片段,生成所述第一樣本數(shù)據(jù)對應的預測結(jié)構(gòu)化信息,其中,根據(jù)所述第一損失值對所述初始編碼器與所述初始解碼器進行短語生成能力訓練。
2.如權(quán)利要求1所述的方法,其中,所述預測片段為N個,N為正整數(shù),所述將所述第一樣本數(shù)據(jù)對應的向量表示組輸入至初始解碼器,以生成多個預測片段,包括:
在預測第i個預測片段時,所述初始解碼器根據(jù)所述第一樣本數(shù)據(jù)對應的向量表示組、所述第1個至第i-1個預測片段及所述第i個預測片段的位置特征進行解碼處理,以生成所述第i個預測片段,其中,i為小于或等于N的正整數(shù)。
3.如權(quán)利要求2所述的方法,其中,所述預測片段包括M個字符,M為正整數(shù),所述生成所述第i個預測片段,包括:
在預測第i個預測片段時,利用所述初始解碼器同時生成所述第i個預測片段中的M個字符。
4.如權(quán)利要求1所述的方法,其中,所述短語生成能力訓練和所述短語間關系能力訓練融合進行。
5.如權(quán)利要求4所述的方法,其中,所述目標結(jié)構(gòu)化信息包括所述第一樣本數(shù)據(jù)對應的多個目標片段,所述將所述多個第一樣本數(shù)據(jù)輸入至初始文本生成模型,以生成所述多個第一樣本數(shù)據(jù)分別對應的預測結(jié)構(gòu)化信息,包括:
確定所述多個目標片段分別在所述第一樣本數(shù)據(jù)中的位置;
根據(jù)所述多個目標片段分別在所述第一樣本數(shù)據(jù)中的位置,對所述第一樣本數(shù)據(jù)中的多個目標片段分別進行掩碼處理;
將掩碼后的多個第一樣本數(shù)據(jù)輸入至初始文本生成模型,以生成所述多個第一樣本數(shù)據(jù)分別對應的預測結(jié)構(gòu)化信息,其中,所述預測結(jié)構(gòu)化信息中的每個預測片段與所述第一樣本數(shù)據(jù)中被掩碼的目標片段對應,其中,根據(jù)所述每個預測片段分別與對應的目標片段的差異,生成第一損失值。
6.如權(quán)利要求1所述的方法,其中,所述目標結(jié)構(gòu)化信息包括所述第一樣本數(shù)據(jù)對應的多個目標片段,所述根據(jù)所述多個第一樣本數(shù)據(jù)對應的預測結(jié)構(gòu)化信息與對應的所述目標結(jié)構(gòu)化信息的差異,生成第一損失值,包括:
根據(jù)所述預測結(jié)構(gòu)化信息中的所述多個預測片段,分別與所述目標結(jié)構(gòu)化信息中的所述多個目標片段之間的差異,生成所述第一損失值。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京百度網(wǎng)訊科技有限公司,未經(jīng)北京百度網(wǎng)訊科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010470844.8/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





