[發(fā)明專利]文本處理方法、目標任務模型的訓練方法和裝置在審
| 申請?zhí)枺?/td> | 202010741423.4 | 申請日: | 2020-07-28 |
| 公開(公告)號: | CN111859987A | 公開(公告)日: | 2020-10-30 |
| 發(fā)明(設計)人: | 浦嘉澍;席亞東;毛曉曦;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/289;G06F40/58;G06N3/04 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 張芮 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文本 處理 方法 目標 任務 模型 訓練 裝置 | ||
1.一種文本處理方法,其特征在于,所述方法包括:
將指定領域下的待處理語義信息輸入至語言模型中,輸出與所述待處理語義信息相關聯(lián)的增強文本數(shù)據(jù);
基于所述增強文本數(shù)據(jù),對所述指定領域下的文本集合進行文本增強;
其中,所述語言模型基于預設的第一樣本集合訓練得到;所述第一樣本集合中的訓練樣本包括:所述指定領域下的樣本語義信息,以及與所述樣本語義信息相匹配的樣本文本數(shù)據(jù)。
2.根據(jù)權利要求1所述的方法,其特征在于,所述待處理語義信息包括:意圖名信息、意圖問題信息、意圖回答信息或話術信息中的一種或多種。
3.根據(jù)權利要求1所述的方法,其特征在于,所述樣本語義信息包括:意圖名信息、意圖問題信息、意圖回答信息或話術信息中的一種或多種;所述樣本文本數(shù)據(jù)包括話術信息。
4.根據(jù)權利要求1所述的方法,其特征在于,所述語言模型具體通過下述方式訓練得到:
基于所述第一樣本集合確定目標訓練樣本;其中,所述目標訓練樣本包括:所述指定領域下的目標樣本語義信息,以及與所述目標樣本語義信息相匹配的目標樣本文本數(shù)據(jù);
將所述目標樣本語義信息輸入至初始模型中,得到輸出結果;
基于所述輸出結果和所述目標樣本文本數(shù)據(jù),確定損失值;基于所述損失值訓練所述初始模型,直至所述初始模型收斂,得到語言模型。
5.根據(jù)權利要求4所述的方法,其特征在于,將所述目標樣本語義信息輸入至初始模型中,得到輸出結果的步驟之前,所述方法還包括:
基于預設的第二訓練集合,對所述初始模型進行預訓練,得到預訓練后的所述初始模型;其中,所述第二訓練集合中的訓練樣本包括:與所述指定領域相關的多輪對話數(shù)據(jù)。
6.根據(jù)權利要求1所述的方法,其特征在于,所述指定領域下的文本集合包括所述第一樣本集合中的樣本文本數(shù)據(jù);
所述基于所述增強文本數(shù)據(jù),對所述指定領域下的文本集合進行文本增強的步驟,包括:將所述增強文本數(shù)據(jù)增加至所述指定領域下的文本集合中。
7.根據(jù)權利要求6所述的方法,其特征在于,將所述增強文本數(shù)據(jù)增加至所述第一樣本集合中的樣本文本數(shù)據(jù)中的步驟,包括:
確定目標數(shù)據(jù);其中,所述目標數(shù)據(jù)包括所述待處理語義信息,或者與所述待處理語義相匹配的文本數(shù)據(jù);
計算所述增強文本數(shù)據(jù)與所述目標數(shù)據(jù)的相似度,如果所述相似度達到預設的相似度閾值,將所述增強文本數(shù)據(jù)更新至所述第一樣本集合的樣本文本數(shù)據(jù)中。
8.一種目標任務模型的訓練方法,其特征在于,所述方法包括:
響應于接收到目標任務所屬領域下的待處理語義信息,將所述待處理語義信息輸入至語言模型中,輸出與所述待處理語義信息相關聯(lián)的增強文本數(shù)據(jù);其中,所述語言模型基于預設的第一樣本集合訓練得到;所述第一樣本集合中的訓練樣本包括:所述目標任務所屬領域下的樣本語義信息,以及所述樣本語義信息相匹配的樣本文本數(shù)據(jù);
基于所述增強文本數(shù)據(jù),對所述目標任務所屬領域下的文本集合進行文本增強;
基于增強后的所述文本集合,訓練所述目標任務的任務模型,得到訓練后的所述任務模型。
9.一種文本處理裝置,其特征在于,所述裝置包括:
第一輸出模塊,用于響應于接收到指定領域下的待處理語義信息,將所述待處理語義信息輸入至語言模型中,輸出與所述待處理語義信息相關聯(lián)的增強文本數(shù)據(jù);
第一增強模塊,用于基于所述增強文本數(shù)據(jù),對所述指定領域下的文本集合進行文本增強;
其中,所述語言模型基于預設的第一樣本集合訓練得到;所述第一樣本集合中的訓練樣本包括:所述指定領域下的樣本語義信息,以及與所述樣本語義信息相匹配的樣本文本數(shù)據(jù)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010741423.4/1.html,轉載請聲明來源鉆瓜專利網。





