[發明專利]文本處理方法、目標任務模型的訓練方法和裝置在審

申請號：	202010741423.4	申請日：	2020-07-28
公開（公告）號：	CN111859987A	公開（公告）日：	2020-10-30
發明（設計）人：	浦嘉澍;席亞東;毛曉曦;范長杰;胡志鵬	申請（專利權）人：	網易(杭州)網絡有限公司
主分類號：	G06F40/30	分類號：	G06F40/30;G06F40/289;G06F40/58;G06N3/04
代理公司：	北京超成律師事務所 11646	代理人：	張芮
地址：	310052 浙江省杭州***	國省代碼：	浙江;33
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文本處理方法目標任務模型訓練裝置
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【說明書】：

本發明提供了一種文本處理方法、目標任務模型的訓練方法和裝置，其中，該文本處理方法包括：響應于接收到指定領域下的待處理語義信息，將待處理語義信息輸入至語言模型中，輸出與待處理語義信息相關聯的增強文本數據；基于增強文本數據，對指定領域下的文本集合進行文本增強；其中，語言模型基于預設的第一樣本集合訓練得到；第一樣本集合中的訓練樣本包括：指定領域下的樣本語義信息，以及與樣本語義信息相匹配的樣本文本數據。該方式可以實現在指定領域下的文本增強，可以得到在各個專業領域下的文本增強數據，應用范圍較廣。

技術領域

本發明涉及人工智能技術領域，尤其是涉及一種文本處理方法、目標任務模型的訓練方法和裝置。

背景技術

文本增強屬于數據增強的一種，文本增強技術可以增加文本樣本量，從而提高語言相關的任務模型的訓練效果。相關技術中，可以采用EDA(Easy Data Augmentation，簡單數據增強)、回譯、模型生成等方式實現文本增強。其中的模型生成方式中，模型輸出的文本往往與模型的訓練數據緊密相關，在大多情況下，模型采用通用語料集中的文本進行訓練，模型能夠在訓練過程中學習到通用語料中文本的通用性和通順性，但是難以學習到一些專業領域的措辭，導致難以應用至專業領域中的文本增強，應用范圍受限。

發明內容

有鑒于此，本發明的目的在于提供一種文本處理方法、目標任務模型的訓練方法、裝置和電子設備，以實現在指定領域下的文本增強，得到在各個專業領域下的文本增強數據。

第一方面，本發明實施例提供了一種文本處理方法，方法包括：響應于接收到指定領域下的待處理語義信息，將待處理語義信息輸入至語言模型中，輸出與待處理語義信息相關聯的增強文本數據；基于增強文本數據，對指定領域下的文本集合進行文本增強；其中，語言模型基于預設的第一樣本集合訓練得到；第一樣本集合中的訓練樣本包括：指定領域下的樣本語義信息，以及與樣本語義信息相匹配的樣本文本數據。

上述待處理語義信息包括：意圖名信息、意圖問題信息、意圖回答信息或話術信息中的一種或多種。

上述樣本語義信息包括：意圖名信息、意圖問題信息、意圖回答信息或話術信息中的一種或多種；樣本文本數據包括話術信息。

上述語言模型具體通過下述方式訓練得到：基于第一樣本集合確定目標訓練樣本；其中，目標訓練樣本包括：指定領域下的目標樣本語義信息，以及與目標樣本語義信息相匹配的目標樣本文本數據；將目標樣本語義信息輸入至初始模型中，得到輸出結果；基于輸出結果和目標樣本文本數據，確定損失值；基于損失值訓練初始模型，直至初始模型收斂，得到語言模型。

上述將目標樣本語義信息輸入至初始模型中，得到輸出結果的步驟之前，方法還包括：基于預設的第二訓練集合，對初始模型進行預訓練，得到預訓練后的初始模型；其中，第二訓練集合中的訓練樣本包括：與指定領域相關的多輪對話數據。

上述指定領域下的文本集合包括第一樣本集合中的樣本文本數據；上述基于增強文本數據，對指定領域下的文本集合進行文本增強的步驟，包括：將增強文本數據增加至指定領域下的文本集合中。

上述將增強文本數據增加至第一樣本集合中的樣本文本數據中的步驟，包括：確定目標數據；其中，目標數據包括待處理語義信息，或者與待處理語義相匹配的文本數據；計算增強文本數據與目標數據的相似度，如果相似度達到預設的相似度閾值，將增強文本數據更新至第一樣本集合的樣本文本數據中。

第二方面，本發明實施例提供了一種目標任務模型的訓練方法，方法包括：響應于接收到目標任務所屬領域下的待處理語義信息，將待處理語義信息輸入至語言模型中，輸出與待處理語義信息相關聯的增強文本數據；其中，語言模型基于預設的第一樣本集合訓練得到；第一樣本集合中的訓練樣本包括：目標任務所屬領域下的樣本語義信息，以及樣本語義信息相匹配的樣本文本數據；基于增強文本數據，對目標任務所屬領域下的文本集合進行文本增強；基于增強后的文本集合，訓練目標任務的任務模型，得到訓練后的任務模型。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司，未經網易(杭州)網絡有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202010741423.4/2.html，轉載請聲明來源鉆瓜專利網。