[發明專利]語料文本的處理方法、裝置及電子設備有效
| 申請號: | 202011009875.X | 申請日: | 2020-09-23 |
| 公開(公告)號: | CN112148877B | 公開(公告)日: | 2023-07-04 |
| 發明(設計)人: | 浦嘉澍;毛曉曦;范長杰;胡志鵬 | 申請(專利權)人: | 網易(杭州)網絡有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F16/36;G06F18/2411;G06F18/21 |
| 代理公司: | 北京超成律師事務所 11646 | 代理人: | 張芮 |
| 地址: | 310052 浙江省杭州*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 語料 文本 處理 方法 裝置 電子設備 | ||
1.一種語料文本的處理方法,其特征在于,所述方法包括:
將待處理的語料文本集合輸入語言模型,得到所述語料文本集合中的語料文本的特征向量;其中,所述特征向量用于表征所述語料文本的語義信息;所述語言模型為經過原始訓練樣本訓練得到的模型;
基于聚類算法和所述語料文本的特征向量,對所述語料文本集合進行聚類處理,得到語料分類信息;其中,所述語料分類信息包括所述語料文本標注的意圖類別標注信息;
響應針對于目標語料文本的意圖類別標注信息的修正操作,修改所述目標語料文本標注的意圖類別標注信息,得到目標語料文本;
將所述目標語料文本添加至所述原始訓練樣本中,得到更新樣本;
應用所述更新樣本繼續訓練所述語言模型,得到優化的所述語言模型;
所述語料分類信息還包括所述語料文本對應的置信度,所述置信度用于表征所述語料文本對應的意圖類別標注信息的可信程度;所述響應針對于目標語料文本的意圖類別標注信息的修正操作的步驟之前,所述方法還包括:將置信度低于預設閾值的所述語料文本作為目標語料文本。
2.根據權利要求1所述的語料文本的處理方法,其特征在于,所述語言模型為BERT語言模型,所述語料文本集合中的語料文本均標注有開始標識和結束標識。
3.根據權利要求1所述的語料文本的處理方法,其特征在于,所述聚類算法為多個;基于所述聚類算法和所述語料文本的特征向量,對所述語料文本集合進行聚類處理的步驟,包括:
根據所述語料文本集合對應的任務類型確定目標聚類算法;其中,所述任務類型包括所述語料文本集合的類別總數已知或所述語料文本集合的類別總數未知;
應用所述目標聚類算法和所述語料文本的特征向量,對所述語料文本集合進行聚類處理。
4.根據權利要求3所述的語料文本的處理方法,其特征在于,根據所述語料文本集合對應的任務類型確定目標聚類算法的步驟,包括:
如果所述語料文本集合的類別總數已知,確定目標聚類算法為K-means算法;
如果所述語料文本集合的類別總數未知,確定目標聚類算法為DBscan算法。
5.一種語料文本的處理裝置,其特征在于,所述裝置包括:
特征向量獲取模塊,用于將待處理的語料文本集合輸入語言模型,得到所述語料文本集合中的語料文本的特征向量;其中,所述特征向量用于表征所述語料文本的語義信息;所述語言模型為經過原始訓練樣本訓練得到的模型;
聚類處理模塊,用于基于聚類算法和所述語料文本的特征向量,對所述語料文本集合進行聚類處理,得到語料分類信息;其中,所述語料分類信息包括所述語料文本標注的意圖類別標注信息;
修正操作響應模塊,用于響應針對于目標語料文本的意圖類別標注信息的修正操作,修改所述目標語料文本標注的意圖類別標注信息,得到目標語料文本;
添加模塊,用于將所述目標語料文本添加至所述原始訓練樣本中,得到更新樣本;
訓練模塊,用于應用所述更新樣本繼續訓練所述語言模型,得到優化的所述語言模型;
所述語料分類信息還包括所述語料文本對應的置信度,所述置信度用于表征所述語料文本對應的意圖類別標注信息的可信程度;所述修正操作響應模塊之前,所述裝置還包括:將置信度低于預設閾值的所述語料文本作為目標語料文本。
6.根據權利要求5所述的語料文本的處理裝置,其特征在于,所述語言模型為BERT語言模型,所述語料文本集合中的語料文本均標注有開始標識和結束標識。
7.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現上述權利要求1-4任一項所述的語料文本的處理方法的步驟。
8.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機程序,所述計算機程序被處理器運行時執行上述權利要求1-4任一項所述的語料文本的處理方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于網易(杭州)網絡有限公司,未經網易(杭州)網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011009875.X/1.html,轉載請聲明來源鉆瓜專利網。





