[發明專利]一種樣本數據處理方法、樣本數據處理裝置及電子設備在審
| 申請號: | 201911370094.0 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111198938A | 公開(公告)日: | 2020-05-26 |
| 發明(設計)人: | 黃日星;熊友軍 | 申請(專利權)人: | 深圳市優必選科技股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/279;G06F40/30 |
| 代理公司: | 深圳中一聯合知識產權代理有限公司 44414 | 代理人: | 李娟 |
| 地址: | 518000 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 數據處理 方法 裝置 電子設備 | ||
本申請公開了一種樣本數據處理方法、裝置、電子設備及計算機可讀存儲介質,該方法包括:獲取用于訓練預設的意圖識別模型的所有樣本數據;根據每一樣本數據的意圖標簽及語言模型標簽,確定每一樣本數據所屬的意圖類別及語言模型類別;統計各個意圖類別下的樣本數據的數量,各個語言模型類別下的樣本數據的數量以及所有樣本數據的總數量,并基于此計算每一意圖類別的意圖權重及每一語言模型類別的語言模型權重;基于各個意圖類別的意圖權重及各個語言模型類別的語言模型權重,確定意圖識別模型的損失函數,并以此對意圖識別模型進行訓練。通過本申請方案,可減小大數據量樣本數據與小數據量樣本數據對意圖識別模型的影響差異,保障訓練的有效性。
技術領域
本申請屬于數據處理技術領域,尤其涉及一種樣本數據處理方法、樣本數據處理裝置、電子設備及計算機可讀存儲介質。
背景技術
現在已經有越來越多的智能設備具備有人機交互功能。上述人機交互功能的基礎是智能設備需要先理解用戶的意圖,因而,智能設備的意圖識別的能力一定程度上影響到了智能設備的人機交互功能的優劣。當前,在對智能設備所采用的意圖識別模型進行訓練時,經常會出現不同的意圖類別所對應的訓練語料的數量差異較大的情況,例如,某些常見意圖類別有成百上千條訓練語料,而某些非常見意圖類別只有寥寥幾條訓練語料,其中的差異可能會有成百上千倍,這會出現因樣本數據不平衡而導致訓練失敗的情況。
發明內容
有鑒于此,本申請提供了一種樣本數據處理方法、樣本數據處理裝置、電子設備及計算機可讀存儲介質,可減小大數據量樣本數據與小數據量樣本數據對意圖識別模型的影響差異,保障訓練的有效性。
本申請的第一方面提供了一種樣本數據處理方法,包括:
獲取用于訓練預設的意圖識別模型的所有樣本數據;
根據每一樣本數據的意圖標簽及語言模型標簽,確定每一樣本數據所屬的意圖類別及語言模型類別,其中,上述語言模型類別包括正樣本及負樣本;
統計各個意圖類別下的樣本數據的數量,以及統計各個語言模型類別下的樣本數據的數量,以及統計所有樣本數據的總數量;
根據每一意圖類別下的樣本數據的數量及上述總數量,計算每一意圖類別的意圖權重;
根據每一語言模型類別下的樣本數據的數量及上述總數量,計算每一語言模型類別的語言模型權重;
基于各個意圖類別的意圖權重及各個語言模型類別的語言模型權重,確定上述意圖識別模型的損失函數;
基于上述損失函數對上述意圖識別模型進行訓練。
本申請的第二方面提供了一種樣本數數據處理裝置,包括:
獲取單元,用于獲取用于訓練預設的意圖識別模型的所有樣本數據;
類別確定單元,用于根據每一樣本數據的意圖標簽及語言模型標簽,確定每一樣本數據所屬的意圖類別及語言模型類別,其中,上述語言模型類別包括正樣本及負樣本;
統計單元,用于統計各個意圖類別下的樣本數據的數量,以及統計各個語言模型類別下的樣本數據的數量,以及統計所有樣本數據的總數量;
第一計算單元,用于根據每一意圖類別下的樣本數據的數量及上述總數量,計算每一意圖類別的意圖權重;
第二計算單元,用于根據每一語言模型類別下的樣本數據的數量及上述總數量,計算每一語言模型類別的語言模型權重;
損失函數確定單元,用于基于各個意圖類別的意圖權重及各個語言模型類別的語言模型權重,確定上述意圖識別模型的損失函數;
訓練單元,用于基于上述損失函數對上述意圖識別模型進行訓練。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳市優必選科技股份有限公司,未經深圳市優必選科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911370094.0/2.html,轉載請聲明來源鉆瓜專利網。





