[發(fā)明專利]一種樣本數(shù)據(jù)處理方法、樣本數(shù)據(jù)處理裝置及電子設(shè)備在審
| 申請?zhí)枺?/td> | 201911370094.0 | 申請日: | 2019-12-26 |
| 公開(公告)號: | CN111198938A | 公開(公告)日: | 2020-05-26 |
| 發(fā)明(設(shè)計)人: | 黃日星;熊友軍 | 申請(專利權(quán))人: | 深圳市優(yōu)必選科技股份有限公司 |
| 主分類號: | G06F16/332 | 分類號: | G06F16/332;G06F16/33;G06F40/279;G06F40/30 |
| 代理公司: | 深圳中一聯(lián)合知識產(chǎn)權(quán)代理有限公司 44414 | 代理人: | 李娟 |
| 地址: | 518000 廣東省深圳市南山區(qū)*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 樣本 數(shù)據(jù)處理 方法 裝置 電子設(shè)備 | ||
1.一種樣本數(shù)據(jù)處理方法,其特征在于,包括:
獲取用于訓(xùn)練預(yù)設(shè)的意圖識別模型的所有樣本數(shù)據(jù);
根據(jù)每一樣本數(shù)據(jù)的意圖標(biāo)簽及語言模型標(biāo)簽,確定每一樣本數(shù)據(jù)所屬的意圖類別及語言模型類別,其中,所述語言模型類別包括正樣本及負(fù)樣本;
統(tǒng)計各個意圖類別下的樣本數(shù)據(jù)的數(shù)量,以及統(tǒng)計各個語言模型類別下的樣本數(shù)據(jù)的數(shù)量,以及統(tǒng)計所有樣本數(shù)據(jù)的總數(shù)量;
根據(jù)每一意圖類別下的樣本數(shù)據(jù)的數(shù)量及所述總數(shù)量,計算每一意圖類別的意圖權(quán)重;
根據(jù)每一語言模型類別下的樣本數(shù)據(jù)的數(shù)量及所述總數(shù)量,計算每一語言模型類別的語言模型權(quán)重;
基于各個意圖類別的意圖權(quán)重及各個語言模型類別的語言模型權(quán)重,確定所述意圖識別模型的損失函數(shù);
基于所述損失函數(shù)對所述意圖識別模型進(jìn)行訓(xùn)練。
2.如權(quán)利要求1所述的樣本數(shù)據(jù)處理方法,其特征在于,所述根據(jù)每一意圖類別下的樣本數(shù)據(jù)的數(shù)量及所述總數(shù)量,計算每一意圖類別的意圖權(quán)重,包括:
計算所述總數(shù)量與目標(biāo)意圖類別下的樣本數(shù)據(jù)的數(shù)量的比值,作為所述目標(biāo)意圖類別的數(shù)量比值,其中,所述目標(biāo)意圖類別為任一意圖類別;
將所述目標(biāo)意圖類別的數(shù)量比值的平方根確定為所述目標(biāo)意圖類別的意圖權(quán)重。
3.如權(quán)利要求1所述的樣本數(shù)據(jù)處理方法,其特征在于,所述根據(jù)每一語言模型類別下的樣本數(shù)據(jù)的數(shù)量及所述總數(shù)量,計算每一語言模型類別的語言模型權(quán)重,包括:
計算所述總數(shù)量與所述正樣本下的樣本數(shù)據(jù)的數(shù)量的比值,作為所述正樣本的數(shù)量比值;
計算所述總數(shù)量與所述負(fù)樣本下的樣本數(shù)據(jù)的數(shù)量的比值,作為所述負(fù)樣本的數(shù)量比值;
將所述正樣本的數(shù)量比值的平方根確定為所述正樣本的語言模型權(quán)重,將所述負(fù)樣本的數(shù)量比值的平方根確定為所述負(fù)樣本的語言模型權(quán)重。
4.如權(quán)利要求1所述的樣本數(shù)據(jù)處理方法,其特征在于,所述基于各個意圖類別的意圖權(quán)重及各個語言模型類別的語言模型權(quán)重,確定所述意圖識別模型的損失函數(shù),包括:
分別獲取各個意圖類別的損失以及各個語言模型類別的損失;
基于各個意圖類別所對應(yīng)的意圖權(quán)重,對各個意圖類別的損失進(jìn)行加權(quán)求和計算,得到所述意圖識別模型的意圖損失;
基于各個語言模型類別所對應(yīng)的語言模型權(quán)重,對各個語言模型類別的損失進(jìn)行加權(quán)求和計算,得到所述意圖識別模型的語言模型損失;
基于所述意圖損失及所述語言模型損失構(gòu)建所述意圖識別模型的損失函數(shù)。
5.如權(quán)利要求4所述的樣本數(shù)據(jù)處理方法,其特征在于,所述基于所述損失函數(shù)對所述意圖識別模型進(jìn)行訓(xùn)練,包括:
獲取所述意圖識別模型的當(dāng)前訓(xùn)練輪次;
當(dāng)所述當(dāng)前訓(xùn)練輪次已達(dá)到預(yù)設(shè)的訓(xùn)練輪次閾值時,檢測所述意圖損失是否小于預(yù)設(shè)的意圖損失閾值,且所述語言模型損失是否小于預(yù)設(shè)的語言模型損失閾值;或者,檢測所述意圖損失及所述語言模型損失是否均已達(dá)到收斂;
若所述意圖損失小于預(yù)設(shè)的意圖損失閾值,且所述語言模型損失小于預(yù)設(shè)的語言模型損失閾值;或者,所述意圖損失及所述語言模型損失均已達(dá)到收斂,則停止對所述意圖識別模型的訓(xùn)練。
6.如權(quán)利要求1至5任一項所述的樣本數(shù)據(jù)處理方法,其特征在于,所述樣本數(shù)據(jù)處理方法還包括:
在每一輪次的訓(xùn)練開始前,對所述負(fù)樣本進(jìn)行采樣;
相應(yīng)地,所述基于所述損失函數(shù)對所述意圖識別模型進(jìn)行訓(xùn)練,包括:
將所有正樣本以及當(dāng)前輪次的訓(xùn)練開始前采樣所得的負(fù)樣本作為所述意圖識別模型當(dāng)前輪次的訓(xùn)練的輸入數(shù)據(jù),并基于所述損失函數(shù)對所述意圖識別模型進(jìn)行訓(xùn)練。
7.如權(quán)利要求6所述的樣本數(shù)據(jù)處理方法,其特征在于,所述對所述負(fù)樣本進(jìn)行采樣,包括:
計算所述負(fù)樣本的數(shù)量與所述正樣本的數(shù)量的樣本比值;
計算所述樣本比值的平方根與所述正樣本的數(shù)量的乘積,得到取樣數(shù)量;
基于所述取樣數(shù)量,在所述負(fù)樣本中進(jìn)行隨機(jī)采樣。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳市優(yōu)必選科技股份有限公司,未經(jīng)深圳市優(yōu)必選科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911370094.0/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)處理設(shè)備,數(shù)據(jù)處理方法,和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理電路、數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法、數(shù)據(jù)處理控制方法
- 數(shù)據(jù)處理設(shè)備、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法及計算機(jī)可讀取的記錄介質(zhì)
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法以及數(shù)據(jù)處理程序
- 數(shù)據(jù)處理裝置、數(shù)據(jù)處理方法和數(shù)據(jù)處理程序





