[發(fā)明專利]訓(xùn)練數(shù)據(jù)重采樣方法、裝置、存儲介質(zhì)及電子設(shè)備有效
| 申請?zhí)枺?/td> | 201811327417.3 | 申請日: | 2018-11-08 |
| 公開(公告)號: | CN109635034B | 公開(公告)日: | 2020-03-03 |
| 發(fā)明(設(shè)計)人: | 李偉健;王長虎 | 申請(專利權(quán))人: | 北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司 |
| 主分類號: | G06F16/26 | 分類號: | G06F16/26;G06F16/28 |
| 代理公司: | 北京英創(chuàng)嘉友知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11447 | 代理人: | 魏嘉熹;南毅寧 |
| 地址: | 100144 北京市石景山區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 訓(xùn)練 數(shù)據(jù) 采樣 方法 裝置 存儲 介質(zhì) 電子設(shè)備 | ||
1.一種訓(xùn)練數(shù)據(jù)重采樣方法,其特征在于,應(yīng)用于在線小視頻應(yīng)用中的分類模型,所述方法包括:
獲取第一時段內(nèi)的第一原始數(shù)據(jù),所述第一原始數(shù)據(jù)為所述第一時段中用戶實際上傳的小視頻數(shù)據(jù);
計算所述第一原始數(shù)據(jù)中多個預(yù)設(shè)分類分別所占的第一比例,所述多個預(yù)設(shè)分類為對所述小視頻數(shù)據(jù)的分類;
根據(jù)所述第一比例的大小關(guān)系按照預(yù)設(shè)規(guī)則對所述多個預(yù)設(shè)分類進(jìn)行排序,獲得第一排序結(jié)果;
獲取第二時段內(nèi)的第二原始數(shù)據(jù),所述第二原始數(shù)據(jù)為所述第二時段中用戶實際上傳的小視頻數(shù)據(jù),所述第二時段與所述第一時段中在先的時段的結(jié)束時間與在后的時段的開始時間之間的間隔小于預(yù)設(shè)閾值;
計算所述第二原始數(shù)據(jù)中所述多個預(yù)設(shè)分類分別所占的第二比例;
根據(jù)所述第二比例的大小關(guān)系按照所述預(yù)設(shè)規(guī)則對所述多個預(yù)設(shè)分類進(jìn)行排序,獲得第二排序結(jié)果;
若所述第一排序結(jié)果和所述第二排序結(jié)果一致,根據(jù)各預(yù)設(shè)分類的排名和預(yù)設(shè)對應(yīng)關(guān)系,確定各預(yù)設(shè)分類對應(yīng)的采樣比例,所述預(yù)設(shè)對應(yīng)關(guān)系為所述排名與所述采樣比例之間的對應(yīng)關(guān)系,所述采樣比例能反映在所述第一原始數(shù)據(jù)中所述多個預(yù)設(shè)分類的分布情況;
根據(jù)所述多個預(yù)設(shè)分類分別對應(yīng)的所述采樣比例對用于建模的訓(xùn)練數(shù)據(jù)進(jìn)行重采樣,所述訓(xùn)練數(shù)據(jù)用于建立所述在線小視頻應(yīng)用中的所述分類模型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:
若所述第一排序結(jié)果和所述第二排序結(jié)果不一致時,重新確定所述第二時段,并將所述第二排序結(jié)果確定為第一排序結(jié)果;
返回所述獲取第二時段內(nèi)的第二原始數(shù)據(jù)的步驟。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,當(dāng)至少兩個預(yù)設(shè)分類的比例相同時,按照所述至少兩個預(yù)設(shè)分類的優(yōu)先級確定所述至少兩個預(yù)設(shè)分類的排序。
4.一種訓(xùn)練數(shù)據(jù)重采樣裝置,其特征在于,應(yīng)用于在線小視頻應(yīng)用中的分類模型,所述裝置包括:
第一獲取模塊,用于獲取第一時段內(nèi)的第一原始數(shù)據(jù),所述第一原始數(shù)據(jù)為所述第一時段中用戶實際上傳的小視頻數(shù)據(jù);
第一計算模塊,用于計算所述第一原始數(shù)據(jù)中多個預(yù)設(shè)分類分別所占的第一比例,所述多個預(yù)設(shè)分類為對所述小視頻數(shù)據(jù)的分類;
第一排序模塊,用于根據(jù)所述第一比例的大小關(guān)系按照預(yù)設(shè)規(guī)則對所述多個預(yù)設(shè)分類進(jìn)行排序,獲得第一排序結(jié)果;
第二獲取模塊,用于獲取第二時段內(nèi)的第二原始數(shù)據(jù),所述第二原始數(shù)據(jù)為所述第二時段中用戶實際上傳的小視頻數(shù)據(jù),所述第二時段與所述第一時段中在先的時段的結(jié)束時間與在后的時段的開始時間之間的間隔小于預(yù)設(shè)閾值;
第二計算模塊,用于計算所述第二原始數(shù)據(jù)中所述多個預(yù)設(shè)分類分別所占的第二比例;
第二排序模塊,用于根據(jù)所述第二比例的大小關(guān)系按照所述預(yù)設(shè)規(guī)則對所述多個預(yù)設(shè)分類進(jìn)行排序,獲得第二排序結(jié)果;
排名比較模塊,用于若所述第一排序結(jié)果和所述第二排序結(jié)果一致,觸發(fā)比例獲取模塊根據(jù)各預(yù)設(shè)分類的排名和預(yù)設(shè)對應(yīng)關(guān)系,確定各預(yù)設(shè)分類對應(yīng)的采樣比例;
所述比例獲取模塊,用于根據(jù)各預(yù)設(shè)分類的排名和預(yù)設(shè)對應(yīng)關(guān)系,確定各預(yù)設(shè)分類對應(yīng)的采樣比例,所述預(yù)設(shè)對應(yīng)關(guān)系為所述排名與所述采樣比例之間的對應(yīng)關(guān)系,所述采樣比例能反映在所述第一原始數(shù)據(jù)中所述多個預(yù)設(shè)分類的分布情況;
重采樣模塊,用于根據(jù)所述多個預(yù)設(shè)分類分別對應(yīng)的所述采樣比例對用于建模的訓(xùn)練數(shù)據(jù)進(jìn)行重采樣,所述訓(xùn)練數(shù)據(jù)用于建立所述在線小視頻應(yīng)用中的所述分類模型。
5.根據(jù)權(quán)利要求4所述的裝置,其特征在于,所述排名比較模塊還用于:
若所述第一排序結(jié)果和所述第二排序結(jié)果不一致時,重新確定所述第二時段,并將所述第二排序結(jié)果確定為第一排序結(jié)果;
觸發(fā)所述第二獲取模塊獲取第二時段內(nèi)的第二原始數(shù)據(jù)。
6.根據(jù)權(quán)利要求4或5所述的裝置,其特征在于,當(dāng)至少兩個預(yù)設(shè)分類的比例相同時,按照所述至少兩個預(yù)設(shè)分類的優(yōu)先級確定所述至少兩個預(yù)設(shè)分類的排序。
7.一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1-3中任一項所述方法的步驟。
8.一種電子設(shè)備,其特征在于,包括:
存儲器,其上存儲有計算機(jī)程序;
處理器,用于執(zhí)行所述存儲器中的所述計算機(jī)程序,以實現(xiàn)權(quán)利要求1-3中任一項所述方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司,未經(jīng)北京字節(jié)跳動網(wǎng)絡(luò)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811327417.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





