[發(fā)明專利]一種數(shù)據(jù)分類方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)在審
| 申請(qǐng)?zhí)枺?/td> | 201810190818.2 | 申請(qǐng)日: | 2018-03-08 |
| 公開(公告)號(hào): | CN108491474A | 公開(公告)日: | 2018-09-04 |
| 發(fā)明(設(shè)計(jì))人: | 伍文岳 | 申請(qǐng)(專利權(quán))人: | 平安科技(深圳)有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 深圳市精英專利事務(wù)所 44242 | 代理人: | 林燕云 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樣本 樣本集 計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) 數(shù)據(jù)分類 上采樣 下采樣 新樣本 建模 分類結(jié)果 數(shù)據(jù)預(yù)測(cè) 數(shù)量均衡 樣本混合 預(yù)測(cè)結(jié)果 預(yù)測(cè)數(shù)據(jù) 不均衡 預(yù)測(cè) 申請(qǐng) | ||
1.一種數(shù)據(jù)分類方法,其特征在于,包括:
獲取樣本集,所述樣本集包括一多數(shù)類樣本集和一少數(shù)類樣本集;
根據(jù)所述多數(shù)類樣本集的總樣本數(shù)目與所述少數(shù)類樣本集的總樣本數(shù)目的比值確定第一類樣本集的預(yù)設(shè)份數(shù)和預(yù)設(shè)樣本個(gè)數(shù),所述預(yù)設(shè)份數(shù)為奇數(shù);
從所述多數(shù)類樣本集中隨機(jī)抽取所述預(yù)設(shè)樣本個(gè)數(shù)的樣本形成一份所述第一類樣本集,重復(fù)多次抽取以得到所述預(yù)設(shè)份數(shù)的第一類樣本集;
根據(jù)所述少數(shù)類樣本集的總樣本數(shù)目和所述預(yù)設(shè)樣本個(gè)數(shù)確定需要生成的新樣本的預(yù)計(jì)總數(shù)目;
根據(jù)所述預(yù)計(jì)總數(shù)目利用所述少數(shù)類樣本集生成新樣本,并將所述新樣本與所述少數(shù)類樣本集混合形成第二類樣本集;
分別將每份所述第一類樣本集與所述第二類樣本集進(jìn)行機(jī)器學(xué)習(xí)得到對(duì)應(yīng)的分類模型;
利用所述分類模型對(duì)待分類數(shù)據(jù)進(jìn)行預(yù)測(cè)分類,得到對(duì)應(yīng)的預(yù)測(cè)結(jié)果;
分別統(tǒng)計(jì)不同預(yù)測(cè)結(jié)果的數(shù)量,將數(shù)量較多的預(yù)測(cè)結(jié)果確定為分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分類方法,其特征在于,所述根據(jù)所述預(yù)計(jì)總數(shù)目利用所述少數(shù)類樣本集生成新樣本,包括:
依次將所述少數(shù)類樣本集中的一個(gè)樣本確定為參考樣本;
獲取每個(gè)參考樣本的近鄰樣本;
分別統(tǒng)計(jì)每個(gè)參考樣本的近鄰樣本的第一數(shù)量;
根據(jù)所述第一數(shù)量與所述少數(shù)類樣本集的總樣本數(shù)目計(jì)算對(duì)應(yīng)參考樣本的非近鄰樣本的第二數(shù)量;
計(jì)算所述第二數(shù)量占所述少數(shù)類樣本的總樣本數(shù)目的比例;
將每個(gè)參考樣本的所述比例進(jìn)行歸一化處理,得到對(duì)應(yīng)的歸一化比例;
根據(jù)每個(gè)所述歸一化比例和所述預(yù)計(jì)總數(shù)目分別計(jì)算對(duì)應(yīng)的第三數(shù)量;
根據(jù)所述第三數(shù)量和所述第一數(shù)量選擇對(duì)應(yīng)參考樣本的近鄰樣本,根據(jù)所述參考樣本和所述近鄰樣本生成新樣本。
3.根據(jù)權(quán)利要求2所述的數(shù)據(jù)分類方法,其特征在于,所述根據(jù)所述第三數(shù)量和所述第一數(shù)量選擇對(duì)應(yīng)參考樣本的近鄰樣本,根據(jù)所述參考樣本和所述近鄰樣本生成新樣本,包括:
計(jì)算所述第三數(shù)量與所述第一數(shù)量的商值;
判斷所述商值是否小于1;
若是,則從所述參考樣本的近鄰樣本中選擇所述第三數(shù)量的近鄰樣本,所述第三數(shù)量的近鄰樣本與所述參考樣本的距離均比剩余的近鄰樣本與所述參考樣本的距離遠(yuǎn),分別將每個(gè)選擇的近鄰樣本與所述參考樣本組成樣本對(duì),分別利用一個(gè)樣本對(duì)生成一個(gè)新樣本;
若否,則根據(jù)四舍五入法則取整數(shù),將所述參考樣本的每個(gè)近鄰樣本分別與所述參考樣本組成樣本對(duì),分別利用一個(gè)樣本對(duì)生成所述整數(shù)個(gè)新樣本。
4.根據(jù)權(quán)利要求3所述的數(shù)據(jù)分類方法,其特征在于,利用一個(gè)樣本對(duì)生成一個(gè)新樣本,包括:
獲取所述樣本對(duì)中的參考樣本在i維空間的特征向量An(a1,a2,……,ai)以及近鄰樣本的特征向量Bk(b1,b2,……,bi);
隨機(jī)生成一個(gè)比例值t,其中,0<t<1;
計(jì)算所需生成的新樣本的特征向量Cnk(c1,c2,……,ci),其中,ci=ai+t*(bi-ai),在所述i維空間生成具有所述特征向量Cnk(c1,c2,……,ci)的樣本。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于,利用一個(gè)樣本對(duì)生成所述整數(shù)個(gè)新樣本,包括:
獲取所述樣本對(duì)中的參考樣本在i維空間的特征向量An(a1,a2,……,ai)以及近鄰樣本的特征向量Bk(b1,b2,……,bi);
隨機(jī)生成j個(gè)比例值tx,其中,0<tx<1,x=1,2,……,j,j等于所述整數(shù),且所有比例值tx均不相同;
計(jì)算所需生成的所述整數(shù)個(gè)新樣本的特征向量Cnkx(c1,c2,……,ci),其中,ci=ai+tx*(bi-ai),在所述i維空間生成具有特征向量Cnkx(c1,c2,……,ci)的樣本。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于平安科技(深圳)有限公司,未經(jīng)平安科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810190818.2/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 一種用于人臉檢測(cè)的訓(xùn)練樣本的生成方法及裝置
- 在文本中確定語義關(guān)鍵詞的方法和裝置
- 基于主成分分布函數(shù)的軟件缺陷預(yù)測(cè)不平衡數(shù)據(jù)處理方法
- 增益形狀電路的按比例縮放
- 基于核極限學(xué)習(xí)機(jī)的樣本處理方法及系統(tǒng)
- 一種反洗錢模型的訓(xùn)練方法及裝置
- 一種分類模型訓(xùn)練方法及計(jì)算機(jī)設(shè)備
- 訓(xùn)練樣本集生成方法、深度生成模型的訓(xùn)練方法和裝置
- 分類器訓(xùn)練方法、裝置、電子設(shè)備和存儲(chǔ)介質(zhì)
- 偽造樣本檢測(cè)模型的訓(xùn)練方法、偽造樣本識(shí)別方法、裝置、介質(zhì)和設(shè)備
- 用于生產(chǎn)組合物的監(jiān)測(cè)設(shè)備
- 用于生產(chǎn)組合物的監(jiān)測(cè)設(shè)備
- 用于視頻編碼和解碼的裝置和方法
- 用于興趣點(diǎn)識(shí)別的系統(tǒng)和方法
- 自適應(yīng)云計(jì)算信道處理方法及存儲(chǔ)介質(zhì)
- 用于將操作系統(tǒng)存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上的BIOS代碼
- 一種電子名片自動(dòng)匹配的方法、系統(tǒng)、移動(dòng)裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 相機(jī)組同步曝光控制方法及系統(tǒng)、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)、相機(jī)組控制系統(tǒng)
- 炒鍋翻炒方法、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及智能炒菜機(jī)
- 用于計(jì)算機(jī)系統(tǒng)啟動(dòng)操作的系統(tǒng)及方法
- 數(shù)據(jù)分類方法及數(shù)據(jù)分類裝置
- 數(shù)據(jù)分類
- 數(shù)據(jù)分類系統(tǒng)及數(shù)據(jù)分類方法
- 數(shù)據(jù)分類
- 分類模型的監(jiān)控方法、裝置、終端以及計(jì)算機(jī)存儲(chǔ)介質(zhì)
- 一種分類模型優(yōu)化方法、裝置及存儲(chǔ)設(shè)備、程序產(chǎn)品
- 一種數(shù)據(jù)分類方法及系統(tǒng)
- 一種數(shù)據(jù)分類優(yōu)化方法和優(yōu)化裝置
- 一種基于遷移學(xué)習(xí)的音頻分類方法
- 基于半監(jiān)督深度分類算法的數(shù)據(jù)分類方法、設(shè)備及裝置





