[發(fā)明專利]實(shí)現(xiàn)自動(dòng)半監(jiān)督機(jī)器學(xué)習(xí)的方法及裝置在審
| 申請(qǐng)?zhí)枺?/td> | 201811341910.0 | 申請(qǐng)日: | 2018-11-12 |
| 公開(kāi)(公告)號(hào): | CN111178533A | 公開(kāi)(公告)日: | 2020-05-19 |
| 發(fā)明(設(shè)計(jì))人: | 王海;李宇峰;涂威威;魏通 | 申請(qǐng)(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00 |
| 代理公司: | 北京鼎佳達(dá)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11348 | 代理人: | 王偉鋒;劉鐵生 |
| 地址: | 100085 北京市海淀區(qū)上*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 實(shí)現(xiàn) 自動(dòng) 監(jiān)督 機(jī)器 學(xué)習(xí) 方法 裝置 | ||
1.一種實(shí)現(xiàn)自動(dòng)半監(jiān)督機(jī)器學(xué)習(xí)的方法,其中,所述方法包括:
獲取目標(biāo)數(shù)據(jù)集,所述目標(biāo)數(shù)據(jù)集中的部分樣本數(shù)據(jù)具有標(biāo)記;
選擇與目標(biāo)數(shù)據(jù)集相似的一個(gè)經(jīng)驗(yàn)數(shù)據(jù)集,將所述經(jīng)驗(yàn)數(shù)據(jù)集上所使用的半監(jiān)督機(jī)器學(xué)習(xí)算法確定為所述目標(biāo)數(shù)據(jù)集的半監(jiān)督機(jī)器學(xué)習(xí)算法;
根據(jù)所述半監(jiān)督機(jī)器學(xué)習(xí)算法以及對(duì)應(yīng)的多組超參數(shù),分別在所述目標(biāo)數(shù)據(jù)集上進(jìn)行模型訓(xùn)練和預(yù)測(cè),得到對(duì)應(yīng)每組超參數(shù)的模型和預(yù)測(cè)結(jié)果,并根據(jù)每組超參數(shù)對(duì)應(yīng)的預(yù)測(cè)結(jié)果,從所述多組超參數(shù)中選擇適合所述目標(biāo)數(shù)據(jù)集的一組超參數(shù);
將與所選擇的適合所述目標(biāo)數(shù)據(jù)集的一組超參數(shù)對(duì)應(yīng)的模型確定為所述目標(biāo)數(shù)據(jù)集的半監(jiān)督機(jī)器學(xué)習(xí)模型。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述選擇與目標(biāo)數(shù)據(jù)集相似的一個(gè)經(jīng)驗(yàn)數(shù)據(jù)集包括:
獲取多個(gè)經(jīng)驗(yàn)數(shù)據(jù)集;
從所述目標(biāo)數(shù)據(jù)集及所述多個(gè)經(jīng)驗(yàn)數(shù)據(jù)集中,分別提取對(duì)應(yīng)的數(shù)據(jù)集特征;
根據(jù)所述數(shù)據(jù)集特征,從所述多個(gè)經(jīng)驗(yàn)數(shù)據(jù)集中確定與所述目標(biāo)數(shù)據(jù)集相似的一個(gè)經(jīng)驗(yàn)數(shù)據(jù)集。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述數(shù)據(jù)集特征包括傳統(tǒng)元特征以及基于無(wú)監(jiān)督聚類的元特征;
所述從所述目標(biāo)數(shù)據(jù)集及所述多個(gè)經(jīng)驗(yàn)數(shù)據(jù)集中,分別提取對(duì)應(yīng)的數(shù)據(jù)集特征包括:
從所述目標(biāo)數(shù)據(jù)集提取傳統(tǒng)元特征,以及根據(jù)預(yù)設(shè)無(wú)監(jiān)督聚類算法從所述目標(biāo)數(shù)據(jù)集中提取對(duì)應(yīng)的基于無(wú)監(jiān)督聚類的元特征,組合提取的傳統(tǒng)特征和基于無(wú)監(jiān)督聚類的元特征得到所述目標(biāo)數(shù)據(jù)集的數(shù)據(jù)集特征;
對(duì)于所述多個(gè)經(jīng)驗(yàn)數(shù)據(jù)集中的每個(gè)經(jīng)驗(yàn)數(shù)據(jù)集,從該經(jīng)驗(yàn)數(shù)據(jù)集提取傳統(tǒng)元特征,以及根據(jù)所述預(yù)設(shè)無(wú)監(jiān)督聚類算法從該經(jīng)驗(yàn)數(shù)據(jù)集中提取對(duì)應(yīng)的基于無(wú)監(jiān)督聚類的元特征,組合提取的傳統(tǒng)特征和基于無(wú)監(jiān)督聚類的元特征得到該經(jīng)驗(yàn)數(shù)據(jù)集的數(shù)據(jù)集特征。
4.如權(quán)利要求3所述的方法,其中,所述傳統(tǒng)元特征包括如下特征中的任意一種或多種:
樣本數(shù)、樣本數(shù)對(duì)數(shù)、特征維度、特征維度對(duì)數(shù)、數(shù)據(jù)集維度、數(shù)據(jù)集維度對(duì)數(shù)、逆數(shù)據(jù)集維度、逆數(shù)據(jù)集維度對(duì)數(shù)、最小類先驗(yàn)概率、最大類先驗(yàn)概率、平均類先驗(yàn)概率、類先驗(yàn)概率標(biāo)準(zhǔn)差、最小峰態(tài)系數(shù)、最大峰態(tài)系數(shù)、平均峰態(tài)系數(shù)、峰態(tài)系數(shù)標(biāo)準(zhǔn)差、最小偏態(tài)系數(shù)、最大偏態(tài)系數(shù)、平均偏態(tài)系數(shù)、偏態(tài)系數(shù)標(biāo)準(zhǔn)差、PCA95%主成分、第一主成分偏態(tài)系數(shù)、以及第一主成分峰態(tài)系數(shù);
其中,所述數(shù)據(jù)集維度為所述特征維度與所述樣本數(shù)的比值;
所述逆數(shù)據(jù)集維度為對(duì)所述數(shù)據(jù)集維度的倒數(shù);
所述最小類先驗(yàn)概率為每個(gè)類別樣本個(gè)數(shù)除以樣本總數(shù)中得到數(shù)值中的最小值;
所述最大類先驗(yàn)概率為每個(gè)類別樣本個(gè)數(shù)除以樣本總數(shù)得到的數(shù)值中的最大值;
所述平均類先驗(yàn)概率為每個(gè)類別樣本個(gè)數(shù)除以樣本總數(shù)得到數(shù)值中的平均值;
所述類先驗(yàn)概率標(biāo)準(zhǔn)差為每個(gè)類別樣本個(gè)數(shù)除以樣本總數(shù)得到的多個(gè)數(shù)值所計(jì)算出的標(biāo)準(zhǔn)差;
峰態(tài)系數(shù)用來(lái)衡量數(shù)據(jù)集的數(shù)據(jù)分布相對(duì)于正態(tài)分布的兩端部分的形態(tài),所述最小峰態(tài)系數(shù)為所有連續(xù)型特征峰態(tài)系數(shù)的最小值,所述最大峰態(tài)系數(shù)為所有連續(xù)型特征峰態(tài)系數(shù)最大值,所述平均峰態(tài)系數(shù)為所有連續(xù)型特征峰態(tài)系數(shù)平均值,所述峰態(tài)系數(shù)標(biāo)準(zhǔn)差為所有連續(xù)型特征峰態(tài)系數(shù)標(biāo)準(zhǔn)差;
偏態(tài)系數(shù)用來(lái)衡量數(shù)據(jù)集的數(shù)據(jù)分布關(guān)于其均值的對(duì)稱性,所述最小偏態(tài)系數(shù)為所有連續(xù)型特征偏態(tài)系數(shù)的最小值,所述最大偏態(tài)系數(shù)為所有連續(xù)型特征偏態(tài)系數(shù)的最大值,所述平均偏態(tài)系數(shù)為所有連續(xù)型特征偏態(tài)系數(shù)的平均值,偏態(tài)系數(shù)標(biāo)準(zhǔn)差為所有連續(xù)型特征偏態(tài)系數(shù)的標(biāo)準(zhǔn)差;
PCA元特征用于表征數(shù)據(jù)集中主要成分的統(tǒng)計(jì)量,所述PCA95%主成分為對(duì)樣本進(jìn)行主成分分析后按照方差從大到小保留d’個(gè)主成分保留原數(shù)據(jù)中d’/d的95%的方差,所述d為特征維度;
所述第一主成分偏態(tài)系數(shù)為PCA元特征的最大主成分的偏態(tài)系數(shù),所述第一主成分峰態(tài)系數(shù)為PCA元特征的最大主成分的峰態(tài)系數(shù)。
5.如權(quán)利要求3所述的方法,其中,所述基于無(wú)監(jiān)督聚類的元特征包括如下中一種或多種:
類內(nèi)緊密度;
類間分隔度;
戴維森堡丁指數(shù);
鄧恩指數(shù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811341910.0/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 互動(dòng)業(yè)務(wù)終端、實(shí)現(xiàn)系統(tǒng)及實(shí)現(xiàn)方法
- 街景地圖的實(shí)現(xiàn)方法和實(shí)現(xiàn)系統(tǒng)
- 游戲?qū)崿F(xiàn)系統(tǒng)和游戲?qū)崿F(xiàn)方法
- 圖像實(shí)現(xiàn)裝置及其圖像實(shí)現(xiàn)方法
- 增強(qiáng)現(xiàn)實(shí)的實(shí)現(xiàn)方法以及實(shí)現(xiàn)裝置
- 軟件架構(gòu)的實(shí)現(xiàn)方法和實(shí)現(xiàn)平臺(tái)
- 數(shù)值預(yù)報(bào)的實(shí)現(xiàn)方法及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其冬眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 空調(diào)及其睡眠控制模式實(shí)現(xiàn)方法和實(shí)現(xiàn)裝置以及實(shí)現(xiàn)系統(tǒng)
- 輸入設(shè)備實(shí)現(xiàn)方法及其實(shí)現(xiàn)裝置
- 在即時(shí)通信中提供即時(shí)監(jiān)督功能的方法及系統(tǒng)
- 一種監(jiān)督事件的生成裝置
- 一種資產(chǎn)托管監(jiān)督任務(wù)的處理方法及裝置
- 一種監(jiān)督方法及裝置
- 基于自監(jiān)督學(xué)習(xí)的標(biāo)簽比例學(xué)習(xí)模型的訓(xùn)練方法和設(shè)備
- 一種衛(wèi)生監(jiān)督對(duì)象尋址方法、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種機(jī)器人表情調(diào)用方法和家用機(jī)器人
- 計(jì)算機(jī)視覺(jué)訓(xùn)練系統(tǒng)和用于訓(xùn)練計(jì)算機(jī)視覺(jué)系統(tǒng)的方法
- 一種基于廠區(qū)智能管理系統(tǒng)的工廠設(shè)備監(jiān)督系統(tǒng)
- 信息化綜合監(jiān)督系統(tǒng)及方法





