[發(fā)明專利]自動(dòng)生成機(jī)器學(xué)習(xí)樣本的特征的方法及系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 201711445538.3 | 申請(qǐng)日: | 2017-12-27 |
| 公開(kāi)(公告)號(hào): | CN108090516A | 公開(kāi)(公告)日: | 2018-05-29 |
| 發(fā)明(設(shè)計(jì))人: | 楊強(qiáng);戴文淵;陳雨強(qiáng);孫迪;楊慧斌;劉守湘 | 申請(qǐng)(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62;G06N99/00 |
| 代理公司: | 北京銘碩知識(shí)產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 徐璐璐;曾世驍 |
| 地址: | 100085 北京市海淀區(qū)上*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 機(jī)器學(xué)習(xí) 樣本 特征類型 自動(dòng)生成 組合特征 字段 離散特征 連續(xù)特征 數(shù)據(jù)記錄 特征組合 系統(tǒng)提供 用戶指定 字段處理 易用性 聲明 門(mén)檻 | ||
提供一種自動(dòng)生成機(jī)器學(xué)習(xí)樣本的特征的方法及系統(tǒng)。所述方法包括:(A)獲取用戶指定的數(shù)據(jù)表,其中,數(shù)據(jù)表的一行對(duì)應(yīng)一條數(shù)據(jù)記錄,數(shù)據(jù)表的一列對(duì)應(yīng)一個(gè)字段;(B)聲明數(shù)據(jù)表中的各個(gè)非目標(biāo)值字段所對(duì)應(yīng)的特征類型,其中,特征類型包括離散特征和/或連續(xù)特征;(C)按照聲明的特征類型將各個(gè)非目標(biāo)值字段處理為單位特征;(D)基于生成的單位特征來(lái)進(jìn)行特征組合,以生成組合特征;以及(E)基于生成的單位特征和組合特征來(lái)得到機(jī)器學(xué)習(xí)樣本的特征。根據(jù)所述方法及系統(tǒng),能夠基于數(shù)據(jù)表自動(dòng)生成機(jī)器學(xué)習(xí)樣本的特征,既降低了特征工程的使用門(mén)檻,提高了特征工程的易用性,又提高了特征工程的效率。
技術(shù)領(lǐng)域
本發(fā)明總體說(shuō)來(lái)涉及人工智能領(lǐng)域,更具體地講,涉及一種自動(dòng)生成機(jī)器學(xué)習(xí)樣本的特征的方法及系統(tǒng)。
背景技術(shù)
隨著海量數(shù)據(jù)的出現(xiàn),人們傾向于使用機(jī)器學(xué)習(xí)技術(shù)來(lái)從數(shù)據(jù)中挖掘出價(jià)值。
訓(xùn)練機(jī)器學(xué)習(xí)模型的基本過(guò)程主要包括:
1、導(dǎo)入包含歷史數(shù)據(jù)記錄的數(shù)據(jù)集(例如,數(shù)據(jù)表);
2、完成特征工程,其中,通過(guò)對(duì)數(shù)據(jù)集中的數(shù)據(jù)記錄的屬性信息進(jìn)行各種處理,以得到各個(gè)特征,這些特征構(gòu)成的特征向量可作為機(jī)器學(xué)習(xí)樣本;
3、訓(xùn)練模型,其中,按照設(shè)置的機(jī)器學(xué)習(xí)算法(例如,邏輯回歸算法、決策樹(shù)算法、神經(jīng)網(wǎng)絡(luò)算法等),基于經(jīng)過(guò)特征工程所得到的機(jī)器學(xué)習(xí)樣本來(lái)學(xué)習(xí)出模型。
在上述過(guò)程中,產(chǎn)生特征的處理很重要,它會(huì)影響模型的優(yōu)劣。數(shù)據(jù)表中每條數(shù)據(jù)記錄可包括多個(gè)屬性信息(即,字段),而特征可指示各字段本身、或字段的組合等各種字段處理(或運(yùn)算)結(jié)果,以便更好地反映數(shù)據(jù)分布以及字段間的內(nèi)在關(guān)聯(lián)與潛在含義,因此,特征工程質(zhì)量的好壞直接決定了機(jī)器學(xué)習(xí)問(wèn)題刻畫(huà)的準(zhǔn)確性,進(jìn)而影響模型的優(yōu)劣。
在現(xiàn)有的機(jī)器學(xué)習(xí)平臺(tái)上,可采用基于圖形界面的交互方式來(lái)完成機(jī)器學(xué)習(xí)模型訓(xùn)練流程,而不需要用戶親自編寫(xiě)程序代碼。然而,在特征工程環(huán)節(jié),卻往往是將人為設(shè)定的特征生成方式手動(dòng)地輸入到平臺(tái)系統(tǒng)中。也就是說(shuō),需要用戶預(yù)先設(shè)定機(jī)器學(xué)習(xí)樣本的特征,一方面,需要用戶對(duì)業(yè)務(wù)場(chǎng)景有深刻的理解,即,用戶憑借業(yè)務(wù)經(jīng)驗(yàn)來(lái)設(shè)定特征;另一方面,一般在機(jī)器學(xué)習(xí)過(guò)程中,所使用數(shù)據(jù)的數(shù)據(jù)量都比較大,用戶有時(shí)不能全面地分析數(shù)據(jù),會(huì)導(dǎo)致設(shè)定一些無(wú)效的特征,為了提高機(jī)器學(xué)習(xí)樣本的特征的效果,這就需要用戶進(jìn)行不斷嘗試,當(dāng)面對(duì)大數(shù)據(jù)量和高維特征時(shí),這樣的工作需要花費(fèi)較長(zhǎng)的時(shí)間。這種情況下,不僅需要用戶對(duì)業(yè)務(wù)場(chǎng)景有深刻的理解,增加了用戶的工作量,還降低了機(jī)器學(xué)習(xí)的效率。
發(fā)明內(nèi)容
本發(fā)明的示例性實(shí)施例在于提供一種自動(dòng)生成機(jī)器學(xué)習(xí)樣本的特征的方法及系統(tǒng),以解決現(xiàn)有技術(shù)存在的不能便捷地生成機(jī)器學(xué)習(xí)樣本的特征的問(wèn)題。
根據(jù)本發(fā)明的示例性實(shí)施例,提供一種自動(dòng)生成機(jī)器學(xué)習(xí)樣本的特征的方法,包括:(A)獲取用戶指定的數(shù)據(jù)表,其中,數(shù)據(jù)表的一行對(duì)應(yīng)一條數(shù)據(jù)記錄,數(shù)據(jù)表的一列對(duì)應(yīng)一個(gè)字段;(B)聲明數(shù)據(jù)表中的各個(gè)非目標(biāo)值字段所對(duì)應(yīng)的特征類型,其中,特征類型包括離散特征和/或連續(xù)特征;(C)按照聲明的特征類型將各個(gè)非目標(biāo)值字段處理為單位特征;(D)基于生成的單位特征來(lái)進(jìn)行特征組合,以生成組合特征;以及(E)基于生成的單位特征和組合特征來(lái)得到機(jī)器學(xué)習(xí)樣本的特征。
可選地,所述方法通過(guò)啟動(dòng)與自動(dòng)特征生成步驟相應(yīng)的算子而自動(dòng)執(zhí)行。
可選地,所述算子對(duì)應(yīng)于與機(jī)器學(xué)習(xí)流程相應(yīng)的有向無(wú)環(huán)圖中的節(jié)點(diǎn)。
可選地,非目標(biāo)值字段通過(guò)以下方式來(lái)獲取:從數(shù)據(jù)表中的所有字段中去除用戶指定的目標(biāo)值字段。
可選地,所述算子在用戶未指定目標(biāo)值字段的情況下被啟動(dòng)時(shí),提供異常提醒。
可選地,在步驟(B)中,自動(dòng)或根據(jù)用戶的指示,將所有非目標(biāo)值字段聲明為離散特征,或者,將各個(gè)非目標(biāo)值字段聲明為與其字段值數(shù)據(jù)類型相應(yīng)的離散特征或連續(xù)特征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711445538.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書(shū)寫(xiě)字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫(huà)組成的,而且每個(gè)筆畫(huà)表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 在多個(gè)機(jī)器學(xué)習(xí)任務(wù)上訓(xùn)練機(jī)器學(xué)習(xí)模型
- 用于機(jī)器學(xué)習(xí)系統(tǒng)的學(xué)習(xí)教練
- 用于訓(xùn)練機(jī)器學(xué)習(xí)模型的方法及系統(tǒng)
- 用于機(jī)器學(xué)習(xí)模型的并行化坐標(biāo)下降法
- 機(jī)器學(xué)習(xí)裝置和機(jī)器學(xué)習(xí)裝置的機(jī)器學(xué)習(xí)方法
- 一種機(jī)器學(xué)習(xí)程序更新方法、裝置及設(shè)備
- 模型優(yōu)化方法、裝置、存儲(chǔ)介質(zhì)及服務(wù)器
- 修改機(jī)器學(xué)習(xí)模型以改善局部性
- 管理機(jī)器學(xué)習(xí)特征
- 一種基于強(qiáng)化學(xué)習(xí)的自動(dòng)化機(jī)器學(xué)習(xí)系統(tǒng)
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 界面自動(dòng)生成方法和界面自動(dòng)生成系統(tǒng)
- 數(shù)據(jù)自動(dòng)生成方法以及數(shù)據(jù)自動(dòng)生成系統(tǒng)
- 程序自動(dòng)生成裝置和程序自動(dòng)生成方法
- 基于ATE的測(cè)試程序自動(dòng)生成方法及ATE測(cè)試方法
- 報(bào)告自動(dòng)生成方法及自動(dòng)生成系統(tǒng)
- 醫(yī)囑的自動(dòng)生成裝置和自動(dòng)生成方法
- 病歷的自動(dòng)生成方法和自動(dòng)生成裝置
- 自動(dòng)本體生成的方法、系統(tǒng)和介質(zhì)
- 自動(dòng)代碼生成
- 自動(dòng)配置生成





