[發(fā)明專利]針對(duì)機(jī)器學(xué)習(xí)的特征處理方法及特征處理系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201610880712.6 | 申請(qǐng)日: | 2016-10-09 |
| 公開(公告)號(hào): | CN107871166B | 公開(公告)日: | 2020-08-21 |
| 發(fā)明(設(shè)計(jì))人: | 羅遠(yuǎn)飛;涂威威 | 申請(qǐng)(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00 |
| 代理公司: | 北京博雅睿泉專利代理事務(wù)所(特殊普通合伙) 11442 | 代理人: | 馬鐵良 |
| 地址: | 100085 北京市海淀區(qū)*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 針對(duì) 機(jī)器 學(xué)習(xí) 特征 處理 方法 系統(tǒng) | ||
1.一種針對(duì)文本信息的特征處理方法,包括:
(A)獲取文本信息數(shù)據(jù),對(duì)所述文本信息數(shù)據(jù)進(jìn)行文本分析以及格式轉(zhuǎn)換處理,得到包含所述文本信息的數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括至少一個(gè)屬性信息,獲取所述屬性信息的連續(xù)特征及離散特征;
(B)針對(duì)基于所述至少一個(gè)屬性信息之中的至少一部分屬性信息產(chǎn)生的連續(xù)特征之中的每一個(gè)連續(xù)特征,執(zhí)行基本分箱運(yùn)算和至少一個(gè)附加運(yùn)算,以產(chǎn)生與所述每一個(gè)連續(xù)特征對(duì)應(yīng)的基本分箱特征和至少一個(gè)附加特征;
(C)產(chǎn)生至少包括所產(chǎn)生的基本分箱特征和至少一個(gè)附加特征的機(jī)器學(xué)習(xí)樣本,
其中,步驟(C)中產(chǎn)生的機(jī)器學(xué)習(xí)樣本被用于基于機(jī)器學(xué)習(xí)模型的預(yù)測處理。
2.如權(quán)利要求1所述的特征處理方法,其中,所述至少一個(gè)附加運(yùn)算包括以下種類的運(yùn)算之中的至少一種運(yùn)算:對(duì)數(shù)運(yùn)算、指數(shù)運(yùn)算、絕對(duì)值運(yùn)算、高斯變換運(yùn)算。
3.如權(quán)利要求1或2所述的特征處理方法,其中,所述至少一個(gè)附加運(yùn)算包括與基本分箱運(yùn)算分箱方式相同但分箱參數(shù)不同的附加分箱運(yùn)算;或者,所述至少一個(gè)附加運(yùn)算包括與基本分箱運(yùn)算分箱方式不同的附加分箱運(yùn)算。
4.如權(quán)利要求3所述的特征處理方法,其中,分箱方式包括有監(jiān)督分箱和/或無監(jiān)督分箱下的分箱方式。
5.如權(quán)利要求3所述的特征處理方法,其中,基本分箱運(yùn)算和附加分箱運(yùn)算分別對(duì)應(yīng)于不同寬度的等寬分箱運(yùn)算或不同深度的等深分箱。
6.如權(quán)利要求5所述的特征處理方法,其中,所述不同寬度或不同深度在數(shù)值上構(gòu)成等比數(shù)列或等差數(shù)列。
7.如權(quán)利要求3所述的特征處理方法,其中,在步驟(B)中,執(zhí)行基本分箱運(yùn)算和/或附加分箱運(yùn)算,以產(chǎn)生與所述每一個(gè)連續(xù)特征對(duì)應(yīng)的多維度的基本分箱特征和/或附加分箱特征,其中,每個(gè)維度指示對(duì)應(yīng)的箱子中是否被分到了相應(yīng)的連續(xù)特征;或者,每個(gè)維度指示對(duì)應(yīng)的箱子中被分到的相應(yīng)的連續(xù)特征的特征值;或者,每個(gè)維度指示對(duì)應(yīng)的箱子中被分到的所有連續(xù)特征的特征值的平均值;或者,每個(gè)維度指示對(duì)應(yīng)的箱子中被分到的所有連續(xù)特征的特征值的中間值;或者,每個(gè)維度指示對(duì)應(yīng)的箱子中被分到的所有連續(xù)特征的特征值的邊界值。
8.如權(quán)利要求3所述的特征處理方法,其中,在步驟(B)中,執(zhí)行基本分箱運(yùn)算和/或附加分箱運(yùn)算的步驟包括:額外設(shè)置離群箱,使得具有離群值的連續(xù)特征被分到所述離群箱。
9.如權(quán)利要求1所述的特征處理方法,其中,在步驟(C)中產(chǎn)生的機(jī)器學(xué)習(xí)樣本還包括基于所述至少一部分屬性信息產(chǎn)生的所述連續(xù)特征之中的至少一個(gè)連續(xù)特征。
10.一種針對(duì)文本信息的特征處理系統(tǒng),包括:
文本信息數(shù)據(jù)獲取裝置,用于獲取文本信息數(shù)據(jù),對(duì)所述文本信息數(shù)據(jù)進(jìn)行文本分析以及格式轉(zhuǎn)換處理,得到包含所述文本信息的數(shù)據(jù)記錄,其中,所述數(shù)據(jù)記錄包括至少一個(gè)屬性信息,還用于獲取所述屬性信息的連續(xù)特征及離散特征;
特征產(chǎn)生裝置,用于針對(duì)基于所述至少一個(gè)屬性信息之中的至少一部分屬性信息產(chǎn)生的連續(xù)特征之中的每一個(gè)連續(xù)特征,執(zhí)行基本分箱運(yùn)算和至少一個(gè)附加運(yùn)算,以產(chǎn)生與所述每一個(gè)連續(xù)特征對(duì)應(yīng)的基本分箱特征和至少一個(gè)附加特征;
機(jī)器學(xué)習(xí)樣本產(chǎn)生裝置,用于產(chǎn)生至少包括所產(chǎn)生的基本分箱特征和至少一個(gè)附加特征的機(jī)器學(xué)習(xí)樣本,
其中,由機(jī)器學(xué)習(xí)樣本產(chǎn)生裝置產(chǎn)生的機(jī)器學(xué)習(xí)樣本被用于基于機(jī)器學(xué)習(xí)模型的預(yù)測處理。
11.如權(quán)利要求10所述的特征處理系統(tǒng),其中,所述至少一個(gè)附加運(yùn)算包括以下種類的運(yùn)算之中的至少一種運(yùn)算:對(duì)數(shù)運(yùn)算、指數(shù)運(yùn)算、絕對(duì)值運(yùn)算、高斯變換運(yùn)算。
12.如權(quán)利要求10或11所述的特征處理系統(tǒng),其中,所述至少一個(gè)附加運(yùn)算包括與基本分箱運(yùn)算分箱方式相同但分箱參數(shù)不同的附加分箱運(yùn)算;或者,所述至少一個(gè)附加運(yùn)算包括與基本分箱運(yùn)算分箱方式不同的附加分箱運(yùn)算。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610880712.6/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測方法及系統(tǒng)





