[發明專利]特征抽取方法、機器學習方法及其裝置在審
| 申請號: | 201910743847.1 | 申請日: | 2016-01-08 |
| 公開(公告)號: | CN110442417A | 公開(公告)日: | 2019-11-12 |
| 發明(設計)人: | 白楊;陳雨強 | 申請(專利權)人: | 第四范式(北京)技術有限公司 |
| 主分類號: | G06F9/451 | 分類號: | G06F9/451;G06N20/00 |
| 代理公司: | 北京銘碩知識產權代理有限公司 11286 | 代理人: | 徐璐璐;朱志玲 |
| 地址: | 100085 北京市海淀區上*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 字段 特征抽取 預定特征 數據記錄 配置項 數據處理函數 機器學習 數據處理 抽取 機器學習技術 可執行代碼 獲取數據 預先編程 裝置提供 大數據 重用性 編程 引用 記錄 應用 | ||
提供了特征抽取方法、機器學習方法和對應的裝置。特征抽取方法包括:獲取數據記錄;獲取用于限定如何從數據記錄抽取預定特征的特征抽取配置項,其中,每種預定特征的特征抽取配置項包括來源字段項和處理方法項,來源字段項用于將每種預定特征所涉及的數據記錄的字段限定為來源字段,處理方法項用于指定對預先編程為可執行代碼的數據處理函數的引用,其中,數據處理函數用于針對由來源字段項限定的來源字段的字段值執行用于抽取所述每種預定特征的數據處理;基于特征抽取配置項對數據記錄的字段值執行數據處理以獲取所述預定特征的特征值。根據本發明實施例的特征抽取和機器學習技術增強了編程的靈活性和代碼的重用性,特別適合于大數據應用。
本申請是申請日為2016年1月8日、申請號為201610011587.5、題為“特征抽取方法、機器學習方法及其裝置”的專利申請的分案申請。
技術領域
本發明總體地涉及信息技術領域,更具體地涉及特征抽取方法、機器學習方法以及對應的裝置。
背景技術
在數據挖掘、機器學習等信息技術領域,所處理的對象為數據,在對浩瀚的數據進行處理之前,通常都要對數據進行特征抽取。
特征可作為數據處理的原材料,簡單說來,每條數據記錄可包括多個字段,而特征可指示各字段本身、或字段的局部、或字段的組合、或字段的變換或其它處理結果等,以幫助更好地反映數據分布的內在關聯與潛在含義。以數據挖掘領域作為示例,特征是機器學習系統的原材料,對最終模型具有顯著的影響,其中,高效、準確地提取特征能夠幫助學習過程更好地提煉數據規律,從多個角度透析數據分布中的內在關聯與潛在涵義。這個過程在機器學習中稱為特征工程。特征工程的產出作為機器學習的素材,其質量好壞直接決定了機器學習問題刻畫的準確性,進而影響模型的優劣。
實際上,不限于機器學習領域中的特征工程,在現有的任何數據處理系統中,通常都需要進行特征抽取,而為了從各字段內容中提取出相應的特征,普遍需要程序員針對每一類特征編寫可執行的程序代碼來進行特征抽取。
例如,當希望獲取給定數據(“data”)中每條記錄的時間字段中的年份信息時,可以通過執行下面一段python程序來實現
#param:list-data stores records of fields as list of dictionary
#param:string-‘YYYY-MM-DD’formatted date field
#return:list-Year sequence for each record
def getYearOf(data):
timeFields=[rec[‘time’]for rec in data]
years=map(lambda x:x.split(‘-‘)[0],timeFields)
return years
在上述程序中,定義了一段用于從數據源(data)中原樣抽取各個數據記錄(rec)的年份(year)字段作為年份特征的代碼,其中,首先從數據源的記錄中提取時間字段,并按照時間字段的特定格式(yyyy-mm-dd)提取出以“-”分割出的yyyy(即,下標為0的部分),將其映射到特征years,并返回提取的年份值。
可見,該段程序對于數據(年份字段)的格式以及特征抽取的輸出都做了較強的約束。即,該段特征抽取代碼是針對特定格式的數據和特定的輸出定制的。因此,一般地,如果給定的數據的數據格式不同,和/或要取得的特征輸出不同,那么都需要針對其具體格式、所使用的算法來編寫內容迥異的代碼。即便僅僅數據記錄的字段輸入順序或特征輸出順序不同,都要重新編寫一套完全定制化的代碼。這不僅給程序員帶來繁復的工作負擔,而且也將在程序運行上耗費較大的開銷。鑒于實際應用場景的多樣化、數據規格的多元化,這種蠻力做法很難擴展與復用。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于第四范式(北京)技術有限公司,未經第四范式(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910743847.1/2.html,轉載請聲明來源鉆瓜專利網。





