[發(fā)明專利]特征處理方法及系統(tǒng)、可讀存儲(chǔ)介質(zhì)在審
| 申請?zhí)枺?/td> | 202211680522.1 | 申請日: | 2022-12-27 |
| 公開(公告)號(hào): | CN115952875A | 公開(公告)日: | 2023-04-11 |
| 發(fā)明(設(shè)計(jì))人: | 毛遠(yuǎn)曼;張宇;何鑫;賀旭 | 申請(專利權(quán))人: | 用友網(wǎng)絡(luò)科技股份有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00;G06F18/214 |
| 代理公司: | 北京友聯(lián)知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11343 | 代理人: | 趙文穎 |
| 地址: | 100094*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 特征 處理 方法 系統(tǒng) 可讀 存儲(chǔ) 介質(zhì) | ||
本申請?zhí)峁┝艘环N特征處理方法及系統(tǒng)、可讀存儲(chǔ)介質(zhì),特征處理方法包括:獲取待處理數(shù)據(jù);對待處理數(shù)據(jù)進(jìn)行類型判斷,得到數(shù)據(jù)類型;根據(jù)數(shù)據(jù)類型,通過統(tǒng)計(jì)分析方法對待處理數(shù)據(jù)進(jìn)行分析,得到數(shù)據(jù)特征;根據(jù)數(shù)據(jù)特征自動(dòng)選取相應(yīng)的數(shù)據(jù)處理方法對待處理數(shù)據(jù)進(jìn)行處理,得到優(yōu)化數(shù)據(jù)。通過本申請的技術(shù)方案,能夠自動(dòng)根據(jù)數(shù)據(jù)特征選擇合適的數(shù)據(jù)處理方法,避免重復(fù)性處理操作,保證了高精度的同時(shí)可以最小化時(shí)間及人力成本,提升了數(shù)據(jù)處理效率。
技術(shù)領(lǐng)域
本申請涉及計(jì)算機(jī)信息技術(shù)領(lǐng)域,具體而言,涉及一種特征處理方法及系統(tǒng)、可讀存儲(chǔ)介質(zhì)。
背景技術(shù)
特征處理是機(jī)器學(xué)習(xí)中的重要步驟,數(shù)據(jù)和特征對機(jī)器學(xué)習(xí)能力有著重要影響,目前特征處理領(lǐng)域沒有一個(gè)統(tǒng)一的特征處理方法,主要根據(jù)算法開發(fā)者自身經(jīng)驗(yàn)選擇處理方法,隨意性較強(qiáng),處理過程繁雜,特征處理包括異常值處理、缺失值處理、數(shù)據(jù)變化等多個(gè)步驟,處理步驟多,處理過程麻煩,每一個(gè)特征處理的步驟都有多種方法可選,模型訓(xùn)練效果受許多的處理決策影響,如需選擇適合于所使用數(shù)據(jù)的特征處理方法,需要多次驗(yàn)證實(shí)驗(yàn),耗費(fèi)精力大。
發(fā)明內(nèi)容
本申請旨在解決或改善上述技術(shù)問題。
為此,本申請的第一目的在于提供一種特征處理方法。
本申請的第二目的在于提供一種特征處理系統(tǒng)。
本申請的第三目的在于提供一種特征處理系統(tǒng)。
本申請的第四目的在于提供一種可讀存儲(chǔ)介質(zhì)。
為實(shí)現(xiàn)本申請的第一目的,本申請第一方面的技術(shù)方案提供了一種特征處理方法,包括:獲取待處理數(shù)據(jù);對待處理數(shù)據(jù)進(jìn)行類型判斷,得到數(shù)據(jù)類型;根據(jù)數(shù)據(jù)類型,通過統(tǒng)計(jì)分析方法對待處理數(shù)據(jù)進(jìn)行分析,得到數(shù)據(jù)特征;根據(jù)數(shù)據(jù)特征自動(dòng)選取相應(yīng)的數(shù)據(jù)處理方法對待處理數(shù)據(jù)進(jìn)行處理,得到優(yōu)化數(shù)據(jù)。
根據(jù)本申請?zhí)峁┑奶卣魈幚矸椒ǎ紫全@取待處理數(shù)據(jù),對待處理數(shù)據(jù)進(jìn)行類型判斷,得到數(shù)據(jù)類型。然后根據(jù)數(shù)據(jù)類型,用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)分析,從而提取數(shù)據(jù)中的有用信息,發(fā)現(xiàn)數(shù)據(jù)特征,加深對數(shù)據(jù)的理解。最后根據(jù)數(shù)據(jù)分析中得到的數(shù)據(jù)特征,選取相應(yīng)的最優(yōu)數(shù)據(jù)處理方法對待處理數(shù)據(jù)進(jìn)行處理,以優(yōu)化數(shù)據(jù)在模型中的表現(xiàn)。基于提取出的數(shù)據(jù)特征,全自動(dòng)化進(jìn)行特征處理,自動(dòng)為待處理數(shù)據(jù)選取最優(yōu)的處理方案,無需人為干預(yù),用戶只要提供待處理數(shù)據(jù),就能夠自動(dòng)決定最佳的數(shù)據(jù)處理方法,用戶不用再為了選擇合適的數(shù)據(jù)處理方法而進(jìn)行繁復(fù)的數(shù)據(jù)分析步驟。并且能夠形成通用化的特征處理流程,適用性廣,可復(fù)制性高,避免重復(fù)性處理操作,保證了高精度的同時(shí)可以最小化時(shí)間及人力成本,提升數(shù)據(jù)處理效率。同時(shí)幫助用戶基于數(shù)據(jù)集自動(dòng)創(chuàng)建能夠最好的用于訓(xùn)練的特征,從而讓用戶有更多的時(shí)間專注于構(gòu)建機(jī)器學(xué)習(xí)模型的其他方面,優(yōu)化模型訓(xùn)練流程。
另外,本申請?zhí)峁┑募夹g(shù)方案還可以具有如下附加技術(shù)特征:
上述技術(shù)方案中,特征處理方法還包括:對比待處理數(shù)據(jù)與優(yōu)化數(shù)據(jù),驗(yàn)證優(yōu)化數(shù)據(jù)的處理效果。
在該技術(shù)方案中,特征處理方法還包括對比待處理數(shù)據(jù)與優(yōu)化數(shù)據(jù),驗(yàn)證優(yōu)化數(shù)據(jù)的處理效果。可以理解,驗(yàn)證處理后的數(shù)據(jù)效果,對比數(shù)據(jù)在不同處理方案中處理前后的差異,能夠證明數(shù)據(jù)處理流程的有效性。
上述技術(shù)方案中,特征處理方法還包括:基于優(yōu)化數(shù)據(jù)構(gòu)建特征集。
在該技術(shù)方案中,特征處理方法還包括基于優(yōu)化數(shù)據(jù)構(gòu)建特征集,能夠幫助用戶基于數(shù)據(jù)集自動(dòng)創(chuàng)建能夠最好的用于訓(xùn)練的特征,從而讓用戶有更多的時(shí)間專注于構(gòu)建機(jī)器學(xué)習(xí)模型的其他方面,優(yōu)化模型訓(xùn)練流程。
上述技術(shù)方案中,類型判斷包括數(shù)值型的類型判斷和/或類別型的類型判斷。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于用友網(wǎng)絡(luò)科技股份有限公司,未經(jīng)用友網(wǎng)絡(luò)科技股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211680522.1/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測試終端的測試方法
- 一種服裝用人體測量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





