[發明專利]一種特征信息識別方法及系統有效
| 申請號: | 201910132261.1 | 申請日: | 2019-02-22 |
| 公開(公告)號: | CN109858633B | 公開(公告)日: | 2021-02-02 |
| 發明(設計)人: | 郭振宇;黃炳;劉華杰;姜璐 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06N20/00 | 分類號: | G06N20/00 |
| 代理公司: | 北京三友知識產權代理有限公司 11127 | 代理人: | 王濤;任默聞 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 特征 信息 識別 方法 系統 | ||
本發明提供了一種特征信息識別方法及系統,包括:獲取待預測數據組的第一唯一標識對應的離散數據單元及連續數據單元;將第一唯一標識對應的離散數據單元輸入預設的離散模型計算生成預設的離散模型對應的第一預測值;第一預測值包括:第一唯一標識;將第一唯一標識對應的連續數據單元及第一預測值合并后輸入預設的連續模型計算生成預設的連續模型對應的第二預測值;第二預測值包括:第一唯一標識;根據第一唯一標識對應的待預測數據組及第二預測值生成待預測數據組對應的特征信息。本申請能夠提高機器學習算法對既包含離散型數據又包含連續型數據的數據處理效率,從而提高應用該機器學習算法進行特征信息識別的效率。
技術領域
本發明涉及計算機數據處理技術領域,尤其涉及一種特征信息識別方法及系統。
背景技術
目前,在機器學習領域,有兩類主要的機器學習算法:適用于離散型數據的算法和適用于連續型數據的算法,這兩類算法存在缺陷如下:
1、適用于離散型數據的機器學習算法(如:邏輯回歸),存在缺陷為:需要預先對樣本數據中的連續性數據進行離散化(樣本數據中有時會既包含有離散型數據,也包含連續型數據),但是離散算法(包括:分桶、分段、LOG處理等)的選擇會影響最終的評估結果。適用于離散型數據的機器學習算法處理過程復雜,選擇離散化算法過程中,需要經過多次試驗,才能評估得到較優的離散化算法。
2、適用于連續型數據的機器學習算法(如:GBDT算法),存在缺陷為:在模型訓練或預測過程中,GBDT的決策樹需要將離散型數據進行邏輯上的“是與非”處理。當離散型數據的類型(如職業類型有教師、醫生、工程師、農民、工人、導演、演員等)非常多的時候,會導致GBDT決策樹變得非常龐大,將大大降低了適用于連續型數據的機器學習算法的處理效率。
因此,對于既包含離散型數據又包含連續型數據的數據,現有的機器學習算法的處理過程復雜并且效率較低,會導致應用該機器學習算法進行特征信息識別效率低的問題。
發明內容
為了解決現有技術中的缺陷,本發明提供了一種特征信息識別方法及系統,能夠有效提高應用機器學習算法進行特征信息識別的效率。
為了實現上述目的,本發明提供了一種特征信息識別方法,該方法包括:
獲取待預測數據組的第一唯一標識對應的離散數據單元及連續數據單元;
將所述第一唯一標識對應的離散數據單元輸入預設的離散模型計算生成所述預設的離散模型對應的第一預測值;所述第一預測值包括:所述第一唯一標識;
將所述第一唯一標識對應的連續數據單元及所述第一預測值合并后輸入預設的連續模型計算生成所述預設的連續模型對應的第二預測值;所述第二預測值包括:所述第一唯一標識;
根據所述第一唯一標識對應的待預測數據組及所述第二預測值生成所述待預測數據組對應的特征信息。
本發明還提供了一種特征信息識別系統,該系統包括:
獲取單元,用于獲取待預測數據組的第一唯一標識對應的離散數據單元及連續數據單元;
第一生成單元,用于將所述第一唯一標識對應的離散數據單元輸入預設的離散模型計算生成所述預設的離散模型對應的第一預測值;所述第一預測值包括:所述第一唯一標識;
第二生成單元,用于將所述第一唯一標識對應的連續數據單元及所述第一預測值合并后輸入預設的連續模型計算生成所述預設的連續模型對應的第二預測值;所述第二預測值包括:所述第一唯一標識;
第三生成單元,用于根據所述第一唯一標識對應的待預測數據組及所述第二預測值生成所述待預測數據組對應的特征信息。
本發明還提供了一種電子設備,包括:存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現所述的特征信息識別方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910132261.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種確定閾值的方法及裝置
- 下一篇:一種戶外多媒體廣告牌監管系統
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





