[發明專利]基于數據挖掘的建模方法及裝置在審
| 申請號: | 201611263812.0 | 申請日: | 2016-12-30 |
| 公開(公告)號: | CN106874933A | 公開(公告)日: | 2017-06-20 |
| 發明(設計)人: | 陳依云 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 深圳市沃德知識產權代理事務所(普通合伙)44347 | 代理人: | 高杰,于志光 |
| 地址: | 518000 廣東省深*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 數據 挖掘 建模 方法 裝置 | ||
技術領域
本發明涉及數據挖掘技術領域,尤其涉及一種基于數據挖掘的建模方法及裝置。
背景技術
目前,在與數據挖掘相關的建模中,通常收集到的備選建模指標數量較多,有時多達200個以上,但通常對建模有效的一般只有一部分,例如在200個備選建模指標中可能只有30個是有效的。為了從大量的備選建模指標中篩選出建模所需的有效指標,現有的方法是人工手動選出高相關度的指標進行建模,這種人工選擇的方法由于帶有主觀性,因此不能準確地選出建模的有效指標,且建模的效率低。
發明內容
本發明的目的在于提供一種基于數據挖掘的建模方法及裝置,旨在準確地選出相關性最弱的備選指標,提高建模效率。
為實現上述目的,本發明提供一種基于數據挖掘的建模方法,所述基于數據挖掘的建模方法包括:
S1,在收到待篩選的備選指標后,將所述備選指標均分成K個指標群;
S2,計算各指標群中每一備選指標的群內距離D1和群間距離D2,根據所述群內距離D1和群間距離D2并基于預定的計算規則計算各備選指標對應的篩選評價值A;
S3,根據所述篩選評價值A選擇備選指標,基于所述K值并利用所選擇的備選指標建立指標模型。
優選地,所述步驟S2包括:
S21,計算每一指標群下的備選指標的均值,根據所述均值獲取群中心集合,根據所述群中心集合計算每一備選指標與所述群中心集合的距離,以計算得到的距離作為所述群內距離D1;
S22,計算每一備選指標所在的指標群與其他各指標群的中心距離,從所述中心距離中獲取距離最小的對應的指標群,根據所獲取的指標群計算所述群間距離D2;
S23,計算所述篩選評價值A:A=(1-D1)/(1-D2)。
優選地,所述步驟S3包括:
S31,在每一指標群中,選出最大篩選評價值對應的至少一個備選指標和最小篩選評價值對應的至少一個備選指標;
S32,若所述K值大于等于預設閾值時,則利用各指標群挑選出的備選指標建立預定的一指標模型;
S33,若所述K值小于預設閾值時,則增大所述K值,重新計算篩選評價值并執行步驟S31,以利用各指標群選出的備選指標建立預定的另一指標模型。
優選地,所述步驟S3之后還包括:
S4,利用預定的驗證數據樣本對所建立的指標模型進行驗證,將驗證后準確率最高的指標模型作為基準模型進行應用。
優選地,所述步驟S4包括:
若準確率最高的指標模型的數量為1,則將該準確率最高的指標模型作為基準模型進行應用;
若準確率最高的指標模型的數量大于1,則隨機選擇一準確率最高的指標模型作為基準模型進行應用,或者,增加驗證數據樣本的數量,直至準確率最高的指標模型的數量為1,并將該準確率最高的指標模型作為基準模型進行應用。
為實現上述目的,本發明還提供一種基于數據挖掘的建模裝置,所述基于數據挖掘的建模裝置包括:
均分模塊,用于在收到待篩選的備選指標后,將所述備選指標均分成K個指標群;
計算模塊,用于計算各指標群中每一備選指標的群內距離D1和群間距離D2,根據所述群內距離D1和群間距離D2并基于預定的計算規則計算各備選指標對應的篩選評價值A;
建立模塊,用于根據所述篩選評價值A選擇備選指標,基于所述K值并利用所選擇的備選指標建立指標模型。
優選地,所述計算模塊包括:
第一計算單元,用于計算每一指標群下的備選指標的均值,根據所述均值獲取群中心集合,根據所述群中心集合計算每一備選指標與所述群中心集合的距離,以計算得到的距離作為所述群內距離D1;
第二計算單元,用于計算每一備選指標所在的指標群與其他各指標群的中心距離,從所述中心距離中獲取距離最小的對應的指標群,根據所獲取的指標群計算所述群間距離D2;
第三計算單元,用于計算所述篩選評價值A:A=(1-D1)/(1-D2)。
優選地,所述建立模塊包括:
選擇單元,用于在每一指標群中,選出最大篩選評價值對應的至少一個備選指標和最小篩選評價值對應的至少一個備選指標;
第一建立單元,用于若所述K值大于等于預設閾值時,則利用各指標群挑選出的備選指標建立預定的一指標模型;
第二建立單元,用于若所述K值小于預設閾值時,則增大所述K值,重新計算篩選評價值并選出的備選指標,以利用各指標群選出的備選指標建立預定的另一指標模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611263812.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種空心抽油桿接頭
- 下一篇:一種自行走式動力貓道及其行走方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





