[發明專利]一種數據評估方法、裝置、終端設備及存儲介質在審
| 申請號: | 201810309805.2 | 申請日: | 2018-04-09 |
| 公開(公告)號: | CN108733631A | 公開(公告)日: | 2018-11-02 |
| 發明(設計)人: | 黃嚴漢;曾凡剛 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18 |
| 代理公司: | 深圳眾鼎專利商標代理事務所(普通合伙) 44325 | 代理人: | 周燕君 |
| 地址: | 518000 廣東省深圳市福田*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本數據 組合特征 準確率 決策樹算法 存儲介質 結果預測 數據評估 預設事件 終端設備 排序 數字化 預處理 邏輯回歸模型 決策樹模型 不確定性 輸入特征 樣本變量 應用梯度 二分類 決策樹 熱編碼 預測 評估 轉化 | ||
本發明公開了一種數據評估方法、裝置、終端設備及存儲介質,所述方法包括:通過對樣本數據集中的樣本變量進行預處理,得到按照特征值大小排序的名義變量,進而對按照特征值大小排序的名義變量進行獨熱編碼,將該名義變量轉化為數字化變量,然后對包含數字化變量的樣本數據集應用梯度提升決策樹算法,生成包含n棵決策樹的決策樹模型,采用梯度提升決策樹算法來獲取組合特征,提升了樣本數據組合特征預測的準確率,也提高組合特征獲取的效率,進而將組合特征作為二分類邏輯回歸模型的輸入特征進行預設事件結果預測,避免了人工尋找特征的繁瑣和不確定性,提升了樣本數據針對預設事件結果預測準確率,同時也提高了樣本數據評估的準確率與效率。
技術領域
本發明涉及計算機技術領域,尤其涉及一種數據評估方法、裝置、終端設備及存儲介質。
背景技術
現實生活中,我們需要對很多事物進行預測,比如:未來房價的走勢、天氣的變化等,在對這些事物進行預測時,往往需要采集大量的樣本數據,然后通過人工分析,找到這些樣本數據中與預設事件相關的必要特征,并對每個必要特征賦予一定的權重值,進而根據這些人工賦予權重的特征的特征值來計算預設事件的各種結果的概率,從而來評估樣本數據對預設事件的影響。
但是,隨著科學技術的快速發展,樣本數據越來越大,使用人工的方式去分析這些數據來選取必要特征,需要耗費大量的時間,使得效率低下,同時,人為的對這些特征賦予權重值,會對預測結果產生很大影響,導致樣本數據針對預設事件的預測結果準確率低。
發明內容
本發明實施例提供一種數據評估方法、裝置、終端設備及存儲介質,以解決使用人工的方式去對數據進行評估導致的效率較低、且準確率不高的問題。
第一方面,本發明實施例提供一種數據評估方法,包括:
對樣本數據集中的樣本變量進行預處理,得到按照特征值大小排序的名義變量;
對所述名義變量進行獨熱編碼,將所述名義變量轉化為數字化變量;
對包含所述數字化變量的所述樣本數據集應用梯度提升決策樹算法,生成包含n棵決策樹的決策樹模型;
將所述決策樹模型中每棵決策樹的路徑包含的特征作為自變量,基于二分類邏輯回歸模型,進行預設事件的結果預測。
第二方面,本發明實施例提供一種數據評估裝置,包括:
樣本變量預處理模塊,用于對樣本數據集中的樣本變量進行預處理,得到按照特征值大小排序的名義變量;
數字化變量獲取模塊,用于對所述名義變量進行獨熱編碼,將所述名義變量轉化為數字化變量;
決策樹模型生成模塊,用于對包含所述數字化變量的所述樣本數據集應用梯度提升決策樹算法,生成包含n棵決策樹的決策樹模型;
事件結果預測模塊,用于將所述決策樹模型中每棵決策樹的路徑包含的特征作為自變量,基于二分類邏輯回歸模型,進行預設事件的結果預測。
第三方面,本發明實施例提供一種終端設備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現所述數據評估方法的步驟。
第四方面,本發明實施例提供一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現所述數據評估方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810309805.2/2.html,轉載請聲明來源鉆瓜專利網。





