[發(fā)明專利]基于機(jī)器學(xué)習(xí)模型解釋來(lái)分析數(shù)據(jù)的方法及裝置有效
| 申請(qǐng)?zhí)枺?/td> | 201810683818.6 | 申請(qǐng)日: | 2018-06-28 |
| 公開(kāi)(公告)號(hào): | CN108960434B | 公開(kāi)(公告)日: | 2021-07-20 |
| 發(fā)明(設(shè)計(jì))人: | 方榮;李福龍;楊慧斌;詹鎮(zhèn)江 | 申請(qǐng)(專利權(quán))人: | 第四范式(北京)技術(shù)有限公司 |
| 主分類號(hào): | G06N20/00 | 分類號(hào): | G06N20/00 |
| 代理公司: | 北京銘碩知識(shí)產(chǎn)權(quán)代理有限公司 11286 | 代理人: | 王秀君;魯恭誠(chéng) |
| 地址: | 100085 北京市海淀區(qū)上*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 機(jī)器 學(xué)習(xí) 模型 解釋 分析 數(shù)據(jù) 方法 裝置 | ||
本公開(kāi)涉及基于機(jī)器學(xué)習(xí)模型解釋來(lái)分析數(shù)據(jù)的方法及裝置。一種基于機(jī)器學(xué)習(xí)模型解釋來(lái)分析數(shù)據(jù)的方法包括:獲取并顯示模型解釋內(nèi)容,所述模型解釋內(nèi)容包括模型結(jié)構(gòu)解釋、模型特征重要性和模型預(yù)測(cè)解釋中的至少一種;接收用戶針對(duì)所述模型解釋內(nèi)容所顯示的特征名中的至少一個(gè)特征名作出的數(shù)據(jù)分析請(qǐng)求;分別計(jì)算所述至少一個(gè)特征名中的每個(gè)特征名下所有特征在訓(xùn)練樣本中的數(shù)據(jù)分布;以及以可視化方式輸出所述數(shù)據(jù)分布。
技術(shù)領(lǐng)域
本發(fā)明涉及機(jī)器學(xué)習(xí)領(lǐng)域,具體涉及一種基于機(jī)器學(xué)習(xí)模型解釋來(lái)分析數(shù)據(jù)的方法及裝置。
背景技術(shù)
傳統(tǒng)的機(jī)器學(xué)習(xí)建模過(guò)程需要大量的時(shí)間進(jìn)行數(shù)據(jù)分析,從而決定如何進(jìn)行特征處理。但是,針對(duì)實(shí)際的問(wèn)題,待分析的數(shù)據(jù)的量通常是非常龐大的。此時(shí),如果無(wú)差別地進(jìn)行數(shù)據(jù)分析,則將是一個(gè)非常繁瑣耗時(shí)的過(guò)程。然而,如果有差別地進(jìn)行數(shù)據(jù)分析,則會(huì)需要依賴用戶的足夠的業(yè)務(wù)經(jīng)驗(yàn)。
另外,如果僅僅通過(guò)模型指標(biāo)來(lái)了解模型的效果,則模型相當(dāng)于是一個(gè)黑盒,用戶并不理解模型的含義。
因此,在現(xiàn)有技術(shù)中,缺乏能夠在機(jī)器學(xué)習(xí)過(guò)程中有效地分析數(shù)據(jù)和理解模型的方案。
發(fā)明內(nèi)容
為了解決上述問(wèn)題,本發(fā)明提出一種基于機(jī)器學(xué)習(xí)模型解釋來(lái)分析數(shù)據(jù)的方法。
根據(jù)本發(fā)明,提供一種基于機(jī)器學(xué)習(xí)模型解釋來(lái)分析數(shù)據(jù)的方法,所述方法可包括:獲取并顯示模型解釋內(nèi)容,所述模型解釋內(nèi)容包括模型結(jié)構(gòu)解釋、模型特征重要性和模型預(yù)測(cè)解釋中的至少一種;接收用戶針對(duì)所述模型解釋內(nèi)容所顯示的特征名中的至少一個(gè)特征名作出的數(shù)據(jù)分析請(qǐng)求;分別計(jì)算所述至少一個(gè)特征名中的每個(gè)特征名下所有特征在訓(xùn)練樣本中的數(shù)據(jù)分布;以及以可視化方式輸出所述數(shù)據(jù)分布。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,對(duì)于離散特征,所述數(shù)據(jù)分布可以是按照標(biāo)記分組后的關(guān)于每個(gè)分組下的特征出現(xiàn)情況的堆疊柱狀圖、分組柱狀圖和/或散點(diǎn)圖。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,對(duì)于連續(xù)特征,所述數(shù)據(jù)分布可以是對(duì)按標(biāo)記分組后的特征進(jìn)行統(tǒng)計(jì)而獲得的平均值圖、點(diǎn)線圖和/或核密度估計(jì)圖。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述模型可以是邏輯回歸模型,并且,所述模型結(jié)構(gòu)解釋可被顯示為特征名、同一特征名下各個(gè)特征的權(quán)重值的分布信息和/或同一特征名下各個(gè)特征的維度信息。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,可通過(guò)箱線圖來(lái)分別表示同一特征名下各個(gè)特征的非零權(quán)重值和/或全部權(quán)重值的分布信息,其中,所述箱線圖包括以下項(xiàng)中的至少一項(xiàng):最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)和最大值。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述維度信息可指示以下項(xiàng)中的至少一項(xiàng):(1)同一特征名下權(quán)重值非零的特征的數(shù)量相對(duì)于所述同一特征名下的特征總數(shù)的占比;(2)同一特征名下所有特征的維度數(shù)和/或所述維度數(shù)相對(duì)于模型的特征總維度數(shù)的占比;(3)同一特征名下權(quán)重值非零的特征的維度數(shù)和/或所述維度數(shù)相對(duì)于模型的所有權(quán)重值非零的特征總維度數(shù)的占比。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述模型可以是邏輯回歸模型,并且,所述模型預(yù)測(cè)解釋可被顯示為預(yù)測(cè)樣本的特征及其對(duì)應(yīng)的權(quán)重;或者,所述模型可以是決策樹(shù)模型,并且,所述模型預(yù)測(cè)解釋可被顯示為預(yù)測(cè)樣本的決策路徑及其對(duì)應(yīng)的權(quán)重。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述數(shù)據(jù)分析請(qǐng)求可包括:針對(duì)模型解釋內(nèi)容所顯示的特征名中的所述至少一個(gè)特征名作出的懸停操作或點(diǎn)擊操作。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,所述方法還可包括:接收特征名搜索指令;根據(jù)所述特征名搜索指令在所述模型解釋內(nèi)容所顯示的特征名中搜索目標(biāo)特征名;顯示搜索到的目標(biāo)特征名以及對(duì)應(yīng)的數(shù)據(jù)分布。
根據(jù)本發(fā)明的一個(gè)實(shí)施例,以可視化方式輸出所述數(shù)據(jù)分布的步驟可包括:通過(guò)建立模型解釋內(nèi)容與所述數(shù)據(jù)分布的關(guān)聯(lián)性來(lái)顯示所述數(shù)據(jù)分布。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于第四范式(北京)技術(shù)有限公司,未經(jīng)第四范式(北京)技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810683818.6/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)





