[發(fā)明專利]樣本特征重要性的確定方法及裝置,電子設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201810130132.4 | 申請(qǐng)日: | 2018-02-08 |
| 公開(公告)號(hào): | CN108416368A | 公開(公告)日: | 2018-08-17 |
| 發(fā)明(設(shè)計(jì))人: | 徐俊;李尚強(qiáng);翟藝濤 | 申請(qǐng)(專利權(quán))人: | 北京三快在線科技有限公司 |
| 主分類號(hào): | G06K9/62 | 分類號(hào): | G06K9/62 |
| 代理公司: | 北京潤(rùn)澤恒知識(shí)產(chǎn)權(quán)代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100083 北京市海*** | 國(guó)省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 樣本特征 樣本 輸入樣本 葉子節(jié)點(diǎn) 樹模型 重要性評(píng)估 預(yù)測(cè) 計(jì)算機(jī)技術(shù)領(lǐng)域 決策 遞歸計(jì)算 電子設(shè)備 父節(jié)點(diǎn) 申請(qǐng) 覆蓋 | ||
本申請(qǐng)涉及一種樣本特征重要性的確定方法,屬于計(jì)算機(jī)技術(shù)領(lǐng)域,解決現(xiàn)有技術(shù)中無(wú)法對(duì)單個(gè)樣本的特征進(jìn)行重要性評(píng)估的問(wèn)題。所述方法包括:根據(jù)樹模型各葉子節(jié)點(diǎn)覆蓋的樣本數(shù)量和各所述葉子節(jié)點(diǎn)對(duì)應(yīng)的樣本預(yù)測(cè)分?jǐn)?shù),遞歸計(jì)算所述樹模型每條決策路徑上所述葉子節(jié)點(diǎn)的父節(jié)點(diǎn)以上各層中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的樣本預(yù)測(cè)分?jǐn)?shù);通過(guò)所述樹模型對(duì)輸入樣本進(jìn)行預(yù)測(cè),確定所述輸入樣本的決策路徑;根據(jù)所述決策路徑上各節(jié)點(diǎn)對(duì)應(yīng)的所述樣本預(yù)測(cè)分?jǐn)?shù)和所述樣本特征,確定所述輸入樣本的每個(gè)樣本特征的重要性。本申請(qǐng)公開的樣本特征重要性的確定方法可以實(shí)現(xiàn)對(duì)單個(gè)樣本的每個(gè)樣本特征的重要性評(píng)估。
技術(shù)領(lǐng)域
本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別是涉及一種樣本特征重要性的確定方法及裝置,電子設(shè)備。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,海量數(shù)據(jù)的處理和應(yīng)用日益重要。通過(guò)機(jī)器學(xué)習(xí)的方法,利用海量數(shù)據(jù)訓(xùn)練機(jī)器模型,用于業(yè)務(wù)指標(biāo)等應(yīng)用日益廣泛。通常的做法是:首先,基于訓(xùn)練樣本提取預(yù)設(shè)特征;然后,基于提取的樣本特征訓(xùn)練機(jī)器學(xué)習(xí)模型;最后,通過(guò)訓(xùn)練好的機(jī)器學(xué)習(xí)模型進(jìn)行業(yè)務(wù)指標(biāo)(如點(diǎn)擊率、曝光率等)的預(yù)估。現(xiàn)有技術(shù)中,對(duì)于業(yè)務(wù)層面,訓(xùn)練得到的機(jī)器學(xué)習(xí)模型就是個(gè)黑盒子,無(wú)法解釋樣本特征和預(yù)估的業(yè)務(wù)指標(biāo)之間的關(guān)系。例如,在預(yù)測(cè)場(chǎng)景中,通過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型預(yù)測(cè)一個(gè)商圈的熱度時(shí),無(wú)法告訴商家哪些特征導(dǎo)致該商圈熱度發(fā)生變化;在推薦排序場(chǎng)景中,通過(guò)訓(xùn)練的機(jī)器學(xué)習(xí)模型給用戶推薦了一家餐廳,卻無(wú)法給出推薦原因。
現(xiàn)有技術(shù)中的一種樣本特征的重要性確定方法的具體方案為:首先結(jié)合不同的重要性未知的樣本特征訓(xùn)練相應(yīng)復(fù)合機(jī)器學(xué)習(xí)模型,然后,通過(guò)比較不同復(fù)合機(jī)器學(xué)習(xí)模型的表現(xiàn)預(yù)估相應(yīng)樣本特征的重要性。
可見,現(xiàn)有技術(shù)中的樣本特征的重要性確定方法,僅能對(duì)全部樣本的某個(gè)特征的重要性進(jìn)行評(píng)估,而無(wú)法對(duì)某個(gè)樣本的某個(gè)特征的重要性進(jìn)行評(píng)估。
發(fā)明內(nèi)容
本申請(qǐng)?zhí)峁┮环N樣本特征重要性的確定方法,至少解決現(xiàn)有技術(shù)中的樣本特征重要性的確定方法無(wú)法對(duì)單個(gè)樣本的特征進(jìn)行重要性評(píng)估的問(wèn)題。
為了解決上述問(wèn)題,第一方面,本申請(qǐng)實(shí)施例提供了一種樣本特征重要性的確定方法包括:
根據(jù)樹模型各葉子節(jié)點(diǎn)覆蓋的樣本數(shù)量和各所述葉子節(jié)點(diǎn)對(duì)應(yīng)的樣本預(yù)測(cè)分?jǐn)?shù),遞歸計(jì)算所述樹模型每條決策路徑上所述葉子節(jié)點(diǎn)的父節(jié)點(diǎn)以上各層中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的樣本預(yù)測(cè)分?jǐn)?shù),其中,所述葉子節(jié)點(diǎn)的父節(jié)點(diǎn)以上各層中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)樣本特征;
根據(jù)所述決策路徑上各節(jié)點(diǎn)對(duì)應(yīng)的所述樣本預(yù)測(cè)分?jǐn)?shù)和所述樣本特征,確定所述輸入樣本的每個(gè)樣本特征的重要性。
第二方面,本申請(qǐng)實(shí)施例提供了一種樣本特征重要性的確定方法包括:
樣本預(yù)測(cè)分?jǐn)?shù)計(jì)算模塊,用于根據(jù)樹模型各葉子節(jié)點(diǎn)覆蓋的樣本數(shù)量和各所述葉子節(jié)點(diǎn)對(duì)應(yīng)的樣本預(yù)測(cè)分?jǐn)?shù),遞歸計(jì)算所述樹模型每條決策路徑上所述葉子節(jié)點(diǎn)的父節(jié)點(diǎn)以上各層中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)的樣本預(yù)測(cè)分?jǐn)?shù),其中,所述葉子節(jié)點(diǎn)的父節(jié)點(diǎn)以上各層中每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)樣本特征;
決策路徑確定模塊,用于通過(guò)所述樹模型對(duì)輸入樣本進(jìn)行預(yù)測(cè),確定所述輸入樣本的決策路徑;
樣本特征重要性確定模塊,用于根據(jù)所述決策路徑上各節(jié)點(diǎn)對(duì)應(yīng)的所述樣本預(yù)測(cè)分?jǐn)?shù)和所述樣本特征,確定所述輸入樣本的每個(gè)樣本特征的重要性。
第三方面,本申請(qǐng)實(shí)施例還公開了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在所述存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例所述的樣本特征重要性的確定方法。
第六方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)本申請(qǐng)實(shí)施例公開的樣本特征重要性的確定方法的步驟。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810130132.4/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識(shí)別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識(shí)別印刷或書寫字符或者用于識(shí)別圖形,例如,指紋的方法或裝置
G06K9-03 .錯(cuò)誤的檢測(cè)或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個(gè)筆畫組成的,而且每個(gè)筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無(wú)須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 一種登記生物特征樣本的方法及裝置
- 打印樣本特征集
- 通過(guò)自動(dòng)地調(diào)整樣本特征來(lái)組合音頻樣本
- 基于特征空間的樣本采集方法和樣本采集系統(tǒng)
- 樣本分類方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 特征選擇方法和特征選擇服務(wù)系統(tǒng)
- 視頻中的多模態(tài)特征融合方法、裝置、電子設(shè)備及介質(zhì)
- 神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練方法、識(shí)別方法、存儲(chǔ)介質(zhì)以及設(shè)備
- 一種反洗錢模型的訓(xùn)練方法及裝置
- 樣本特征確定方法、樣本特征確定裝置和電子設(shè)備
- 樣本引入裝置、樣本引入基片和樣本引入方法
- 樣本查找方法、裝置及系統(tǒng)
- 模型訓(xùn)練、樣本平衡方法及裝置以及個(gè)人信用評(píng)分系統(tǒng)
- 樣本輸送系統(tǒng)、樣本輸送方法以及樣本檢測(cè)系統(tǒng)
- 樣本分析裝置、樣本檢測(cè)設(shè)備及樣本檢測(cè)方法
- 樣本檢測(cè)方法、樣本檢測(cè)裝置及樣本檢測(cè)系統(tǒng)
- 樣本架、樣本混勻系統(tǒng)及樣本分析儀
- 樣本收集管及樣本收集系統(tǒng)
- 樣本數(shù)據(jù)集的擴(kuò)容方法及模型的訓(xùn)練方法
- 行人重識(shí)別的噪聲樣本識(shí)別方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 用于分組網(wǎng)中的時(shí)鐘分布的速率可變型組播傳輸
- 分形樹中向量數(shù)據(jù)回傳處理單元的裝置、方法、控制裝置及智能芯片
- 一種基于雙數(shù)組的trie樹節(jié)點(diǎn)壓縮方法及裝置
- 全結(jié)構(gòu)范圍的帶寬管理
- 控制頁(yè)面資源執(zhí)行的方法及裝置
- 限流方法及裝置
- 藍(lán)牙網(wǎng)絡(luò)及其通信方法、設(shè)備和存儲(chǔ)介質(zhì)
- 一種防止BFD震蕩的系統(tǒng)及方法
- 基于模型訓(xùn)練的節(jié)點(diǎn)解析方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 網(wǎng)頁(yè)信息的提取方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





