[發(fā)明專利]神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法、存儲介質及電子設備在審
| 申請?zhí)枺?/td> | 202010778784.6 | 申請日: | 2020-08-05 |
| 公開(公告)號: | CN111898692A | 公開(公告)日: | 2020-11-06 |
| 發(fā)明(設計)人: | 徐明偉;孟子立;王敏虎;白家松 | 申請(專利權)人: | 清華大學 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06N3/08;G06N3/04 |
| 代理公司: | 北京聿宏知識產(chǎn)權代理有限公司 11372 | 代理人: | 吳大建;金淼 |
| 地址: | 100084 北京市海淀區(qū)1*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 神經(jīng)網(wǎng)絡 決策樹 轉換 方法 存儲 介質 電子設備 | ||
本發(fā)明公開了一種神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法、存儲介質及電子設備,方法包括:獲取局部視野網(wǎng)絡系統(tǒng)的強化學習決策環(huán)境和神經(jīng)網(wǎng)絡決策策略,向強化學習決策環(huán)境中輸入初始值以得到觀測值和觀測值對應的值函數(shù),并將觀測值輸入至神經(jīng)網(wǎng)絡決策策略,以得到觀測值對應的輸出決策和q值向量,并將輸出決策作為新的初始值,直至得到設定數(shù)量的觀測值和與每個觀測值對應的輸出決策、值函數(shù)以及q值向量,并將每一個觀測值和觀測值對應的決策、值函數(shù)以及q值向量作為一組數(shù)據(jù)以得到包括多組數(shù)據(jù)的數(shù)據(jù)集,利用決策樹算法對數(shù)據(jù)集進行訓練以得到目標決策樹,通過上述方法獲得的目標決策樹結構清晰且便于理解,并能夠對待決策觀測值進行決策得到?jīng)Q策結果。
技術領域
本發(fā)明涉及機器學習技術領域,具體涉及一種神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換、存儲介質及電子設備。
背景技術
運用深度強化學習技術以使得計算機網(wǎng)絡能夠處理實驗數(shù)據(jù)并且得出關于其的結論。例如,深度強化學習訓練得到的神經(jīng)網(wǎng)絡可以用于擁塞控制、路由器數(shù)據(jù)流調度、視頻流媒體傳輸碼率調整等場景。然而,神經(jīng)網(wǎng)絡經(jīng)常包含成千上萬的神經(jīng)元,在決策過程中通常需要經(jīng)過一系列非線性的計算得出最終的結論,但由于現(xiàn)有的深度神經(jīng)網(wǎng)絡的結構復雜,不便于理解,因此難以獲得信任和使用。
發(fā)明內容
本發(fā)明的目的在于為基于深度強化學習的局部視野網(wǎng)絡系統(tǒng)提供了一種神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法、存儲介質及電子設備,用于獲得結構清晰且便于理解的決策樹。
第一方面,本發(fā)明提供一種神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法,所述方法包括:
步驟a:獲取局部視野網(wǎng)絡系統(tǒng)的強化學習決策環(huán)境和神經(jīng)網(wǎng)絡決策策略;
步驟b:向所述強化學習決策環(huán)境中輸入初始值并進行觀測以得到觀測值和該觀測值對應的值函數(shù),并將該觀測值輸入至所述神經(jīng)網(wǎng)絡決策策略,以得到該觀測值對應的輸出決策和q值向量;
步驟c:將所述輸出決策作為新的初始值,并返回執(zhí)行步驟b,直至得到設定數(shù)量的觀測值和與每個觀測值對應的輸出決策、值函數(shù)以及q值向量,并將每一個觀測值和該觀測值對應的決策、值函數(shù)以及q值向量作為一組數(shù)據(jù)以得到包括多組數(shù)據(jù)的數(shù)據(jù)集;
步驟d:利用決策樹算法對所述數(shù)據(jù)集進行訓練以得到目標決策樹,以使所述目標決策樹能夠對待決策觀測值進行決策得到?jīng)Q策結果。
可選的,在上述神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法中,利用決策樹算法對所述數(shù)據(jù)集進行訓練以得到?jīng)Q策樹,包括:
對所述數(shù)據(jù)集進行采樣,以得到采樣數(shù)據(jù)集;
對所述采樣數(shù)據(jù)集采用分類與回歸樹算法進行訓練,以得到初始決策樹;
對所述初始決策樹進行剪枝處理以得到目標決策樹。
可選的,在上述神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法中,對所述數(shù)據(jù)集進行采樣,以得到采樣數(shù)據(jù)集,包括:
對所述數(shù)據(jù)集利用預設采樣概率計算式進行采樣處理,以得到采樣數(shù)據(jù)集,其中,所述預設采樣概率計算式為表示只對括號中成立的情況進行計算,即D為數(shù)據(jù)集,i為觀測值,o為輸出決策,p(i,o)為觀測值的采樣概率,v(i)為值函數(shù),mino′q(i,o′)為將觀測值輸入至強化學習決策環(huán)境中得到多個輸出可能值中最小的輸出可能值對應的q值向量。
可選的,在上述神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法中,對所述初始決策樹進行剪枝處理以得到目標決策樹,包括:
計算所述初始決策樹中每個節(jié)點的代價復雜度,并根據(jù)每個所述節(jié)點的代價復雜度對各所述節(jié)點進行排序;
根據(jù)各所述節(jié)點的排序順序對所述初始決策樹中的節(jié)點進行修剪,以得到目標決策樹。
可選的,在上述神經(jīng)網(wǎng)絡到?jīng)Q策樹的轉換方法中,計算所述初始決策樹中每個節(jié)點的代價復雜度,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清華大學,未經(jīng)清華大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010778784.6/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡轉換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡
- 神經(jīng)網(wǎng)絡的生成方法、生成裝置和電子設備
- 一種舌診方法、裝置、計算設備及計算機存儲介質
- 學習神經(jīng)網(wǎng)絡結構
- 脈沖神經(jīng)網(wǎng)絡轉換方法及相關轉換芯片
- 圖像處理方法、裝置、可讀存儲介質和計算機設備
- 一種適應目標數(shù)據(jù)集的網(wǎng)絡模型微調方法、系統(tǒng)、終端和存儲介質
- 用于重構人工神經(jīng)網(wǎng)絡的處理器及其操作方法、電氣設備
- 一種圖像神經(jīng)網(wǎng)絡結構的優(yōu)化方法及裝置





