[發明專利]一種基于KL散度的神經網絡模型性能評估方法在審
| 申請號: | 202210281756.2 | 申請日: | 2022-03-22 |
| 公開(公告)號: | CN114861866A | 公開(公告)日: | 2022-08-05 |
| 發明(設計)人: | 韓振華;李艷鵬;歐陽鵬 | 申請(專利權)人: | 北京清微智能信息技術有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 北京索睿邦知識產權代理有限公司 11679 | 代理人: | 朱玲 |
| 地址: | 102600 北京市大興區北京經濟技*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 kl 神經網絡 模型 性能 評估 方法 | ||
本發明涉及神經架構搜索領域,公開了一種基于KL散度的神經網絡模型性能評估方法,首先由需要評估的神經網絡模型加載測試樣本,然后提取出神經網絡的特征,并用t?SNE的方法對提取出的特征進行降維,最后,根據降維后的真實數據概率分布和噪聲數據概率分布計算出KL散度,并基于KL散度對模型進行評估。本發明公開的方法流程完善,實用性強,很好解決了傳統神經網絡模型評估計算資源占用高、評估時間長的問題,為神經網絡的設計和優化提供了很好的參考和依據。
技術領域
本發明涉及神經架構搜索領域,具體涉及一種基于KL散度的神經網絡模型性能評估方法。
背景技術
神經網絡可以自動從數據集中學習出有用的特征,脫離了對特征工程的依賴,在處理計算機視覺任務和自然語言處理任務上都取得了顯著的成就,但手工設計出高性能的神經網絡需要專業的知識與反復的試驗,所花費的時間和精力成本極高,這些弊端限制了神經網絡在很多問題上的應用。
神經架構搜索技術是一種神經網絡自動化設計的技術,其目標是在一個搜索空間中尋找到適合指定任務的高性能神經網絡結構,在某些任務上甚至能搜索出目前還未提出的高性能神經網絡模型。
目前用于神經架構搜索的方法,都需要對候選網絡進行訓練,然后獲取模型的精度、處理速度等性能信息,但由于神經架構的搜索空間巨大,導致驗證一個神經架構搜索算法的有效性需要大量的計算資源和時間。
發明內容
為了解決上述背景技術中提到的至少一個問題,本發明提出了一種基于KL散度的神經網絡模型性能評估方法。
一種基于KL散度的神經網絡模型性能評估方法,包括步驟:
步驟S1,建立數據集,并從所述數據集中抽取樣本建立測試樣本集,抽取樣本的方法為隨機抽取,抽取的樣本量為128;具體地,測試樣本集是由真實數據和噪聲數據,按照1:1的比例混合而成,所述噪聲數據是對真實數據添加隨機噪聲而生成的數據,具體計算公式為:
其中,
步驟S2,加載神經網絡模型,在所述神經模型的前向推理過程,對所述測試樣本集進行循環遍歷,依次讀取所述測試樣本集中的樣本;
步驟S3,對所述神經網絡的卷積層進行特征提取,將提取出來的高維特征進行t-SNE降維,并計算出降維特征的概率,具體包括步驟:
步驟S301,對所述神經網絡的卷積層進行特征提取,包括提取神經網絡最后一層卷積層的特征和提取神經網絡多層卷積的融合特征;
步驟S302,將提取出來的高維特征進行降維,具體計算公式為:
其中,,表示降維后的結果,t表示迭代次數,表示學習率,表示動量,F表示損失函數;
步驟S302,計算出降維特征的概率,具體計算公式為:
其中,為低維空間中特征點之間的概率,,表示初始化高維數據的結果。
步驟S4,根據所述概率密度計算出真實數據和噪聲數據特征之間的KL散度,并評估模型,具體包括步驟:
步驟S401,根據低維空間中特征點之間的概率,計算出真實數據特征與噪聲數據特征之間的KL散度,計算公式為:
其中,表示KL散度,表示真實數據特征點之間的概率,表示噪聲數據特征點之間的概率;
步驟S402,計算測試樣本集中真實數據和噪聲數據特征之間KL散度矩陣:
其中,表示KL散度,表示樣本量大小;
步驟S403,根據KL散度矩陣計算其行列式的值,具體公式如下:
步驟S404,根據行列式的值value評估模型的性能,具體計算公式為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京清微智能信息技術有限公司,未經北京清微智能信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210281756.2/2.html,轉載請聲明來源鉆瓜專利網。





