[發明專利]一種基于凍結神經元的深度神經網絡模型變異的方法在審
| 申請號: | 202110781497.5 | 申請日: | 2021-07-09 |
| 公開(公告)號: | CN115600636A | 公開(公告)日: | 2023-01-13 |
| 發明(設計)人: | 劉嘉;陳澤珺;章許帆 | 申請(專利權)人: | 南京大學 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 210000 江蘇省南京*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 凍結 神經元 深度 神經網絡 模型 變異 方法 | ||
一種基于凍結神經元的深度神經網絡模型變異方法,包括模型解析模塊、輸入預處理模塊和輸出計算模塊。模型解析模塊通過解析深度神經網絡模型的結構,將模型結構抽象為層次化的信息,以規定格式保存。當用戶指定需要凍結的神經元時,會根據模型結構信息生成對應的模型變異配置。輸入預處理模塊根據模型解析模塊提供的模型變異配置,在數據輸入下一層之前將指定神經元凍結。輸出計算模塊負責計算變異后的深度神經網絡模型進行預測時,層與層之間的輸出與最終預測結果,并整合為可復用的層次化信息。
技術領域
本發明屬于深度神經網絡模型測試領域,特別是涉及對用戶提供的模型文件進行解析后,通過指定需要凍結的神經元,使模型發生變異從而生成不同的預測過程,并收集變異后模型的層間輸出與預測結果,以規定格式進行保存的方法。
背景技術
近年來,隨著對深度學習技術研究的日益精深,深度學習技術在軟件工程領域有了愈加廣泛的應用,越來越多的軟件產品利用了深度學習帶來的便利。在深度學習技術的賦能下,軟件應用能夠提供更加多樣化與定制化的服務。然而,深度神經網絡是基于數據驅動方式構建的,需要大量帶標簽數據訓練神經元以完善內部邏輯,整個網絡可以看作一個黑盒,使得工程人員很難分析與理解神經網絡的行為,當模型行為偏離預想情況時,也很難高效地找出問題癥結所在。深度神經網絡的這種復雜與難以解釋的特性,可能會失去用戶與審查機構的信任,從而使項目難以落地,阻礙項目進度。
另一方面,軟件工程領域在軟件質量保障方面已積淀下了不少行之有效的措施與指標,但由于代碼和模型兩者在構建與維護方面的區別,它們無法直接應用于深度神經網絡的質量保障,導致除了論文的抽象描述外,用戶只能通過模型對測試用例的預測情況大致判斷模型的質量,這和模型訓練過程中的驗證并沒有本質差別,也很難覆蓋大部分應用場景。
因此,我們需要一些手段來提高深度神經網絡的可解釋性,讓用戶可以從論文以外的途徑更深入地了解模型的內部構造與動態情況,化抽象為具體,從而提高用戶對模型的理解與接受程度。模型變異作為一種重要的解釋深度神經網絡的手段,不僅可以較低的成本生成新的模型進行對比測試,還可以對影響模型預測結果的關鍵特征進行觀察研究。目前已有研究者在模型變異方面做了一些初步的工作,但是現有工作局限于將軟件測試的既有手段遷移至深度學習領域,并沒有考慮軟件與深度神經網絡之間的差別,使用的指標也無法展示深度神經網絡的特性。
基于上述工作,本發明針對深度神經網絡的工作特性,提出了凍結神經元的手段進行模型變異,并收集變異后模型進行預測時的層間輸出與預測結果,以幫助提高模型的可解釋性,同時給予了用戶變異深度神經網絡模型并觀察研究的自由,以找出原模型的關鍵過濾器與特征。
發明內容
本發明要解決的問題是:模型變異作為幫助解釋深度神經網絡的手段,目前缺乏契合深度神經網絡特點的模型變異方法的問題。我們的發明能夠在兼顧深度神經網絡特點的情況下,將傳統軟件測試中的變異分析思想付諸實踐,從而使用戶能夠方便快捷地實現模型變異,解決解釋深度神經網絡手段匱乏的問題。
本發明的技術方案為:一種基于凍結神經元的深度神經網絡模型變異的方法,其特征是能夠根據用戶指定凍結的神經元對模型進行變異,并收集變異后模型的層間輸出與預測結果,可以作為快速生成變異模型進行對比測試的手段。該方法包含以下三個模塊:
1)模型解析模塊:對模型進行解析,將模型的層級結構抽象化,每個層對應一個結構體,其中包含了描述層的信息如層名稱,以及該層的過濾器信息如過濾器編號。解析完成后將模型結構存儲為層級化的信息,以規定格式存儲。用戶指定需要凍結的神經元后,本模塊將根據神經元在模型中所處的位置,計算出神經元的位置信息,并封裝成與上述模型結構信息格式相同的配置信息。
2)輸入預處理模塊:變異后的模型對輸入數據進行預測時,將根據模型解析模塊中獲得的配置信息,每一層的輸入進行預處理。具體過程為:獲取當前層輸出后,從模型變異配置中收集所屬層名稱與當前層名稱相同的神經元,然后凍結收集到的神經元,下一層將無法得到從這些神經元傳遞的激活信息,實現模型的變異。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京大學,未經南京大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110781497.5/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種固體電解質膜的制備方法
- 下一篇:一種基于文本挖掘的郵件分析方法





