[發明專利]模型生成方法和裝置有效
| 申請號: | 201810059263.8 | 申請日: | 2018-01-22 |
| 公開(公告)號: | CN108280513B | 公開(公告)日: | 2022-08-19 |
| 發明(設計)人: | 張剛 | 申請(專利權)人: | 百度在線網絡技術(北京)有限公司 |
| 主分類號: | G06N3/04 | 分類號: | G06N3/04;G06N3/08 |
| 代理公司: | 北京英賽嘉華知識產權代理有限責任公司 11204 | 代理人: | 王達佐;馬曉亞 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 模型 生成 方法 裝置 | ||
本申請實施例公開了模型生成方法和裝置。該方法的一具體實施方式包括:創建與用于生成原始模型的原始神經網絡的結構相同的神經網絡,去除創建的神經網絡的多個待去除的中間層,得到用于生成原始模型對應的目標模型的目標神經網絡;通過訓練操作對目標神經網絡進行訓練,得到目標模型。通過去除創建的與用于生成原始模型的原始神經網絡結構相同的神經網絡的部分層,得到占用的存儲空間較小的目標神經網絡,利用原始模型的輸出層和中間層的輸出對目標神經網絡進行訓練,得到精度達到精度閾值的目標模型。減少了構建占用的存儲空間較小的目標神經網絡的開銷以及減少了為使得最后得到的占用的存儲空間較小的目標模型達到精度閾值所需的訓練開銷。
技術領域
本申請涉及計算機領域,具體涉及神經網絡領域,尤其涉及模型生成方法和裝置。
背景技術
神經網絡被廣泛應用在圖像識別、語音識別、搜索等領域。訓練后的達到一定精度的可被應用的神經網絡也可以稱之為模型。神經網絡的結構越小,占用的存儲空間越少。目前,當一個模型運行在存儲空間較小的終端設備上時,通常采用的方式為構建一個結構較小的神經網絡,對構建的結構較小的神經網絡進行初始化后開始進行訓練,最后得到結構較小的模型。神經網絡占用的存儲空間越少,為使最后得到的模型達到精度閾值所需的訓練開銷越大。
發明內容
本申請實施例提供了模型生成方法和裝置。
第一方面,本申請實施例提供了模型生成方法,該方法包括:創建與用于生成原始模型的原始神經網絡的結構相同的神經網絡,以及去除創建的神經網絡的多個待去除的中間層,得到用于生成原始模型對應的目標模型的目標神經網絡;通過訓練操作對所述目標神經網絡進行訓練,得到所述目標模型,所述訓練操作包括:將目標神經網絡的訓練樣本分別輸入到原始模型和目標神經網絡;基于原始模型的輸出和目標神經網絡的輸出的差異,對目標神經網絡的輸出層中的參數的參數值進行更新,以及基于目標神經網絡中的被選取出的中間層的輸出與原始模型中對應于目標神經網絡中的被選取出的中間層的中間層的輸出的差異,對目標神經網絡中的與被選取出的中間層相關聯的層中的參數的參數值進行更新。
第二方面,本申請實施例提供了模型生成裝置,該裝置包括:處理單元,配置用于創建與用于生成原始模型的原始神經網絡的結構相同的神經網絡,以及去除創建的神經網絡的多個待去除的中間層,得到用于生成原始模型對應的目標模型的目標神經網絡;訓練單元,配置用于通過訓練操作對所述目標神經網絡進行訓練,得到所述目標模型,所述訓練操作包括:將目標神經網絡的訓練樣本分別輸入到原始模型和目標神經網絡;基于原始模型的輸出和目標神經網絡的輸出的差異,對目標神經網絡的輸出層中的參數的參數值進行更新,以及基于目標神經網絡中的被選取出的中間層的輸出與原始模型中對應于目標神經網絡中的被選取出的中間層的中間層的輸出的差異,對目標神經網絡中的與被選取出的中間層相關聯的層中的參數的參數值進行更新。
本申請實施例提供的模型生成方法和裝置,通過創建與用于生成原始模型的原始神經網絡的結構相同的神經網絡,以及去除創建的神經網絡的多個待去除的中間層,得到用于生成原始模型對應的目標模型的目標神經網絡;通過訓練操作對所述目標神經網絡進行訓練,得到所述目標模型。實現了通過去除創建的與用于生成原始模型的原始神經網絡結構相同的神經網絡的部分層,得到占用的存儲空間較小的目標神經網絡,利用原始模型的輸出層和中間層的輸出對目標神經網絡進行訓練,得到精度達到精度閾值的目標模型。減少了構建占用的存儲空間較小的目標神經網絡的開銷以及減少了為使得最后得到的占用存儲空間較小的目標模型達到精度閾值所需的訓練開銷。
附圖說明
通過閱讀參照下述附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優點將會變得更明顯:
圖1示出了可以應用本申請的模型生成方法的示例性系統架構;
圖2示出了根據本申請的模型生成方法的一個實施例的流程圖;
圖3示出了根據本申請的模型生成裝置的一個實施例的結構示意圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于百度在線網絡技術(北京)有限公司,未經百度在線網絡技術(北京)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810059263.8/2.html,轉載請聲明來源鉆瓜專利網。





