[發明專利]基于后門觸發器的DRL模型知識產權保護方法在審
| 申請號: | 202310038825.1 | 申請日: | 2023-01-13 |
| 公開(公告)號: | CN116306804A | 公開(公告)日: | 2023-06-23 |
| 發明(設計)人: | 金彪;姚志強;陳瑜霖;蔡娟娟;熊金波;李逸康 | 申請(專利權)人: | 福建師范大學 |
| 主分類號: | G06N3/0464 | 分類號: | G06N3/0464;G06Q50/18;G06N3/08 |
| 代理公司: | 福州元創專利商標代理有限公司 35100 | 代理人: | 陳鼎桂;蔡學俊 |
| 地址: | 350007 *** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 后門 觸發器 drl 模型 知識產權保護 方法 | ||
本發明涉及一種基于后門觸發器的DRL模型知識產權保護方法,包括以下步驟:步驟S1:由模型所有者生成水印種子集合;步驟S2:基于WMGen算法,通過水印種子修改每個狀態對應的獎勵值,并且改變狀態對應的動作;步驟S3:Mark算法使用訓練數據和水印序列重新訓練模型,嵌入該后門觸發器,修改每個動作對應的獎勵值;步驟S4:根據步驟S2中的每個狀態獲得對應的APD組成驗證時間水印序列TWsupgt;^/supgt;;步驟S5:通過水印種子對應的初始狀態由此得到每個狀態以及對應的APD組成的可疑時間序列TWsupgt;’/supgt;;步驟S6:使用Verify算法比較驗證時間水印序列TWsupgt;^/supgt;與可疑時間序列TWsupgt;’/supgt;的距離:如果該距離
技術領域
本發明涉及知識產權保護領域,一種基于后門觸發器的DRL模型知識產權保護方法。
背景技術
深度強化學習(Deep?Reinforcement?Learning,DRL)已經證明了它在各種復雜任務中的有效性,例如,機器人控制,競爭視頻游戲和自動駕駛。由于出色的性能和健壯性,DRL正在加速商業化過程。由于生成一個DRL策略需要大量的計算資源和專業知識,一個訓練有素的DRL模型已經成為人工智能應用程序和產品的核心知識產權(IntellectualProperty,IP)。保護這些資產,防止非法抄襲、未經授權的分發和復制DRL模型是至關重要的。
將水印技術引入深度強化學習模型知識產權保護是可行且有意義的?,F有兩種深度強化學習模型水印方案:第一種是Vahid?Behzadan提出的序列觸發器水印,將水印嵌入額外的動作狀態空間中。此類方案的缺點是額外的動作狀態空間非常容易被攻擊者所識別,進而可以輕易偽造額外的空間水印。第二種方案是Chen提出的一種時間序列水印方案,提出了一種無損失狀態,強制要求整條序列的每個狀態都為無損失狀態,計算每個狀態的動作概率分布與水印集合對應該動作的動作概率分布的KL散度作為水印。這種方案的條件過于苛刻,并且容易被攻擊偽造,難以保證水印發非公平所有權。
發明內容
有鑒于此,本發明的目的在于提供一種基于后門觸發器的DRL模型知識產權保護方法,解決空間水印易于被攻擊者檢測以及無損失狀態條件過于苛刻的問題。
為實現上述目的,本發明采用如下技術方案:
一種基于后門觸發器的DRL模型知識產權保護方法,包括以下步驟:
步驟S1:由模型所有者生成水印種子集合;
步驟S2:基于WMGen算法,通過水印種子修改每個狀態對應的獎勵值,并且改變狀態對應的動作;
步驟S3:Mark算法使用訓練數據和水印序列重新訓練模型,嵌入該后門觸發器,修改每個動作對應的獎勵值;
步驟S4:根據步驟S2中的每個狀態獲得對應的APD組成驗證時間水印序列TW^;
步驟S5:通過水印種子對應的初始狀態由此得到每個狀態以及對應的APD組成的可疑時間序列TW’;
步驟S6:使用Verify算法比較驗證時間水印序列TW^與可疑時間序列TW’的距離:如果該距離JSTW^_TW’小于閾值ε1,并且可疑時間序列TW’所對應的總獎勵值RTW’小于閾值ε2,則該模型為受保護模型;否則,該模型為非受保護模型。
進一步的,所述狀態對應的獎勵值由水印種子對應的初始狀態的環境與智能體agent交互得到。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建師范大學,未經福建師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310038825.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種適用于高效非對稱釬焊板式換熱器
- 下一篇:一種防跨越安全圍欄的反違章裝置





