[發明專利]一種面向強化學習模型的容器化測試方法與系統有效
| 申請號: | 202110784453.8 | 申請日: | 2021-07-12 |
| 公開(公告)號: | CN113535555B | 公開(公告)日: | 2023-06-27 |
| 發明(設計)人: | 董乾;薛云志;孟令中;楊光;師源;王鵬淇;武斌 | 申請(專利權)人: | 中國科學院軟件研究所 |
| 主分類號: | G06F11/36 | 分類號: | G06F11/36;G06F9/455 |
| 代理公司: | 北京君尚知識產權代理有限公司 11200 | 代理人: | 司立彬 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 強化 學習 模型 容器 測試 方法 系統 | ||
本發明公開了一種面向強化學習模型的容器化測試方法與系統。本方法為:1)測試方根據待建的測試任務制作測試環境Docker鏡像、代理Docker鏡像及其對應的連接模塊、回調模塊、評估模塊,然后將連接模塊封裝到代理Docker鏡像文件模板中;2)測試方在測試平臺上創建測試任務,并上傳鏡像文件到測試方服務器;3)被測方下載測試任務的鏡像文件訓練代理,將訓練后的代理集成到代理Docker鏡像并上傳至測試方服務器;4)測試方服務器在新上傳的代理Docker鏡像文件中添加或替換回調模塊和評估模塊,并對其進行重新封裝得到新的代理Docker鏡像后,開始運行測試任務;5)測試方服務器將測試過程數據傳回測試平臺。
技術領域
本發明屬于計算機軟件技術領域,具體涉及一種面向強化學習模型的容器化測試方法與系統。
背景技術
強化學習是一種更接近現實中生命體的學習方式,與“深度學習”技術不同,它不利用預先標注的數據,而是通過代理與環境進行交互獲得的獎賞來指導行為,目標是使代理獲得盡可能多的來自環境的獎勵,學習最優策略。強化學習的測試需要依賴于強化學習的環境。從原理上來講,強化學習與深度學習的區別在于前者需要與測試環境在線實時交互,基于環境反饋產生相應的行為,繼而進行相關的判斷和評估;而后者對測試環境的依賴性不強,僅根據模型本身的結構以及最后的輸出層得到預測結果。
傳統的強化學習模型測試,需要測試服務器中搭建測試環境,并把測試對象接入測試服務器中,這種做法的問題在于:首先,從測試環境的要求來看,強化學習模型的測試過程嚴重依賴于測試環境及其配置文件,且一般對測試環境要求較高;其次,測試的隔離性來看,傳統的測試將測試對象與測試的軟硬件環境緊緊綁定在一起,測試過程的隔離性較差,測試過程中一旦需要更換測試環境,則會產生搭建測試環境的重復工作量。
目前在傳統的強化學習模型的測試中,被測的強化學習模型嚴重依賴于測試環境的問題以及由軟硬件環境依賴導致的測試公平性問題。
發明內容
針對現有技術中存在的問題,本發明的目的在于提供一種面向強化學習模型的容器化測試方法與系統,本發明將測試環境、強化學習模型(代理)分別封裝到不同的Docker容器中,在測試執行的過程中,測試方服務器分別調用測試環境和強化學習模型的Docker鏡像文件,通過測試平臺的上述機制實現了測試環境與強化學習模型在軟硬件環境上的解耦,從而達到測試方和被測方在測試過程中測試行為的分離。
在測試過程中測試方服務器進行CPU、GPU、內存、網卡等硬件資源調配及并發數控制。
測試平臺可以實時展示測試過程,被測方可對測試結果實時監控;測試任務完成后,測試方可進行測試結果的對比,并形成測試方對于該項測試任務的測試基準。
在下載被測方更新的代理Docker鏡像文件后,測試方服務器將代理Docker鏡像的評估模塊和回調模塊重新封裝至代理的Docker鏡像文件中,實現了基于代理Docker的強化學習評估機制創新。
在本發明中,測試方是指對于強化學習模型進行測試與評估的主體,測試方為強化學習模型的測試提供包含測試環境、測試代理模板(強化學習模型)等的Docker鏡像文件,運行強化學習模型并得出測試結果;測試平臺是進行強化學習模型測試的管理平臺,用于創建并管理測試項目、實時顯示測試過程、展示測試結果,進行被測方和測試方的分割,用以實現測試環境和被測代理的解耦;被測方是指針對具體測試任務提供強化學習模型的主體;代理是指針對具體測試任務的強化學習模型。
為了解決上述問題,第一方面,本發明提出了一種面向強化學習模型的容器化測試方法,包括以下步驟:
步驟1:測試方根據待建的測試任務制作測試環境Docker鏡像,依據測試任務設計評估指標和代理Docker鏡像及其對應的連接模塊、回調模塊、評估模塊,并將連接模塊封裝到代理Docker鏡像文件模板;可選的,測試方也可將評估模塊封裝到代理Docker鏡像文件模板中;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院軟件研究所,未經中國科學院軟件研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110784453.8/2.html,轉載請聲明來源鉆瓜專利網。





