[發明專利]一種基于強化學習的間隔重復調度方法在審
| 申請號: | 202110586104.5 | 申請日: | 2021-05-27 |
| 公開(公告)號: | CN113283172A | 公開(公告)日: | 2021-08-20 |
| 發明(設計)人: | 俞勇;張偉楠;楊正宇 | 申請(專利權)人: | 上海伯禹信息科技有限公司 |
| 主分類號: | G06F30/27 | 分類號: | G06F30/27;G06Q10/04;G06Q10/06;G06Q50/20;G06N3/04;G06N3/08;G06F119/12 |
| 代理公司: | 上海旭誠知識產權代理有限公司 31220 | 代理人: | 鄭立 |
| 地址: | 200240 上海市閔*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 強化 學習 間隔 重復 調度 方法 | ||
1.一種基于強化學習的間隔重復調度方法,其特征在于,包括如下步驟:
步驟1、定義學生狀態的觀測空間,即調度策略在第k次學習時,所需要接受的輸入ok;
步驟2、定義學生進行學習的時間范圍[0,T]及所述調度策略的動作空間其中ci(1≤i≤n)代表了一個學習內容,n表示學生需要學習的學習內容的數目;
步驟3、學生選擇某一時間點tk開始學習,其中k表示第k次學習,通過時間長短期記憶網絡將學生學習歷史記錄o≤k映射到代表所述學生對于學習內容掌握情況的表征空間中的值sk,然后當前所述調度策略再根據sk為所述學生選擇需要學習內容ak,其中
步驟4、所述學生對當前所述調度策略選擇的內容ak進行學習,并反饋學習結果fk∈{0,1};
步驟5、先將所述學生的歷史觀測o≤k映射到表征空間然后學生模型中的記憶估測模塊Mη根據sk判斷所述學生是否掌握了學習內容,即輸出進而定義相應的獎勵(設),其中指的是所有維度的平均值;
步驟6、重復步驟3-5直到k到達某一預先設定好的值K或tk超過T;將收集到的數據序列{ti,oi,ai,ri,fi}1≤i≤K記作τ;基于τ,一方面利用強化學習算法來對所述調度策略進行優化,另一方面,將τ存儲進重放池;
步驟7、從所述重放池中采樣出序列來對所述學生模型中的記憶估測模塊Mη和時間預測模塊Gξ進行優化;
步驟8、如所述步驟3-5,唯一的不同只是將其中的學生替換成所述學生模型;所述學生模型中的記憶估測模塊Mη和時間預測模塊Gξ分別代替所述學生的記憶模型和時間行為模型來執行相關職能,即決定反饋fk和學習時間tk;
步驟9、基于步驟8中由所述學生模型和所述調度策略交互得到的數據,根據強化學習算法來優化當前的所述調度策略。
2.如權利要求1所述的方法,其特征在于,所述步驟1中,ok包括所述學生對于各個內容的學習次數、對于各個學習內容回答正確的次數、對于各個學習內容回答錯誤的次數、對于各個學習內容上一次學習時間至今的時間間隔、上一次學習至今的時間間隔。
3.如權利要求1所述的方法,其特征在于,所述步驟4中,所述學生包括記憶模型、時間行為模型,其中所述記憶模型用于確定所述學生是否掌握學習內容,所述時間行為模型用于確定所述學生會在什么時間點進行學習。
4.如權利要求3所述的方法,其特征在于,所述步驟4中,學習結果由所述學生的記憶模型決定,當所述記憶模型輸出值大于某閾值時,fk=1,否則fk=0。
5.如權利要求4所述的方法,其特征在于,所述步驟5中,所述學生模型中的記憶估測模塊Mη的輸出的維度和的大小一致。
6.如權利要求5所述的方法,其特征在于,所述步驟5中,中每一個維度對應于記憶估測模塊Mη對學生對于相應的學習內容的記憶程度的估測,是一個屬于[0,1]之間的實數。
7.如權利要求6所述的方法,其特征在于,所述步驟6中,所述強化學習算法為演員-評論家算法,所述調度策略為演員-評論家算法中的演員模塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海伯禹信息科技有限公司,未經上海伯禹信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110586104.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種報文分流的方法及裝置
- 下一篇:一種魚類洄游智能調控裝置及其運行方法





