[發明專利]一種基于深度知識跟蹤與強化學習的學習路徑優化方法有效
| 申請號: | 202110706088.9 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113268611B | 公開(公告)日: | 2022-11-01 |
| 發明(設計)人: | 李建偉;李領康;于玉杰 | 申請(專利權)人: | 北京郵電大學;北京思開科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/335;G06Q10/04;G06Q50/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 易卜 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 知識 跟蹤 強化 學習 路徑 優化 方法 | ||
1.一種基于深度知識跟蹤與強化學習的學習路徑優化方法,其特征在于,包括知識點間的學習路徑優化過程和知識點內的學習路徑優化過程;具體步驟如下:
首先,針對某個學生,選擇所有未學的離散知識點,以及沒有先修知識點的根知識點作為待選知識點集合;利用該學生已經學過的各知識點,根據歷史學習數據進行one-hot編碼,輸入到訓練好的DKT模型中,輸出學生對各待選知識點的掌握水平預測值;
然后,將各待選知識點的預測結果從高到低排序,選擇預測結果最高的知識點K推薦給學生學習;學習過程使用知識點內學習路徑優化算法實現;
所述知識點內學習路徑優化算法,具體分為兩個階段:
第一階段:使用強化學習的Q-Learning算法進行訓練,得到該知識點K的掌握狀態和做題動作對應的Q矩陣;
步驟301、初始化學習率α,折扣因子γ和訓練回合的計數器EPISODES=0;
步驟302、初始化強化學習算法的Q矩陣為0,并定義環境給予的獎勵反饋Reward;
Q矩陣為1行2n列,每個狀態對應的動作初始已對應完畢;2n為知識點K及其先修知識點下的n道試題,對應的動作集合數量;
獎勵反饋Reward為:從當前狀態執行某個動作后的狀態達到了知識點目標狀態值st,獎勵值Reward為1,否則Reward為0;具體公式為:
(s,a)為當前的狀態和動作,為當前狀態采取動作之后的狀態;
步驟303、判斷Q矩陣是否收斂,如果是,停止訓練過程,將當前Q矩陣輸出,用于第二階段知識點內學習路徑推薦;否則,初始化狀態s=0.5,進入步驟304;
步驟304、判斷當前回合當前狀態s是否達到目標狀態值,如果是,當前回合結束,進入步驟311;否則,進入步驟305;
步驟305、判斷當前回合是否還有未執行的動作,如果是,根據Q矩陣的當前狀態選擇一個動作a,進入步驟306,否則當前回合結束,進入步驟311;
步驟306、完成動作a后,根據學生的歷史學習數據進行one-hot編碼后,輸入到訓練好的DKT模型,預測得到當前知識點K的最新掌握狀態值即為下一個狀態
步驟307、判斷狀態是否在Q矩陣的狀態集合中,如果是,則進入步驟308;否則,加入狀態集合,在Q矩陣中添加一行數據,且每個元素初始化為0;
步驟308、將狀態代入獎勵反饋Reward中返回該狀態對應的獎勵值R,回合計數EPISODES自增1,并在數據庫中保存該回合時間記錄與獎勵值R;
步驟309、利用當前Q矩陣和獎勵反饋Reward對Q矩陣進行更新;
更新公式如下:
更新公式如下:
表示下一個狀態及對應的行為;是指狀態下的所有動作對應的最大Q值;
步驟310、返回步驟304,繼續判斷下一個狀態是否達到人為設定的目標值,并不斷更新Q矩陣;
步驟311、判斷當前已完成的回合數EPISODES是否大于等于目標回合數M,如果是,進入步驟312;否則,Q矩陣未收斂,進入步驟303;
步驟312、按時間統計最近M個回合獲得獎勵值R為1的概率P,判斷是否滿足P≥90%,如果是,則Q矩陣足夠接近收斂,算法終止,Q矩陣訓練完畢保存Q矩陣;否則,Q矩陣未收斂,進入步驟303,繼續下一個回合訓練;
第二階段:使用訓練好的Q矩陣用于該知識點內學習路徑推薦;具體為:
步驟3.1:設定掌握度目標狀態st的值,學生當前知識點掌握度水平s初始化為0.5;
步驟3.2:根據第一階段訓練的Q矩陣,選擇狀態s下最大Q值的動作a,將動作所對應的試題推薦給學生學習;
步驟3.3:學生完成學習后,根據學生當前知識點的作答記錄,使用訓練好的DKT算法模型計算學生的下一個狀態并更新學生當前狀態;
步驟3.4:判斷更新后的當前狀態是否達到目標狀態值st,如果是,結束本知識點K的學習;否則,返回步驟3.2繼續當前知識點K的下一個動作對應的試題內容學習;
最后,在當前知識點K學習通過之后,判斷該知識點是否有后續知識點,如果有,將當前知識點K的后續知識點加入待選知識點集合,并將當前知識點K從待選知識點集合移出;否則,直接將當前知識點K從待選知識點集合移出,并判斷待選知識點集合是否為空,如果是,終止循環;否則,繼續下一個知識點學習。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學;北京思開科技有限公司,未經北京郵電大學;北京思開科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110706088.9/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型的頸動脈內膜剝脫器械
- 下一篇:一種水刀及水刀機





