[發明專利]一種基于深度知識跟蹤與強化學習的學習路徑優化方法有效

申請號：	202110706088.9	申請日：	2021-06-24
公開（公告）號：	CN113268611B	公開（公告）日：	2022-11-01
發明（設計）人：	李建偉;李領康;于玉杰	申請（專利權）人：	北京郵電大學;北京思開科技有限公司
主分類號：	G06F16/36	分類號：	G06F16/36;G06F16/335;G06Q10/04;G06Q50/20;G06N3/04;G06N3/08
代理公司：	北京永創新實專利事務所 11121	代理人：	易卜
地址：	100876 ***	國省代碼：	北京;11
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	一種基于深度知識跟蹤強化學習路徑優化方法
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于深度知識跟蹤與強化學習的學習路徑優化方法，其特征在于，包括知識點間的學習路徑優化過程和知識點內的學習路徑優化過程；具體步驟如下：

首先，針對某個學生，選擇所有未學的離散知識點，以及沒有先修知識點的根知識點作為待選知識點集合；利用該學生已經學過的各知識點，根據歷史學習數據進行one-hot編碼，輸入到訓練好的DKT模型中，輸出學生對各待選知識點的掌握水平預測值；

然后，將各待選知識點的預測結果從高到低排序，選擇預測結果最高的知識點K推薦給學生學習；學習過程使用知識點內學習路徑優化算法實現；

所述知識點內學習路徑優化算法，具體分為兩個階段：

第一階段：使用強化學習的Q-Learning算法進行訓練，得到該知識點K的掌握狀態和做題動作對應的Q矩陣；

步驟301、初始化學習率α，折扣因子γ和訓練回合的計數器EPISODES＝0；

步驟302、初始化強化學習算法的Q矩陣為0，并定義環境給予的獎勵反饋Reward；

Q矩陣為1行2n列，每個狀態對應的動作初始已對應完畢；2n為知識點K及其先修知識點下的n道試題，對應的動作集合數量；

獎勵反饋Reward為：從當前狀態執行某個動作后的狀態達到了知識點目標狀態值s_t，獎勵值Reward為1，否則Reward為0；具體公式為：

(s,a)為當前的狀態和動作，為當前狀態采取動作之后的狀態；

步驟303、判斷Q矩陣是否收斂，如果是，停止訓練過程，將當前Q矩陣輸出，用于第二階段知識點內學習路徑推薦；否則，初始化狀態s＝0.5，進入步驟304；

步驟304、判斷當前回合當前狀態s是否達到目標狀態值，如果是，當前回合結束，進入步驟311；否則，進入步驟305；

步驟305、判斷當前回合是否還有未執行的動作，如果是，根據Q矩陣的當前狀態選擇一個動作a，進入步驟306，否則當前回合結束，進入步驟311；

步驟306、完成動作a后，根據學生的歷史學習數據進行one-hot編碼后，輸入到訓練好的DKT模型，預測得到當前知識點K的最新掌握狀態值即為下一個狀態

步驟307、判斷狀態是否在Q矩陣的狀態集合中，如果是，則進入步驟308；否則，加入狀態集合，在Q矩陣中添加一行數據，且每個元素初始化為0；

步驟308、將狀態代入獎勵反饋Reward中返回該狀態對應的獎勵值R，回合計數EPISODES自增1，并在數據庫中保存該回合時間記錄與獎勵值R；

步驟309、利用當前Q矩陣和獎勵反饋Reward對Q矩陣進行更新；

更新公式如下：

表示下一個狀態及對應的行為；是指狀態下的所有動作對應的最大Q值；

步驟310、返回步驟304，繼續判斷下一個狀態是否達到人為設定的目標值，并不斷更新Q矩陣；

步驟311、判斷當前已完成的回合數EPISODES是否大于等于目標回合數M，如果是，進入步驟312；否則，Q矩陣未收斂，進入步驟303；

步驟312、按時間統計最近M個回合獲得獎勵值R為1的概率P，判斷是否滿足P≥90％，如果是，則Q矩陣足夠接近收斂，算法終止，Q矩陣訓練完畢保存Q矩陣；否則，Q矩陣未收斂，進入步驟303，繼續下一個回合訓練；

第二階段：使用訓練好的Q矩陣用于該知識點內學習路徑推薦；具體為：

步驟3.1：設定掌握度目標狀態s_t的值，學生當前知識點掌握度水平s初始化為0.5；

步驟3.2：根據第一階段訓練的Q矩陣，選擇狀態s下最大Q值的動作a，將動作所對應的試題推薦給學生學習；

步驟3.3：學生完成學習后，根據學生當前知識點的作答記錄，使用訓練好的DKT算法模型計算學生的下一個狀態并更新學生當前狀態；

步驟3.4：判斷更新后的當前狀態是否達到目標狀態值s_t，如果是，結束本知識點K的學習；否則，返回步驟3.2繼續當前知識點K的下一個動作對應的試題內容學習；

最后，在當前知識點K學習通過之后，判斷該知識點是否有后續知識點，如果有，將當前知識點K的后續知識點加入待選知識點集合，并將當前知識點K從待選知識點集合移出；否則，直接將當前知識點K從待選知識點集合移出，并判斷待選知識點集合是否為空，如果是，終止循環；否則，繼續下一個知識點學習。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學;北京思開科技有限公司，未經北京郵電大學;北京思開科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/202110706088.9/1.html，轉載請聲明來源鉆瓜專利網。

專利分類

專利文獻下載

說明：

1、專利原文基于中國國家知識產權局專利說明書；

2、支持發明專利、實用新型專利、外觀設計專利（升級中）；

3、專利數據每周兩次同步更新，支持Adobe PDF格式；

4、內容包括專利技術的結構示意圖、流程工藝圖或技術構造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】