[發明專利]一種基于深度知識跟蹤與強化學習的學習路徑優化方法有效
| 申請號: | 202110706088.9 | 申請日: | 2021-06-24 |
| 公開(公告)號: | CN113268611B | 公開(公告)日: | 2022-11-01 |
| 發明(設計)人: | 李建偉;李領康;于玉杰 | 申請(專利權)人: | 北京郵電大學;北京思開科技有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/335;G06Q10/04;G06Q50/20;G06N3/04;G06N3/08 |
| 代理公司: | 北京永創新實專利事務所 11121 | 代理人: | 易卜 |
| 地址: | 100876 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 知識 跟蹤 強化 學習 路徑 優化 方法 | ||
本發明公開了一種基于深度知識跟蹤與強化學習的學習路徑優化方法,屬于自適應學習領域;具體為:針對某個學生,選擇所有未學的以及沒有先修的知識點作為待選知識點;利用歷史學習的知識點進行one?hot編碼,輸入到DKT模型中,輸出各待選知識點的掌握水平預測值。然后,選擇預測結果最高的知識點K推薦給學生學習;學習過程使用知識點內的學習路徑優化算法實現;在當前知識點K學習通過之后,判斷是否有后續知識點,如果有,將后續知識點加入待選知識點集合,并將當前知識點K移出;否則,直接將當前知識點K移出,選擇下一個知識點重新預測和學習,直至待選知識點集合為空。本發明可以大幅提高推薦精度,在獲得同等學習效果的情況下效率有所提高。
技術領域
本發明屬于自適應學習領域,具體是一種基于深度知識跟蹤與強化學習的學習路徑優化方法。
背景技術
在自適應學習過程中,要解決的關鍵問題之一是根據學生的知識點掌握水平為其推薦一條最適合的學習路徑,以獲得最佳的學習效率與效果為目標。
學習路徑推薦包括知識點之間的學習路徑推薦和知識點內的學習路徑推薦。
對于知識點之間的學習路徑推薦,目前最常用的是概率圖模型技術,具體實現過程是采用概率圖模型的馬爾可夫網絡,對單個學習者的單個知識點掌握度進行跟蹤;然后,再采用概率圖模型的貝葉斯網絡,根據學習者已學知識點的掌握度預測未學知識點的掌握度,從而提供個性化學習路徑推薦,并預測學習者的薄弱知識點。比如Knewton、松鼠AI或VIPKID等大多數自適應學習系統都采用這種技術,實現個性化學習路徑推薦。但是,上述方法需要對領域知識(例如:測試題目的難度、區分度、所屬知識點等)進行標注,且不能綜合分析學習者當前整體的知識狀態及過去的學習表現,推薦性能表現一般。
對于知識點內的學習路徑推薦,目前最常用的是協同過濾算法和遺傳算法,協同過濾算法是個性化推薦系統中最常用的推薦算法,其基本思想是根據學習者對學習資源的評分矩陣,通過相似度算法找到最鄰近的資源或用戶,根據最鄰近資源或用戶來預測未評分的目標學習資源,依據預測結果向學習者推薦較為準確的學習資源。
如Knewton采用協同過濾算法從學習者的學習目標、認知結構及學習投入度出發,快速定位學習者所需信息,為學習者未來的學習呈現最優的學習內容。遺傳算法是進化算法的一種,依據初始種群經過一系列操作,抽取出用戶的偏好屬性值,以此進行學習資源的推薦。松鼠AI在跟蹤分析學習數據的基礎之上,運用遺傳算法為學習者在全局范圍內推薦合適的學習資源。但是,上述兩種算法都是以滿足用戶偏好為推薦目標,不以獲得最佳的學習效率和效果為目標,而學習是一個痛苦的過程,只有付出努力后獲得較高的學習回報,才能持續激勵學生產生學習動力。
知識追蹤是對學生的知識基于時間進行建模,以便精確預測學生對于下一時刻知識點的掌握程度。深度知識追蹤算法(Deep Knowledge Tracing,簡稱DKT)是基于深度神經網絡LSTM(Long Short-Term Memory,長短期記憶網)建立的知識追蹤模型,并使用用戶歷史學習數據訓練出知識點掌握度預測模型,根據訓練出的模型預測估計學生的知識點掌握水平。
強化學習主要包含四個元素,智能代理,環境狀態,動作和獎勵。智能代理選擇一個動作用于環境,環境接受該動作后狀態發生變化,同時產生一個強化信號(獎或懲)反饋給智能代理,強化學習的目標就是獲得最多的累計獎勵。使用強化學習算法根據學生“做對試題”或“做錯試題”的動作,更新學生知識點掌握狀態并根據目標掌握狀態建立獎勵機制,從而建立知識點的試題與學習內容的推薦策略,使學生能高效地達到知識點目標掌握度。
現有技術中,深度知識追蹤具有較強的感知能力感知學生當前的學習狀態,但缺乏一定的決策能力;而強化學習具有決策能力,但缺乏對狀態的感知能力。使用深度知識追蹤的感知能力和強化學習的決策能力相結合,深度知識追蹤感知學生的學習狀態,強化學習根據感知的學習狀態以獲得最佳的學習效率和效果目標為導向進行決策,可以獲得性能最優的學習路徑推薦效果。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京郵電大學;北京思開科技有限公司,未經北京郵電大學;北京思開科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110706088.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種新型的頸動脈內膜剝脫器械
- 下一篇:一種水刀及水刀機





