[發明專利]一種自適應學習系統中領域知識建模及知識水平估測方法有效
| 申請號: | 201910116245.3 | 申請日: | 2019-02-13 |
| 公開(公告)號: | CN109902298B | 公開(公告)日: | 2023-04-18 |
| 發明(設計)人: | 周東岱;李振 | 申請(專利權)人: | 東北師范大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F16/36;G06N3/0464 |
| 代理公司: | 深圳紫晴專利代理事務所(普通合伙) 44646 | 代理人: | 雒盛林 |
| 地址: | 130024 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自適應 學習 系統 領域 知識 建模 水平 估測 方法 | ||
1.一種自適應學習系統中領域知識建模及知識水平估測方法,所述領域知識建模采用知識圖譜實現,其特征在于,具體包括以下步驟:
步驟Ⅰ:確定學科知識圖譜框架,學科知識圖譜采用式(1)表示:
G=(E,R,S)?(1)
其中,E={e1,e1,...,e|E|}表示學科知識圖譜中的知識實體集合,共包含|E|種不同實體;R={r1,r1,...,r|R|}表示學科知識圖譜中的知識關系集合,共包含|R|種不同關系;表示學科知識圖譜中的實體及其關系組成的三元組集合;
步驟Ⅱ:對教育語料進行標注;
步驟Ⅲ:學科知識圖譜構建;
所述步驟Ⅱ具體包括:
2-1)數據收集與分析:收集數字教學資源,并分析數字教學資源的文本的結構特點和語言特點,為語料庫的構建提供數據基礎;
2-2)構建用于學科知識圖譜抽取的教育語料庫:教育語料庫包括分詞和詞性標注、句法分析、命名實體、實體關系四個語料;
首先依據學科知識圖譜框架的命名實體分類和實體關系分類建立實體和實體關系標注體系;然后針對每類實體和實體關系的標注,制定總體標注原則以及正反標注示例,制定標注規范草稿;再通過三輪以上的預標注和專家評判法,完善形成標準規范;在此基礎上,采用領域專家的標注模式,進行命名實體和實體關系語料的標注,形成命名實體語料和實體關系語料;
所述分詞和詞性語料庫以賓州中文樹庫標注規范作為基礎規范,從教學設計文本中抽取語句,構建分詞和詞性標注語料;
所述句法分析標注以賓州中文樹庫標注規范為基礎,結合教學設計和試卷文本的實際標注情況及信息抽取的需要,對標注規范進行迭代修訂,最后通過人機互助的方式進行數字化資源的標注工作,形成標注的語法樹;
所述步驟Ⅲ中的學科知識圖譜構建具體包括:
3-1)實體識別和關系分類的關鍵特征提取,總體特征采用式(2)的特征向量表示:
F=(Pre,Suf,Stop,Pos,Wordlen,Distance,...,Simi)?(2)
其中,Pre表示前詞,Suf表示后詞,Stop表示停用詞,Pos表示詞性特征,Wordlen表示詞長特征,Distance表示詞距離特性,語義特征指的是詞語級別的語義特征,采用連續詞袋模型表示詞向量,記為w=(v1,v2,...,vm),并基于詞向量計算詞語的語義相似度特征Simi;
3-2)構建基于半監督方法的聯合抽取模型;
3-2-1)基于半監督CRF模型識別命名實體:
應用CRF模型,通過序列標注進行命名實體識別;假設需要標注的詞語序列為X=(x1,x2,x3,...,xt),即觀察序列;定義Y=(y1,y2,y3,...,yt)為X上對應的標注序列,即狀態序列;學科知識命名實體識別問題可轉化為:已知觀察序列X的條件下,求解狀態序列Y的概率P(Y/X)最大時的狀態序列,該狀態序列即為學科知識命名實體識別問題的標注結果,計算方法如式(3)所示:
其中,Z(x)表示歸一化因子,fk表示特征函數,λk表示權重參數;
在進行半監督CRF模型訓練時,將前述總體特征向量F作為輸入,已標注的訓練語料采用BIOES規范進行編碼,通過最小化未標注數據的條件熵來有效利用未標注數據的信息;具體計算如式(4):
3-2-2)基于最大熵模型的實體關系分類
對識別出的實體集合按概率輸出大小對其進行排序,記為Ebest1、Ebest2、Ebest3……,對任意n∈E,o∈E′,構建候選實體對(n,o),使用最大熵模型并融入特征向量F對候選實體對進行關系分類,形成關系候選集R,記分類概率為p;
3-2-3)基于反饋閾值的聯合學習
以Ebest1、E'best1作為命名實體集合的初始值,分別以EbestN、E'bestM作為候選集合;對于每句中的關系集合R,選取分類概率p最大的關系r,將p與設定的實體反饋閾值q進行比較,若pq,則加入最終命名實體集合中;同時,當且僅當同時成立時,將關系r加入最終關系集合Rlast。
2.如權利要求1所述的一種自適應學習系統中領域知識建模及知識水平估測方法,其特征在于,知識水平估測方法采用CNN對領域特征進行自動提取,再基于LSTM模型進行深度知識追蹤,具體步驟包括:
1)領域數據預處理與向量化,并構建數據集
根據建立的學科知識圖譜框架,對學科知識內容特征數據和學習者答題數據進行預處理,把輸入數據各個維度都中心化為零并進行特征的歸一化處理,然后將每位學習者個體差異和答題數據構造成二維向量,并將數據集分割為訓練集、開發集和測試集三部分;
2)采用卷積神經網絡模型CNN作為特征提取器從訓練數據中自動學習影響知識追蹤的領域特征
建立由多個卷積層、池化層和全連接層構成的CNN網絡,其中:
卷積層由多種不同大小的卷積核來提取多組局部特征圖,卷積操作后的輸出為式(5):
ci=f(w×xi,i+h-1+b)?(5)
其中,w為卷積核,h為窗口長度,b為偏置項,f為激活函數,為加快訓練收斂速度,采用ReLu函數作為激活函數,即f(x)=max(0,x);
對卷積層提取出來的特征圖進行max-pooling操作,然后通過全連接層的Softmax函數對特征進行計算,從而根據輸出的概率值提取出領域特征;假設提取的領域特征向量為M={m1,m2,m3,...,mn},設答題正誤的變量為a,則所有的影響知識追蹤模型的特征集合表示為式(6)
A=M∪a={m1,m2,m3,...,mn,a}?(6);
3)特征向量降維
首先對上述特征進行特征交叉,在此基礎上進行one-hot編碼、編碼特征級聯,此過程表達如式(7):
vt=O(C(m1,a))~O(C(m2,a))~...~O(C(mn,a))?(7)
其中,O函數表示對向量進行one-hot編碼,C函數表示對特征進行交叉運算,~運算表示對特征編碼進行級聯;
使用Autoencoder對特征向量進行降維,隱藏層和輸出層函數分別為式(8)、(9):
vt'=tanh(Wed·vt+bed)?(8)
4)知識追蹤模型的訓練和優化
將上述編碼、降維后的向量作為輸入,訓練基于長短期記憶網絡并融入領域特征的深度知識追蹤模型,LSTM網絡包括輸入門i,遺忘門f,輸出門o,以及cell單元c,其傳遞公式如式(10)-(14):
it=σ(wxixt+whiht-1+wcict-1+bi)?(10)
ft=σ(wxfxt+whfht-1+wcfct-1+bf)?(11)
ct=ft·ct-1+it·tanh(wxcxt+whcht-1+bc)(12)
ot=σ(wxoxt+whoht-1+wcoct+bo)?(13)
ht=ot·tanh(ct)?(14)
其中,xt為t時刻的輸入,w為權重,b為偏置,g代表激活函數,h為當前層的輸出,
LSTM網絡訓練時擬采用交叉熵損失函數,公式如(15)
其中,q表示學習者t+1時刻回答的題目,a表示t+1時刻答題的對錯情況,δ表示降維后的one-hot編碼格式,l表示交叉熵函數,yT表示t時刻的輸出。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北師范大學,未經東北師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910116245.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種威脅情報生成方法及裝置
- 下一篇:一種文本處理方法及裝置





