[發明專利]一種基于自動編碼機的在線學習潛在退出者預測方法在審
| 申請號: | 202110409484.5 | 申請日: | 2021-04-16 |
| 公開(公告)號: | CN113077100A | 公開(公告)日: | 2021-07-06 |
| 發明(設計)人: | 董博;徐一明;趙銳;阮建飛;鄭慶華;師斌 | 申請(專利權)人: | 西安交通大學 |
| 主分類號: | G06Q10/04 | 分類號: | G06Q10/04;G06Q50/20;G06N3/04;G06N3/08 |
| 代理公司: | 西安通大專利代理有限責任公司 61200 | 代理人: | 閔岳峰 |
| 地址: | 710049 *** | 國省代碼: | 陜西;61 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 編碼 在線 學習 潛在 退出 預測 方法 | ||
1.一種基于自動編碼機的在線學習潛在退出者預測方法,其特征在于,包括以下步驟:
1)將學習平臺學習日志數據中的文本和非文本信息并進行預處理;
2)構建符合潛在退出者檢測問題的深層網絡結構,依據編碼處理后數據的特征維數確定網絡的輸入、輸出層的神經元個數;
3)基于所構建的深層網絡結構,采用BP訓練策略通過交叉驗證訓練在線學習潛在退出者檢測網絡;
4)利用網絡的重構誤差對學習者進行異常檢測,識別出潛在退出者。
2.根據權利要求1所述的一種基于自動編碼機的在線學習潛在退出者預測方法,其特征在于,步驟1)的具體實現方法為:
Step1.清理編碼異常數據
將所有數據的編碼轉換為可變長的字符統一編碼,然后再針對亂碼數據單獨從數據源重新采集或刪除;
Step2.刪除無關數據
刪除學習日志數據中包含的瀏覽器、操作系統和網絡狀態,以及涉及學生個人隱私信息的一些記錄;
Step3.處理異常學習時間的數據
針對異常數據,采用相鄰日志記錄的時間間隔長度作為替代,相鄰日志數據異常則按照學習活動類型選取時間間隔作為替代;
Step4.統一數據格式
由于不同類型的數據量綱數量級不同,在進行模型訓練前將同種類型的數據進行標準化。
3.根據權利要求2所述的一種基于自動編碼機的在線學習潛在退出者預測方法,其特征在于,Step4中,使用z-score標準化方法對數值型屬性進行處理,具體步驟為:
對數值型數據進行標準化處理
根據前述兩個步驟計算的數值型屬性的均值和方差對樣本數據進行標準化,具體形式為:
其中,是z-score處理后的結果,Xi是第i個數值型屬性對應的列向量,ui表示第i個數值型屬性的均值,σi表示第i個數值型屬性的方差;
使用One-Hot對學習者的類別型屬性進行編碼,詳細步驟為:
a.設置K位的數組,每一個狀態編碼只有一位是1其余都是0,通過這種設置方式將類別型數據的差異轉化為歐式空間中的距離;
b.將K種狀態編碼分別和K種離散值一一對應,確定每個屬性的取值都為一個K位數組,該向量表示屬性取值的One-Hot編碼。
4.根據權利要求3所述的一種基于自動編碼機的在線學習潛在退出者預測方法,其特征在于,步驟2)的具體實現方法為:
網絡結構確定后,確定具體的網絡參數;其中,所有的網絡層都是全連接網絡,第一層,第二層和第四層的激活函數采用Sigmoid形式,其形式化表示為:
第三層層網絡的激活函數設置和其它層的不同,該層網絡的激活函數為ReLU的激活函數,形式化表示為:
f(x)=max(0.02x,x)
第五層輸出層采用tanh激活函數,使得輸出層的數據為[0,1]之間的概率值,其形式化表示為:
5.根據權利要求4所述的一種基于自動編碼機的在線學習潛在退出者預測方法,其特征在于,步驟3)的具體實現方法為:
為了使數據在經過多層神經元后保持在合理的范圍,網絡參數的初始化采用Xavier初始化,Xavier初始化以均勻分布的方式實施初始化,具體形式為:
其中ni是參數所在層的輸入維度,ni+1是參數所在層的輸出維度,θ是參數矩陣;
訓練自動編碼網絡包含兩個部分的參數更新:編碼網絡和解碼網絡,編碼網絡包括第一層和第二層網絡用fφ表示,解碼網絡包括第四層和第五層網絡用fπ表示;訓練的過程就是優化網絡參數,學習編碼網絡參數φ和解碼網絡參數π,形式化表達為:
其中X表示學習完成者的特征矩陣;在實際訓練中先初始化參數,然后利用BP算法更新編碼網絡和解碼網絡參數,更新方法為:
其中u是梯度下降算法的學習率。
6.根據權利要求5所述的一種基于自動編碼機的在線學習潛在退出者預測方法,其特征在于,步驟4)的具體實現方法為:
由步驟3)得到具備對學習者信息數據進行自編碼能力的網絡模型,然后對測試樣本對樣本進行自編碼處理,計算重構誤差,其形式化表示為:
其中,N表示學習者的數量,xi表示第i個學習者的特征在,fθ表示訓練好的自動編碼網絡;最終把計算出來的每個學習者的重構誤差作為異常指標;由上面公式得到的異常值是[0,1]之間的連續數值,該異常值越接近于1代表該學習者為潛在退出狀態的概率越大,異常值越接近于0代表該學習者是正常學習狀態的概率越大;在潛在退出者檢測評估中,設置重構誤差閾值ε,如果樣本的重構誤差大于ε,判定該樣本為潛在退出者。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于西安交通大學,未經西安交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110409484.5/1.html,轉載請聲明來源鉆瓜專利網。
- 同類專利
- 專利分類
G06Q 專門適用于行政、商業、金融、管理、監督或預測目的的數據處理系統或方法;其他類目不包含的專門適用于行政、商業、金融、管理、監督或預測目的的處理系統或方法
G06Q10-00 行政;管理
G06Q10-02 .預定,例如用于門票、服務或事件的
G06Q10-04 .預測或優化,例如線性規劃、“旅行商問題”或“下料問題”
G06Q10-06 .資源、工作流、人員或項目管理,例如組織、規劃、調度或分配時間、人員或機器資源;企業規劃;組織模型
G06Q10-08 .物流,例如倉儲、裝貨、配送或運輸;存貨或庫存管理,例如訂貨、采購或平衡訂單
G06Q10-10 .辦公自動化,例如電子郵件或群件的計算機輔助管理





