本申請涉及神經網絡及知識點分類技術領域,具體來說,本申請涉及基于多標簽分類和知識庫匹配結合的課件知識點分類方法。所述方法包括:獲取課件并對其進行預處理,得到目標文本;根據所述目標文本的坐標軸對文本排序,得到分頁的文本序列;將所有的文本序列拼成長文本;將所述長文本輸入基于神經網絡的多標簽文本分類模型進行多標簽分類,得到候選的知識點列表;對所述候選的知識點列表基于知識庫匹配進行驗證,得到目標知識點列表。本申請減少了對人工操作的依賴,降低了工作成本,實現了對知識點更加精準的分類與識別,進而提升了工作效率。
技術領域
本申請涉及深度學習技術領域,更為具體來說,本申請涉及基于多標簽分類和知識庫匹配結合的課件知識點分類方法。
背景技術
在信息化飛速發展的今天,教育行業中已積累大量用戶原創內容(UserGenerated Content,簡稱UGC)平臺,例如課件資源平臺。在課件資源平臺中,需要對課件的資源進行歸類和標簽化,以方便后續管理和使用。而教學知識點(考點)作為知識、理論等的相對獨立的最小單元,可以用于衡量學生對整個教學知識體系的掌握度和熟練度,因而常常作為電子課件需要附上標簽。
然而,目前業界常用的方法還是依賴用戶上傳過程中對其進行人工歸類。具體為:當用戶上傳課件到課件資源平臺時,審核人員或者上傳者需要手動輸入課件在該知識點體系中所符合的知識點。這一做法兩點不足:一方面是通常一份課件對應著多個知識點,且知識點的個數不確定,因此課件分類本質屬于一個多標簽分類而非單標簽分類的問題,這就要求審核人員對知識點進行逐一對比進行審核,才可以得到一個更加準確的結果,使標注成本大且速度較慢;另一方面是知識點體系不固定,與版本章節不同,目前教育部門并沒有給定統一的知識點體系,不同的學校、機構往往都會推出專屬的教學知識點體系,因而知識點體系后續會發生變化,后續改版的成本相當大。
發明內容
基于上述技術問題,本發明旨在解決課件知識點分類過于依賴人工的問題,提供一種將多標簽分類和知識庫匹配結合起來的課件知識點分類方法,以實現課件知識點的分類效率高且成本低。
本發明第一方面提供了一種基于多標簽分類和知識庫匹配結合的課件知識點分類方法,所述方法包括:
獲取課件并對其進行預處理,得到目標文本;
根據所述目標文本的坐標軸對文本排序,得到分頁的文本序列;
將所有的文本序列拼成長文本;
將所述長文本輸入基于神經網絡的多標簽文本分類模型進行多標簽分類,得到候選的知識點列表;
對所述候選的知識點列表基于知識庫匹配進行驗證,得到目標知識點列表。
具體地,所述對所述候選的知識點列表基于知識庫匹配進行驗證,得到目標知識點列表,包括:
在所述分頁的文本序列中篩選知識點定義類作為第一類知識點,并篩選學習目標或學習總結類作為第二類知識點;
將所述第一類知識點與所述候選的知識點列表基于詞向量的語義相似度進行匹配;
將所述第二類知識點與所述候選的知識點列表對應的知識點詞典進行匹配;
將所述候選的知識點列表中第一類知識點和第二類知識點匹配成功的知識點視為通過驗證,得到目標知識點列表。
進一步地,所述將所述第一類知識點與所述候選的知識點列表基于詞向量的語義相似度進行匹配,包括:
將第一類知識點中詞向量加權求和取平均后得到對應的第一句向量;
將候選的知識點列表中詞向量加權求和取平均后得到對應的第二句向量;
計算第一句向量與第二句相量之間的余弦相似值;