[發明專利]一種基于深度學習的知識點提取方法、系統、裝置及介質在審
| 申請號: | 202010720576.0 | 申請日: | 2020-07-24 |
| 公開(公告)號: | CN111950540A | 公開(公告)日: | 2020-11-17 |
| 發明(設計)人: | 黃昌勤;朱佳;吳志杰;韓中美 | 申請(專利權)人: | 浙江師范大學;華南師范大學 |
| 主分類號: | G06K9/20 | 分類號: | G06K9/20;G06K9/62;G06F16/35 |
| 代理公司: | 廣州嘉權專利商標事務所有限公司 44205 | 代理人: | 黎揚鵬 |
| 地址: | 321004 *** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 知識點 提取 方法 系統 裝置 介質 | ||
本發明公開了一種基于深度學習的知識點提取方法、系統、裝置及介質,方法包括:通過爬蟲方法和/或OCR文本識別方法獲取原始數據集;對所述原始數據集進行預處理,獲取知識表征數據;根據所述知識表征數據,確定Bert預訓練模型;根據動態mask方法和混合mask方法,對所述Bert預訓練模型進行優化;根據優化后的Bert模型,提取原始數據集中的知識點。通過Bert預訓練模型,能夠免去繁瑣的特征工程步驟,并能夠解決一詞多義的問題;本發明通過對bert模型進行優化,提取知識點,更加準確,可廣泛應用于深度學習技術領域。
技術領域
本發明涉及深度學習技術領域,尤其是一種基于深度學習的知識點提取方法、系統、裝置及介質。
背景技術
無論是線下的教材知識,還是在線課堂的知識(例如MOOC),都包含有大量冗余信息,這些信息多數與知識點無關,對此,業界通常的做法有如下兩點:
1、關鍵詞提取
從教育文本數據中提取關鍵詞作為重要知識點,本質即為關鍵詞抽取問題,核心在于構造詞的特征(詞性、詞頻等)。但是此方法對于領域教育數據并不適用,對于特殊的教育數據尤其是數學類的文本數據,由于其包含的公式等特殊符號會帶入大量的噪聲,使得模型的識別性能受到限制。
2、文本表示和文本分類
文本表示:
文本的表示方法即對語言的建模。目前有兩種主流的思路:自回歸模型(Auto-Regressive Model,簡稱AR),自編碼模型(Auto-Encoding Model,簡稱AE)。
關于AR思路的模型主要有基于雙向LSTM的ELMo,基于Transformer的GPT等。然而AR方法有一個缺陷就是不能很好地考慮到上下文的關系,因為貝葉斯網絡總是不成環的,即所有的單詞是從左到右或者從右到左的單向鏈式結構,只能計算在單詞之前的概率關系(前文)。由此引出另一種建模思路AE。
AE模型可以充分利用上下文關系在大量數據上做無監督訓練,其本質是將數據降維壓縮成低維的特征,然后再利用一個解碼器將其恢復。以此為代表的模型有Word2vec和Bert。前者通過單詞去預測周圍若干個單詞,但是其模型參數為靜態方式存儲,無法進行動態調整;后者則利用雙向transformer,巧妙地引入單詞mask的方法,訓練模型做完形填空,利用上下文預測被遮掩的單詞。
文本分類:
目前在文本分類問題上主要有3大解決方案。
第一種是基于規則匹配、專家系統的人工方法。首先事先人工制定匹配規則,然后對文本進行特征匹配,若滿足事先設定的模式,則可以歸到設定的類別中。這種方法是最直接、最簡單的方法,但缺點也很明顯,就是需要耗費大量的人力去制定規則。
第二種是基于機器學習的特征工程的方案。常見的有樸素貝葉斯分類器、支持向量機SVM、邏輯回歸、K近鄰算法、決策樹等等。然而機器學習方法面臨著繁瑣的特征工程,即把原始數據進行降維或者升維,進而適應于問題的求解,需要耗費大量的人力成本。
第三種是基于深度學習的方式。深度學習方法解決了文本表示上的困難,它將文本映射到實數空間中,并通過訓練端到端的網絡結構學習到文本特征的表示,這種方式去掉了復雜的特征工程,使得文本分類更具有可行性。對于領域相關的文本分類,比如本文探究的數學領域的文本分類,已有的工作主要基于傳統機器學習和神經網絡的方法。比如張智慧和張慶使用SVM方法對初等數學問題進行分類,在特征提取上采用基于詞頻統計的TF-IDF方式;王素寬和葉至偉基于帶注意力機制的LSTM網絡構建了初等數學知識點標注系統。但在文本表示方面,這些工作要么人工進行特征工程工作,要么在預訓練模型中利用Word2vec靜態參數的方案,無法根據新的上下文數據進行動態調整,在一詞多義的文本數據表現上不盡人意。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江師范大學;華南師范大學,未經浙江師范大學;華南師范大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010720576.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種濾材測試夾具
- 下一篇:一種快速干燥的紙張印刷裝置





