[發(fā)明專利]一種基于TextRank和卷積神經(jīng)網(wǎng)絡(luò)的小學(xué)作文自動分類方法有效
| 申請?zhí)枺?/td> | 201810671815.0 | 申請日: | 2018-06-26 |
| 公開(公告)號: | CN109062958B | 公開(公告)日: | 2021-06-11 |
| 發(fā)明(設(shè)計)人: | 朱曉亮;劉三女牙;孫建文;石昀東 | 申請(專利權(quán))人: | 華中師范大學(xué) |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04 |
| 代理公司: | 武漢天力專利事務(wù)所 42208 | 代理人: | 吳曉穎 |
| 地址: | 430079 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 textrank 卷積 神經(jīng)網(wǎng)絡(luò) 小學(xué) 作文 自動 分類 方法 | ||
本發(fā)明屬于教育信息化領(lǐng)域,提供一種基于TextRank和卷積神經(jīng)網(wǎng)絡(luò)的小學(xué)作文自動分類方法,該方法首先使用基于TextRank的關(guān)鍵句提取模型為各類作文提取關(guān)鍵句來去除多余的語義信息,然后使用卷積神經(jīng)網(wǎng)絡(luò)提取定長的文本特征向量,用于訓(xùn)練分類器,并用于文本類別的預(yù)測。本發(fā)明方法事先使用TextRank算法對數(shù)據(jù)集進行了冗余信息的剔除,較其他深度學(xué)習(xí)方法減少了長文本的干擾信息;本發(fā)明方法特征選取自動完成,較傳統(tǒng)機器學(xué)習(xí)方法提高了效率。
技術(shù)領(lǐng)域
本發(fā)明屬于教育信息化領(lǐng)域,涉及一種基于TextRank和卷積神經(jīng)網(wǎng)絡(luò)的小學(xué)作文自動分類方法。
背景技術(shù)
眾所周知,閱讀范文是學(xué)生學(xué)習(xí)寫作的重要方法,通過閱讀范文能明顯提高小學(xué)生的寫作成績,故范文素材庫的快速構(gòu)建是實現(xiàn)寫作信息化輔助手段的重要環(huán)節(jié)。
文本分類是自然語言處理領(lǐng)域的一個經(jīng)典課題,它是指按照預(yù)先定義的主題類別,為文檔集合中的每個文檔確定一個類別,隨著數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)上電子文檔的數(shù)量大幅增長,文本分類已經(jīng)成為信息檢索和管理的關(guān)鍵技術(shù)。目前文本分類研究的主流方向包括如何為文檔設(shè)計最佳的特征表示方法和對機器學(xué)習(xí)分類模型的研究。
在文本表示方面,傳統(tǒng)的分類模型的表示方法包括詞頻–逆文檔頻率(TF-IDF)表示、布爾表示、潛在狄利克雷分配(LDA)表示等,它們都屬于向量空間模型(VSM),這類方法生成的文本向量往往維度太高且具有稀疏性的問題。目前的主流方法為wordembedding及在此基礎(chǔ)之上的word2Vec,word embedding是Hinton提出的一種詞向量表示方法,它能將文本中的單詞分布式的映射成到低維空間,解決了傳統(tǒng)向量空間模型的高維稀疏特征問題。Word2Vec是Tomas Mikolov等提出的一個工具包,它既能使用分布式向量對文本進行表示,還能引入傳統(tǒng)模型不具有的語義特征,有助于短文本分類。
在分類模型方面,主要有傳統(tǒng)機器學(xué)習(xí)模型和深度學(xué)習(xí)模型。傳統(tǒng)的機器學(xué)習(xí)分類器包括Logistic回歸、隨機森林、支持向量機(SVM)等。其優(yōu)點是模型的結(jié)構(gòu)較為簡單,因此可以快速的完成訓(xùn)練過程,且更容易去理解和解釋其原理,缺點是其輸入特征需要人工去選取,故其效率較低且分類效果受人工因素的影響較大。關(guān)于深度學(xué)習(xí)模型,YKim提出了一種word embedding結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的方法實現(xiàn)了對句子分類;XiangZhang等提出了一種以字為語義單位的字符級卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)對文本的分類。
目前關(guān)于中文文本分類的研究大部分都是關(guān)于情感分類的二分類問題或是對于新聞和微博等語義較為單純的短文本的分類,它們的一般方法是直接使用數(shù)據(jù)集去訓(xùn)練分類器,不預(yù)先對數(shù)據(jù)集進行處理,而相較于新聞和微博來說,小學(xué)作文類別較多,篇幅更長且語義信息更為豐富,若采用現(xiàn)有方法進行作文分類任務(wù)其效果并不會理想。
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服上述現(xiàn)有技術(shù)中的不足,提出了一種基于TextRank和字符級卷積神經(jīng)網(wǎng)絡(luò)的小學(xué)作文自動分類方法,本方法事先使用TextRank算法對數(shù)據(jù)集進行了冗余信息的剔除,減少了長文本的干擾信息;同時,本方法的特征選取自動完成,提高了效率。
為了實現(xiàn)所述目的,本發(fā)明提供了一種基于TextRank和卷積神經(jīng)網(wǎng)絡(luò)的小學(xué)作文自動分類方法,包括以下步驟:
(1)分析小學(xué)作文常見的寫人、敘事、寫景、狀物、讀后感五類作文的特征,并以此為標準對數(shù)據(jù)集進行劃分;
(2)使用基于TextRank的關(guān)鍵句提取模型為各類作文提取關(guān)鍵句來去除多余的語義信息并將其作為數(shù)據(jù)集;
(3)在卷積神經(jīng)網(wǎng)絡(luò)的第一層,隨機初始化數(shù)據(jù)集中每個字的word embedding,將每條數(shù)據(jù)中的字映射到其對應(yīng)的wordembedding組成二維特征矩陣作為卷積神經(jīng)網(wǎng)絡(luò)的輸入;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中師范大學(xué),未經(jīng)華中師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810671815.0/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 詞與網(wǎng)頁的關(guān)聯(lián)度計算方法及裝置
- 一種基于元搜索引擎的標簽自動生成方法
- 一種基于閾值去噪的TextRank文檔摘要方法及裝置
- 基于TextRank算法的輸變電設(shè)備缺陷詞庫建立方法及系統(tǒng)
- 一種基于TextRank和卷積神經(jīng)網(wǎng)絡(luò)的小學(xué)作文自動分類方法
- 一種基于物聯(lián)網(wǎng)環(huán)境下的快速查詢方法
- 一種基于TextRank的未知協(xié)議幀定位方法
- 一種Markdown特征感知的無監(jiān)督關(guān)鍵詞提取方法
- 基于TF-IDF算法和TextRank算法的智能閱卷方法及裝置
- 基于TextRank的摘要獲取方法、裝置、計算機設(shè)備及存儲介質(zhì)
- 卷積運算處理方法及相關(guān)產(chǎn)品
- 一種卷積神經(jīng)網(wǎng)絡(luò)的計算方法及系統(tǒng)
- 卷積運算方法及系統(tǒng)
- 卷積運算方法、裝置及系統(tǒng)
- 深度神經(jīng)網(wǎng)絡(luò)裁剪方法、裝置及電子設(shè)備
- 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法和圖像處理裝置
- 卷積神經(jīng)網(wǎng)絡(luò)及基于卷積神經(jīng)網(wǎng)絡(luò)的圖像處理方法
- 一種圖像處理方法、裝置以及計算機存儲介質(zhì)
- 用于卷積神經(jīng)網(wǎng)絡(luò)的卷積運算裝置
- 基于FPGA實現(xiàn)圖像識別的方法、裝置、設(shè)備及存儲介質(zhì)
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置





