[發明專利]一種基于注意力長短期記憶循環神經網絡的論文質量測評方法在審
| 申請號: | 202010320432.6 | 申請日: | 2020-04-22 |
| 公開(公告)號: | CN111522946A | 公開(公告)日: | 2020-08-11 |
| 發明(設計)人: | 田文洪 | 申請(專利權)人: | 成都中科云集信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 610000 四川省成都市成華區*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 注意力 短期 記憶 循環 神經網絡 論文 質量 測評 方法 | ||
本發明專利技術公開了一種基于注意力長短期記憶循環神經網絡的論文質量測評方法,其主要特點是針對本科和碩士博士畢業論文等長文本,設計基于章節的雙向長短記憶網絡(BiLSTM)的文本分析模型ChapBiLSTM,并結合注意力機制和改進交叉熵函數,提升質量評級準確度??朔四壳拔谋灸P陀柧毬娜秉c,適應數據特征的端到端的模型分析,通過識別、表示和特征加權等方法,對長文本進行準確的質量評級分類。涉及的主要流程和功能包括:整篇論文數據采集,通過互聯網和其它公開方式獲得論文數據;論文數據識別,提取PDF/word文本內各章節內容;論文數據表示,對論文進行處理,映射成計算機可分析處理的數據形式;論文數據標簽,獲取論文質量等級標簽;各章節數據表征,通過設計適當特征表示模型,進行數據表征;整篇論文質量分類,對各章節內容進行加權數據表征,然后進行整篇論文質量分類。
技術領域
本發明涉及計算機技術領域,特別涉及一種基于注意力長短期記憶循環神經網絡的論文質量測評方法。
背景技術
維基百科是人類大型的知識庫,是現代人信息來源依賴的在線資源,但一度受到質量水平的質疑,日益增加的條目,日益頻繁的編輯,人工評審將不符合實際。如果沒有得到適當的監控和修改,可能會導致低質量文章(甚至錯誤信息) 的產生。
關于質量問題,每年有數百萬的大學生、研究生畢業,論文的質量參差不齊,高校對于畢業生的論文也提出了越來越高的要求,應屆生的論文在提交之前如何做到有效監控和修改,畢業論文這種長文本的自動質量分類,也是一個具有挑戰的任務。
國外維基百科2017年已經在對這一領域提出的一個基于雙向LSTM的端到端的神經網絡的方法,但文本這種非結構化數據比較難以用計算機表征,過長的文本會導致現有的模型具有梯度消失或者梯度爆炸從而失去提取文本的特征的功能,他們在維基百科收集的條目數據集下,選擇最長截取長度為2000,目前acc 值在0.69。
而對于現有的本科、碩士和博士畢業論文,文本比維基百科的條目更長,目前現有的設計的模型都是針對300詞左右的短文本的,而對于像畢業論文這種具有幾萬詞語的長文本,分析難度更大,特別是采用單個PC級電腦。在長文本質量分析領域,CNN模型是其中的一種,但缺點是將長文本分割成短文本進行分析,沒有很好的表征長文本整體特征。
在2018年前CNN和LSTM是自然語言處理的文本特征的主要提取器,經過技術的不斷發展Transformer已經是目前較優的特征提取器,但仍然存在對長文本特征提取分析的困難。已經公開的發明專利“一種基于transformer的長文本質量分析方法”(專利申請號201910583213.4)采用Transformer的方法,對于論文的質量評級準確度僅68%。
通過上面分析,目前主要問題如下:
現有的自然語言處理模型大多是針對短文本進行分析,缺乏具有長文本分析能力,會出現梯度爆炸的問題,影響最終模型的泛化能力;
在的短文本分析中,RNN結構具有訓練慢,而應用到長文本這個問題會更加放大。
發明內容
為了解決上述技術問題,本發明主要提供一種基于注意力長短期記憶循環神經網絡的論文質量測評方法,并結合注意力機制和改進的交叉熵函數,解決長文本質量難以評估的問題。
一種基于注意力長短期記憶循環神經網絡的論文質量測評方法,包括:整篇論文數據采集,通過互聯網和其它公開方式獲得論文數據;論文數據識別,提取 PDF/word文本內各章節內容;論文數據表示,對論文進行處理,映射成計算機可分析處理的數據形式;論文數據標簽,獲取論文質量等級標簽;各章節數據表征,通過設計適當特征表示模型,進行數據表征;整篇論文質量分類,對各章節內容進行加權數據表征,然后進行整篇論文質量分類。
在所述論文數據識別過程中,提取PDF/word文本內各章節內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于成都中科云集信息技術有限公司,未經成都中科云集信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010320432.6/2.html,轉載請聲明來源鉆瓜專利網。





