[發明專利]一種基于深度學習的作業查重方法在審
| 申請號: | 202110279211.3 | 申請日: | 2021-03-16 |
| 公開(公告)號: | CN113011154A | 公開(公告)日: | 2021-06-22 |
| 發明(設計)人: | 張凌;胡布煥;張晶 | 申請(專利權)人: | 華南理工大學;賽爾網絡有限公司 |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F16/33;G06F16/338;G06F40/263;G06F40/268;G06F40/216;G06F40/284;G06F40/30;G06F16/35;G06N3/04;G06Q50/20 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 馮炳輝 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 深度 學習 作業 方法 | ||
本發明公開了一種基于深度學習的作業查重方法,包括:獲取學生課程作業數據及作業模板文件,判斷作業模板格式,對獲取到的作業進行切題處理,判斷作業中的題目是主觀題還是客觀題,對切題后的作業中的主觀題答案進行文本預處理,利用深度學習技術(即卷積神經網絡模型)計算學生作業之間的相似度,并且分析相似度計算結果,將相似度高的學生作業聚一類,生成相似度報告。為了方便教師查看相似內容情況,本發明對相似作業之間的相似內容進行標記。本發明能夠找出作業語義相似的文本內容,解決許多抄襲檢測方法抗干擾效果差的問題。
技術領域
本發明涉及學生作業查重的技術領域,尤其是指一種基于深度學習的作業查重方法。
背景技術
在高校的在線輔助教學中,電子文檔成為了學生作業提交的主要形式之一。隨著人們對學術道德的重視,如何協助教師找出學生提交的作業中抄襲內容,成為一個研究的熱點。
目前抄襲檢測系統有很多,例如國內的中國知網(CNKI)學術不端文獻檢測系統,國外的Turnitin、PlagScan、Dupli Checker等系統。這些系統能夠協助教師找出學生提交作業中抄襲的部分,但是由于這些系統以互聯網作為抄襲源,所以很難發現學生本地作業之間存在的抄襲關系。目前人們研究和投入使用的抄襲檢測方法有很多,最流行的是基于詞法的抄襲檢測方法。基于詞法的抄襲檢測方法主要考慮文本中的詞匯特征,例如早期投入使用較多的基于指紋特征提取的方法。基于指紋特征提取的方法將文檔表示為一個指紋序列,根據指紋序列來計算文檔之間的相似度。基于詞法的抄襲檢測方法適合用于簡單的復制粘貼,但當抄襲者對文本有釋義替換等躲避檢測的行為時,這類方法效果不顯著。也有研究者使用基于語法的抄襲檢測方法(例如詞性標注)、基于語義的抄襲方法(例如顯示語義分析、潛在語義分析)和基于機器學習的抄襲檢測方法(例如支持向量機、線性回歸模型)等。
隨著深度學習在計算機領域的廣泛應用,許多研究者使用深度學習來實現抄襲檢測,并且取得一些較好的成果。抄襲檢測技術的重點之一是文本相似度計算,在文本相似度計算中利用深度學習技術可以很好的發現文本釋義替換、同義詞替換等情況,所以在抄襲檢測任務中,利用深度學習相關技術,可以不僅可以發現字面抄襲,也能發現語義抄襲。
發明內容
本發明的目的在于克服現有技術的缺點與不足,提出了一種基于深度學習的作業查重方法,可以準確找出作業語義相似的文本內容,解決許多抄襲檢測方法抗干擾效果差的問題。
為實現上述目的,本發明所提供的技術方案為:一種基于深度學習的作業查重方法,包括以下步驟:
1)獲取學生課程作業數據及作業模板文件;
2)判斷作業模板格式,對獲取到的作業進行切題處理,判斷作業中的題目是主觀題還是客觀題;
3)對切題后的作業中的主觀題答案進行文本預處理;
4)計算學生作業之間的相似度;
5)分析相似度計算結果,將相似度高的學生作業聚一類,生成相似度報告;
6)對相似作業之間的相似內容進行標記,完成作業查重。
在步驟1)中,所述學生課程作業數據是指從在線學習平臺的課程中獲取的學生作業;所述作業模板文件是指在線學習平臺上,擔任課程的教師或者助教在課程中提交的作業作答格式的文件。
在步驟2)中,判斷作業模板格式,對獲取到的作業進行切題處理,判斷作業中的題目是主觀題還是客觀題,具體情況如下:
判斷作業模板格式:系統中為教師提供多種作業模板格式,利用正則表達式判斷獲取到的作業模板屬于哪一種模板格式;
對獲取到的作業進行切題處理:判斷作業模板格式后,利用該模板格式對應的正則表達式對學生作業進行切題,并且返回作業切題結果;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學;賽爾網絡有限公司,未經華南理工大學;賽爾網絡有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110279211.3/2.html,轉載請聲明來源鉆瓜專利網。





