[發明專利]基于段落抄襲檢測的電子作業反抄襲系統和方法有效
| 申請號: | 201310631663.9 | 申請日: | 2013-12-03 |
| 公開(公告)號: | CN103678528B | 公開(公告)日: | 2017-01-18 |
| 發明(設計)人: | 周小平 | 申請(專利權)人: | 北京建筑大學 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100044*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 段落 抄襲 檢測 電子 作業 系統 方法 | ||
1.一種基于段落抄襲檢測的電子作業反抄襲系統和方法,其特征在于,所述系統包括如下裝置:
電子作業提交裝置,用于提交電子作業;
電子作業接收裝置,用于接收、存儲通過電子作業提交裝置所提交的電子作業,并將電子作業入隊抄襲檢測隊列裝置;
抄襲檢測隊列裝置,用于以隊列方式標記待抄襲檢測的電子作業,以待有序檢測所提交的電子作業的抄襲行為;
電子作業解析裝置,用于將電子作業解析成文本,進行段落分解,存儲分解后的文本段落,并啟動抄襲檢測裝置進行抄襲檢測;
抄襲檢測裝置,用于識別所提交的電子作業是否有抄襲行為;
電子作業存儲裝置,用于存儲電子作業、電子作業解析后的文本段落、文本段落關鍵詞及其詞頻權重、電子作業抄襲狀態和賬號信息;
所述方法包括如下步驟:
通過電子作業提交裝置提交電子作業;
電子作業接收裝置接收學生提交的電子作業后,將電子作業入隊抄襲檢測隊列裝置,等待抄襲檢測;
電子作業解析裝置從抄襲檢測隊列裝置中出隊待檢測的電子作業,然后,對其進行文本解析、段落分解,并存儲解析后的文本段落,啟動抄襲檢測裝置進行抄襲檢測;
抄襲檢測裝置獲取待檢測的電子作業各文本段落,計算其同已存儲的原創段落之間的相似度,融合通過檢測的文本段落數檢驗,判斷是否有抄襲行為,并存儲抄襲檢測結果將。
2.如權利要求1所述的電子作業接收裝置,其特征在于,其能同時接收來自多個如權利要求1所述的電子作業提交裝置的作業提交請求,并將接收到的完整的電子作業存儲于如權利要求1所述的電子作業存儲裝置;同時,根據電子作業的提交時間先后順序將電子作業入隊如權利要求1所述的抄襲檢測隊列裝置。
3.如權利要求1所述的抄襲檢測隊列裝置,其特征在于,采用“先進先出”的隊列結構,其內按時間先后隊列待檢測電子作業的索引值。
4.如權利要求1所述的電子作業解析裝置,其特征在于,其在完成電子作業解析后,將啟動抄襲檢測裝置進行抄襲檢測,其進行電子作業解析包含如下步驟:
I、從抄襲檢測隊列裝置獲取待檢測電子作業的索引值,并通過索引值獲取電子作業完整內容;
II、根據電子作業的文件擴展名判斷電子作業的文件格式;如若為pdf,則采用pdf規范格式解析并抽取其文本;如果為doc或docx,則采用word?api解析并抽取其文本;如果為txt格式,則直接提取文本;
III、根據所抽取的電子作業文本,以字符\n進行分段處理;
IV、將分段后所得的各文本段落按順序存儲于電子作業存儲裝置中。
5.如權利要求1所述的抄襲檢測裝置,其特征在于,按待檢測電子作業文本段落先后順序逐段檢測各段抄襲行為,其抄襲檢測包括如下步驟:
I、初始化抄襲檢測參數,包括當前待檢測文本段落序號x=1,已通過檢測文本段落總數d=0;
II、若x大于待檢測電子作業總文本段落數,則轉向執行步驟IX;否則,從如權利要求1所述的電子作業存儲裝置提取待檢測電子作業第x個文本段落,標記為Px;
III、對文本段落Px進行中文分詞,并依據標記各詞語詞性,根據詞性,保留有實質意義的名詞、動詞、方位詞、住所詞和時間詞并統計其詞頻,得到文本段落Px的關鍵詞及關鍵詞的詞頻權重,采用VSM模型標記SX,SX可表示為:
SX={(wx1,nx1),(wx2,nx2),…,(wxi,nxi)}
其中,wx為文本段落Px的關鍵詞,i為關鍵詞個數,nx為該關鍵詞的詞頻權重,其計算公式為:
式中freql為關鍵詞wxl的詞頻,max{freqm,m=1,2,…,i}為所有關鍵詞中最高的詞頻數。
當i小于設定閾值時,文本段落Px太短,不進行后續檢測;此時,設置x=x+1,轉向執行步驟II;
IV、將SX結構化存儲于如權利要求1所述的電子作業存儲裝置;
V、按順序從如權利要求1所述的電子作業存儲裝置中提取已存儲的原創段落關鍵詞及其詞頻權重信息;若所提取的原創段落標記為SY,SY可表示為:
SY={(wy1,ny1),(wy2,ny2),…,(wyj,nyj)}
VI、對SX和SY進行關鍵詞擴展處理,若SX和SY的總關鍵次數為k,則SX和SY可表示為:
SX={(w1,x1),(w2,x2),…,(wk,xk)}
SY={(w1,y1),(w2,y2),…,(wk,yk)}
其中,w為擴展后的關鍵詞,xi為關鍵詞wi在SX中的詞頻權重,yi為關鍵詞wi在SY中的詞頻權重;當SX或SY經擴展后出現新的關鍵詞,其詞頻為0時,設置其詞頻權重賦值為0.001;
VII、計算SX同SY的余弦相似度Sim(SX,SY),其計算公式如下:
VIII、若Sim(SX,SY)大于設定閾值,則視該檢測電子作業有抄襲行為,執行步驟X;否則,設置d=d+1,x=x+1,轉向執行步驟II;
IX、判定d是否大于設定閾值,如果d小于設定閾值,則視為抄襲文檔;反之,該電子作業為原創電子作業,并標記所有通過檢測的d個文本段落為原創段落;
X、存儲電子作業抄襲檢測結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京建筑大學,未經北京建筑大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310631663.9/1.html,轉載請聲明來源鉆瓜專利網。





