[發(fā)明專利]一種論文自檢方法及系統(tǒng)有效
| 申請(qǐng)?zhí)枺?/td> | 201610021493.6 | 申請(qǐng)日: | 2016-01-13 |
| 公開(公告)號(hào): | CN105677641B | 公開(公告)日: | 2018-03-16 |
| 發(fā)明(設(shè)計(jì))人: | 夏峰 | 申請(qǐng)(專利權(quán))人: | 夏峰 |
| 主分類號(hào): | G06F17/27 | 分類號(hào): | G06F17/27 |
| 代理公司: | 北京冠和權(quán)律師事務(wù)所11399 | 代理人: | 朱健,陳國軍 |
| 地址: | 410000 湖南省長沙市芙蓉區(qū)荷*** | 國省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 論文 自檢 方法 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明屬于文本檢測(cè)領(lǐng)域,尤其涉及一種論文自檢方法及系統(tǒng)。
背景技術(shù)
論文抄襲檢測(cè)是指判斷某一篇論文是否涉嫌抄襲其他一篇或多篇文檔的文本內(nèi)容。但由于抄襲并不完全等同于復(fù)制,而是有可能通過一定的語義變換、同義詞替換或翻譯外文文檔等多種手段來涉嫌抄襲其他文檔的文本內(nèi)容。
目前,論文抄襲檢測(cè)技術(shù)主要有兩種方法:一種是通過指紋識(shí)別檢測(cè)法,一種是通過基于文本里段落詞頻統(tǒng)計(jì)檢測(cè)法。所謂指紋識(shí)別是指從提交的原文文本內(nèi)容中提取一些稱為指紋的數(shù)據(jù)特征串,根據(jù)指紋的相同率來判斷某一篇文檔是否對(duì)其他文檔進(jìn)行了抄襲。所謂段落詞頻統(tǒng)計(jì)檢測(cè)法是指對(duì)提交的文本進(jìn)行分詞,通過統(tǒng)計(jì)文本中各個(gè)段落的出現(xiàn)頻率,設(shè)定一個(gè)閾值后將待查文本的每個(gè)數(shù)組與查詢文本的每個(gè)數(shù)組進(jìn)行比較,最后依據(jù)此指標(biāo)來判斷是否進(jìn)行了抄襲。現(xiàn)有技術(shù)中的上述方法存在一定程度的識(shí)別率率低、效率不高等問題。
發(fā)明內(nèi)容
為克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供了一種論文自檢方法及系統(tǒng)。
本發(fā)明提供了一種論文自檢方法及系統(tǒng)。用戶寫作風(fēng)格相似度計(jì)算模塊用于計(jì)算當(dāng)前用戶寫作風(fēng)格相似度,用戶寫作風(fēng)格相似度判斷模塊將當(dāng)前用戶寫作風(fēng)格相似度SimT(USER)與系統(tǒng)預(yù)設(shè)的自我審核門限進(jìn)行比較;當(dāng)用戶寫作風(fēng)格相似度SimT(USER)高于所述自我審核門限時(shí),即可認(rèn)為當(dāng)前用戶提交的待審核文檔與用戶寫作風(fēng)格不一致;當(dāng)用戶寫作風(fēng)格相似度SimT(USER)低于所述自我審核門限時(shí),即可認(rèn)為當(dāng)前用戶提交的待審核文檔與用戶寫作風(fēng)格一致。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。
附圖說明
圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的論文自檢系統(tǒng)的框圖;
圖2示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的滑動(dòng)窗口檢測(cè)法。
具體實(shí)施方式
為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明提出的系統(tǒng)及方法具體實(shí)施方式、特征及其功效,詳細(xì)說明如后。在下述說明中,不同的“一實(shí)施方式”或“實(shí)施方式”指的不一定是同一實(shí)施方式。此外,一或多個(gè)實(shí)施方式中的特定特征、結(jié)構(gòu)、或特點(diǎn)可由任何合適形式組合。
如圖1所示,本發(fā)明的論文自檢系統(tǒng)(下稱系統(tǒng))中包含素材子系統(tǒng);用戶子系統(tǒng);疑似素材提取子系統(tǒng);對(duì)比子系統(tǒng),其中所述素材子系統(tǒng),用于準(zhǔn)備供抄襲檢測(cè)對(duì)比使用的素材;用戶子系統(tǒng),用戶管理用戶登錄信息,以及確定用戶寫作風(fēng)格;疑似素材提取子系統(tǒng),用于從對(duì)比庫中提取與待鑒定文檔的疑似素材;對(duì)比子系統(tǒng),用于將疑似素材與待鑒定文檔進(jìn)行對(duì)比,生成對(duì)比報(bào)告。
根據(jù)本發(fā)明的一個(gè)具體實(shí)施方式,素材子系統(tǒng)可以進(jìn)一步包括:對(duì)比庫;分詞庫,分詞庫中包含同義近義詞庫以及中外文同義詞庫;分詞模塊;分詞組模塊;中外文分詞組模塊;分詞詞性分類模塊;分詞組詞性分類模塊;中外文分詞組詞性分類模塊;分詞特征值生成模塊;分詞組特征值生成模塊;中外文分詞組特征值生成模塊;分詞緊密系數(shù)生成模塊;分詞組緊密系數(shù)生成模塊;中外文分詞組緊密系數(shù)生成模塊;分詞緊密系數(shù)特征向量生成模塊;分詞組緊密系數(shù)特征向量生成模塊;中外文分詞組緊密系數(shù)特征向量生成模塊;分詞自由向量維數(shù)確定模塊;分詞組自由向量維數(shù)確定模塊;中外文分詞組自由向量維數(shù)確定模塊;分詞精簡(jiǎn)向量維數(shù)生成模塊;分詞組精簡(jiǎn)向量維數(shù)生成模塊;中外文分詞組精簡(jiǎn)向量維數(shù)生成模塊;分詞特征向量生成模塊;分詞組特征向量生成模塊;以及中外文分詞組特征向量生成模塊中的一個(gè)或多個(gè)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于夏峰,未經(jīng)夏峰許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610021493.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種衛(wèi)生間排水蓋板條
- 下一篇:生態(tài)排水溝
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 一種數(shù)據(jù)庫讀寫分離的方法和裝置
- 一種手機(jī)動(dòng)漫人物及背景創(chuàng)作方法
- 一種通訊綜合測(cè)試終端的測(cè)試方法
- 一種服裝用人體測(cè)量基準(zhǔn)點(diǎn)的獲取方法
- 系統(tǒng)升級(jí)方法及裝置
- 用于虛擬和接口方法調(diào)用的裝置和方法
- 線程狀態(tài)監(jiān)控方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 一種JAVA智能卡及其虛擬機(jī)組件優(yōu)化方法
- 檢測(cè)程序中方法耗時(shí)的方法、裝置及存儲(chǔ)介質(zhì)
- 函數(shù)的執(zhí)行方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





