[發明專利]一種論文查重的方法在審
| 申請號: | 201410319183.3 | 申請日: | 2014-07-07 |
| 公開(公告)號: | CN104050299A | 公開(公告)日: | 2014-09-17 |
| 發明(設計)人: | 嚴敏;林文薈;楊華;劉志程 | 申請(專利權)人: | 江蘇金智教育信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 江蘇銀創律師事務所 32242 | 代理人: | 孫計良 |
| 地址: | 211100 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 論文 方法 | ||
技術領域
本發明涉及論文查重的技術。
背景技術
目前論文查重方法主要有三種:基于字符串匹配的方法,基于文檔指紋的方法和基于語義知識的方法。
基于字符串匹配的方法是一種基于數理統計的方法。它先通過字符串匹配算法,找出待檢測文檔與數據庫中的文檔相匹配的字符串數目,隨后利用相似性計算公式求出結果。這種方法對字符串的選取要求很高,同時字符串匹配算法的時間復雜度較高,需要較大的資源開銷和較長的計算時間。
基于文檔指紋的方法通過將代表文檔語義的文本作為“指紋”,通過比較“指紋”從而達到判別抄襲的目的。在選取“指紋”的過程中可能受到文章的層次結構的影響而造成漏判。
基于語義知識的方法是通過分析比較待檢測文章與數據庫文章的自然語義相似程度從而達到判別抄襲的目的。該方法依賴于自然語言相似性的計算,由于中文語言的復雜性,基于語義知識的判斷結果正確性很難得到保證。
針對目前的查重技術,如果論文作者在同一段落,盡可能多的選擇多篇文獻,從每篇參考文獻中摘取部分子句到同一段落,不會被論文查重系統快速檢測出來。
發明內容
本發明所要解決的問題:如果論文作者選擇多篇文獻,從每篇參考文獻中摘取部分子句,則不會被目前的論文查重系統快速檢測出來。
為解決上述問題,本發明采用的方案如下:
一種論文查重的方法,包括以下步驟:
S1:對文本庫中的原文進行分句,并計算原文每個分句的指紋;
S2:對待查文章進行分句,并計算待查文章每個分句的指紋;
S3:通過待查文章各個分句的指紋與原文各個分句的指紋的對比,確定原文分句指紋與待查文章分句指紋相同的分句和分句的位置,得到重復分句和重復分句在原文中的位置;
S4:根據重復分句在原文中的位置,判斷重復分句在原文中的間隔是否小于M;假如重復分句在原文中的間隔小于M,則待查文章與原文的內容有重復;其中M為預先設定的常量。
進一步,根據本發明的論文查重的方法,還包括構建分句指紋庫的步驟;所述構建分句指紋庫的步驟為對文本庫中各個原文進行分句,并計算各個原文每個分句的指紋得到分句指紋庫;所述的分句指紋庫保存了文本庫中各個原文的分句的指紋和分句的位置對應關系表。
本發明的技術效果如下:
1.?本發明通過指紋對比,計算開銷低,判重速率快,響應速度快。
2.?精確到分句的判別方法,可以更加準確地對抄襲的現象進行判別。
3.?可以精確還原被抄襲的段落及子句內容,為論文查重提供有力證據。
4.?可以從多個原始論文中多處摘抄中找出摘抄的原始論文。
附圖說明
圖1本發明論文查重方法的流程圖。
具體實施方式
下面結合附圖對本發明做進一步詳細說明。
本發明通過對比待查文章與文本庫中文章的分句指紋對比獲得重復分句和重復分句在原文中的位置,然后判斷重復分句在原文中的間隔是否小于M,假如重復分句在原文中的間隔小于M,則待查文章在文本庫中內容有重復。如圖1所示,包括步驟:
S1:計算文本庫中原文各個分句的指紋;
S2:計算待查文章的各個分句的指紋;
S3:找出重復分句和重復分句在原文中的位置;
S4:判斷重復分句在原文中的間隔是否小于M。
這里的原文是指文本庫中的文獻文本。步驟S1和S2中計算指紋的過程實際上包含了兩個步驟:對文本進行分句的步驟和計算分句指紋的步驟。對文本進行分句的步驟是指將文本根據分割符進行分割成多個句子的過程。分割符可以是句號、感嘆號、問號、分號、分段符等等。文本分割后得到的句子稱為分句。文本所有的分句按順序組合后成文原始文本。計算分句指紋的步驟是采用哈希函數對分句進行運算的過程。這里的哈希函數是指單向散列函數,比如MD5、SHA-1、SHA-2、SHA-3等等。通過采用哈希函數對分句進行運算后得到分句的哈希值,該哈希值即可作為該分句的指紋。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江蘇金智教育信息技術有限公司,未經江蘇金智教育信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201410319183.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種鉆曲軸平衡臂膀孔夾具
- 下一篇:電機機殼鉆孔裝置





