[發(fā)明專利]一種基于采樣的文獻檢測方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 201610019515.5 | 申請日: | 2016-01-13 |
| 公開(公告)號: | CN105701206B | 公開(公告)日: | 2018-10-09 |
| 發(fā)明(設計)人: | 夏峰;洪學文;曾文斌 | 申請(專利權)人: | 湖南通遠網(wǎng)絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健;陳國軍 |
| 地址: | 410000 湖南省長沙市芙蓉區(qū)荷*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 采樣 文獻 檢測 方法 系統(tǒng) | ||
本發(fā)明提供了一種基于采樣的文獻檢測方法及系統(tǒng)。其中,對比庫,收錄素材;分詞庫,收錄分詞及對應詞性;分詞模塊進行分詞;分詞特征值生成模塊生成分詞詞性特征值;分詞自由向量維數(shù)確定模塊確定分詞自由向量維數(shù);分詞精簡向量維數(shù)生成模塊,生成分詞精簡向量維數(shù);分詞特征向量生成模塊,生成分詞特征向量;待鑒定文檔分詞模塊用于對待鑒定文檔進行分詞,得到分詞結果;待鑒定文檔分詞自由向量維數(shù)確定模塊,確定分詞自由向量維數(shù);待鑒定文檔分詞精簡向量維數(shù)生成模塊,生成待鑒定文檔分詞精簡向量維數(shù);待鑒定文檔分詞特征向量生成模塊,生成待鑒定文檔分詞特征向量;進行相似度比對。
技術領域
本發(fā)明屬于文本檢測領域,尤其涉及一種基于采樣的文獻檢測方法及系統(tǒng)。
背景技術
論文抄襲檢測是指判斷某一篇論文是否涉嫌抄襲其他一篇或多篇文檔的文本內容。但由于抄襲并不完全等同于復制,而是有可能通過一定的語義變換、同義詞替換或翻譯外文文檔等多種手段來涉嫌抄襲其他文檔的文本內容。
目前,論文抄襲檢測技術主要有兩種方法:一種是通過指紋識別檢測法,一種是通過基于文本里段落詞頻統(tǒng)計檢測法。所謂指紋識別是指從提交的原文文本內容中提取一些稱為指紋的數(shù)據(jù)特征串,根據(jù)指紋的相同率來判斷某一篇文檔是否對其他文檔進行了抄襲。所謂段落詞頻統(tǒng)計檢測法是指對提交的文本進行分詞,通過統(tǒng)計文本中各個段落的出現(xiàn)頻率,設定一個閾值后將待查文本的每個數(shù)組與查詢文本的每個數(shù)組進行比較,最后依據(jù)此指標來判斷是否進行了抄襲。現(xiàn)有技術中的上述方法存在一定程度的識別率率低、效率不高等問題。
發(fā)明內容
為克服上述現(xiàn)有技術的不足,本發(fā)明提供了一種基于采樣的文獻檢測方法及系統(tǒng)。
其中,所述基于采樣的文獻檢測系統(tǒng)包含對比庫,用于收錄用作對比對象的素材;分詞庫,用于收錄分詞及對應詞性;分詞庫中針對每一分詞進行唯一編號,使用W_ID表示某一分詞在分詞庫中的唯一編號;分詞模塊,用于對各素材進行分詞,并將分詞結果保存至對比庫中;分詞特征值生成模塊統(tǒng)計每一個分詞在對應素材中出現(xiàn)的數(shù)量,生成每一個分詞對應的分詞詞性特征值;分詞自由向量維數(shù)確定模塊根據(jù)素材的分詞結果確定分詞自由向量維數(shù)WFV;所述分詞自由向量維數(shù)WFV等于對特定素材進行分詞后得到的不同分詞的數(shù)量;分詞精簡向量維數(shù)生成模塊,生成分詞精簡向量維數(shù)RWV;分詞特征向量生成模塊,提取每個素材中所述分詞精簡向量維數(shù)RWV對應的特征值生成分詞特征向量WVE_RWV;用戶訪問方式檢測模塊,用于提示用戶上傳待鑒定文檔;用戶檢測模式確定模塊,用于判斷當前用戶檢測模式為普通抄襲鑒定模式時,待鑒定文檔分詞模塊用于對待鑒定文檔進行分詞,得到分詞結果;待鑒定文檔分詞自由向量維數(shù)確定模塊,確定分詞自由向量維數(shù)WFV_TBI;待鑒定文檔分詞精簡向量維數(shù)生成模塊,生成待鑒定文檔分詞精簡向量維數(shù)RWV_TBI;待鑒定文檔分詞特征向量生成模塊,生成待鑒定文檔分詞特征向量WVE_RWV_TBI;用戶檢測模式確定模塊判斷當前用戶檢測模式為普通抄襲鑒定模式時,進行相似度比對;當待鑒定文檔與所有素材對比完成后,提取所有疑似素材,將待鑒定文檔與疑似素材進行進一步對比。
上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,并可依照說明書的內容予以實施,以下以本發(fā)明的較佳實施例并配合附圖詳細說明如后。
附圖說明
圖1示出了根據(jù)本發(fā)明的一個實施例的基于采樣的文獻檢測系統(tǒng)的框圖;
圖2示出了根據(jù)本發(fā)明的一個實施例的滑動窗口檢測法。
具體實施方式
為更進一步闡述本發(fā)明為達成預定發(fā)明目的所采取的技術手段及功效,以下結合附圖及較佳實施例,對依據(jù)本發(fā)明提出的系統(tǒng)及方法具體實施方式、特征及其功效,詳細說明如后。在下述說明中,不同的“一實施方式”或“實施方式”指的不一定是同一實施方式。此外,一或多個實施方式中的特定特征、結構、或特點可由任何合適形式組合。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南通遠網(wǎng)絡科技有限公司,未經(jīng)湖南通遠網(wǎng)絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610019515.5/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。





