[發明專利]一種基于采樣的文獻檢測方法及系統有效
| 申請號: | 201610019515.5 | 申請日: | 2016-01-13 |
| 公開(公告)號: | CN105701206B | 公開(公告)日: | 2018-10-09 |
| 發明(設計)人: | 夏峰;洪學文;曾文斌 | 申請(專利權)人: | 湖南通遠網絡科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京冠和權律師事務所 11399 | 代理人: | 朱健;陳國軍 |
| 地址: | 410000 湖南省長沙市芙蓉區荷*** | 國省代碼: | 湖南;43 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 采樣 文獻 檢測 方法 系統 | ||
1.一種基于采樣的文獻檢測系統,其特征在于,包括:
對比庫,用于收錄用作對比對象的素材;所述對比庫進一步包括書籍庫、論文庫、專利庫、公式庫、諺語俗語庫、諺語庫、名人名言庫、詩詞庫子庫;
分詞庫,用于收錄分詞及對應詞性;分詞庫中針對每一分詞進行唯一編號,使用W_ID表示某一分詞在分詞庫中的唯一編號;
分詞模塊,用于對各素材進行分詞,并將分詞結果保存至對比庫中;分詞模塊將分詞結果與分詞庫保存的詞性進行比對,確定分詞結果的詞性;
分詞特征值生成模塊統計每一個分詞在對應素材中出現的數量,生成每一個分詞對應的分詞詞性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示該分詞在分詞庫中的唯一編號,W_N表示該分詞在該素材中出現的總次數;W_CHAR表示該分詞的詞性;
分詞自由向量維數確定模塊根據素材的分詞結果確定分詞自由向量維數WFV;所述分詞自由向量維數WFV等于對特定素材進行分詞后得到的不同分詞的數量;
分詞精簡向量維數生成模塊,用于對每個素材的分詞自由向量維數WFV進行精簡,生成分詞精簡向量維數RWV;
其中,分詞精簡向量維數生成模塊采用等間隔抽取法對分詞自由向量維數WFV進行精簡;精簡過程如下:判斷分詞自由向量維數WFV是否大于分詞精簡向量維數RWV,如果是,則將分詞自由向量維數WFV除以系統指定的分詞精簡向量維數RWV,并對所得到的商值進行上取整運算,進一步得到精簡系數REDU;則在分詞自由向量維數WFV所對應的特征值中每間隔REDU-1個提取一個特征值;當所有特征值提取完畢后,判斷所提取的特征值的數量是否等于分詞精簡向量維數RWV;當所提取的特征值的數量等于分詞精簡向量維數RWV時,則完成分詞自由向量維數WFV精簡;當所提取的特征值的數量小于分詞精簡向量維數RWV時,則計算分詞精簡向量維數RWV與特征值數量的差值;在未被提取的特征值中隨機提取與分詞精簡向量維數RWV與特征值的差值數量相等的特征值,完成分詞自由向量維數WFV的精簡;
分詞特征向量生成模塊,用于根據分詞精簡向量維數RWV提取每個素材中所述分詞精簡向量維數RWV對應的特征值生成分詞特征向量WVE_RWV;
WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]
其中W_IDi表示分詞在分詞庫中的唯一編號,W_Ni,表示該分詞在該素材中出現的總次數,將該次數作為該分詞的特征值;
用戶訪問方式檢測模塊,用于提示用戶上傳待鑒定文檔;
用戶檢測模式確定模塊,用于判斷當前用戶檢測模式為普通抄襲鑒定模式時,待鑒定文檔分詞模塊用于對待鑒定文檔進行分詞,得到分詞結果;
待鑒定文檔分詞自由向量維數確定模塊,用于根據待鑒定文檔的分詞結果確定分詞自由向量維數WFV_TBI;
待鑒定文檔分詞精簡向量維數生成模塊,用于對待鑒定文檔的分詞自由向量維數WFV_TBI進行精簡;生成待鑒定文檔分詞精簡向量維數RWV_TBI;
待鑒定文檔分詞特征向量生成模塊,根據分詞精簡向量維數RWV_TBI提取每個待鑒定文檔中與所述待鑒定文檔分詞精簡向量維數RWV_TBI對應的特征值生成待鑒定文檔分詞特征向量WVE_RWV_TBI,其中
WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI]
其中W_IDi表示分詞在分詞庫中的唯一編號,W_Ni表示該分詞在該待鑒定文檔中出現的總次數,將該次數作為該分詞的特征值;
用戶檢測模式確定模塊判斷當前用戶檢測模式為普通抄襲鑒定模式時,進行相似度比對時,待鑒定文檔分詞特征向量生成模塊生成待鑒定文檔的分詞特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI],待鑒定文檔的分詞特征向量的維數為RWV_TBI;分詞特征向量生成模塊生成對比庫中素材的分詞特征向量WVE_RWV;其中,待鑒定文檔的分詞特征向量的維數RWV_TBI等于分詞特征向量的維數RWV;
待鑒定文檔特征向量調整模塊,用于將分詞特征向量WVE_RWV_TBI中的所有特征值對應的W_IDi值按照分詞庫中的編號進行升序或降序排列,并將缺少的W_IDi值插入,插入的分詞編號W_IDi所對應的特征值為0;得到擴展的待鑒定文檔分詞特征向量WVE_RWV_TBI_EXT=[W_IDTBI_EXT_1,W_NTBI_EXT_1,...,W_IDTBI_EXT_i,W_NTBI_EXT_i,...,W_IDTBI_EXT_RWV_TBI,W_NTBI_EXT_RWV_TBI,...,W_IDW,W_NW];
素材特征向量調整模塊,用于將分詞特征向量WVE_RWV中的所有特征值對應的W_IDi值按照分詞庫中的編號進行升序或降序排列,并將缺少的W_IDi值插入,插入的分詞編號W_IDi所對應的特征值為0;得到擴展的分詞特征向量WVE_RWV_EXT=[W_IDEXT_1,W_NEXT_1,...,W_IDEXT_i,W_NEXT_i,...,W_IDEXT_RWV,W_NEXT_RWV,...,W_IDW,W_NW];
普通抄襲鑒定相似度計算模塊,計算待鑒定文檔與對比庫中的任一素材的之間的相似度;通過以下公式計算:
當待鑒定文檔與所有素材對比完成后,提取所有疑似素材,將待鑒定文檔與疑似素材進行進一步對比。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于湖南通遠網絡科技有限公司,未經湖南通遠網絡科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610019515.5/1.html,轉載請聲明來源鉆瓜專利網。





