[實用新型]一種基于藏文句子級別的藏文論文復制檢測系統有效
| 申請號: | 201621006813.2 | 申請日: | 2016-08-31 |
| 公開(公告)號: | CN206451175U | 公開(公告)日: | 2017-08-29 |
| 發明(設計)人: | 看不太;安見才讓;孫琦龍;昝風彪 | 申請(專利權)人: | 青海民族大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06F17/22;G06F17/28 |
| 代理公司: | 北京酷愛智慧知識產權代理有限公司11514 | 代理人: | 趙永輝 |
| 地址: | 810007 青*** | 國省代碼: | 青海;63 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 藏文 句子 級別 論文 復制 檢測 系統 | ||
技術領域
本實用新型屬于藏文信息處理領域,具體涉及一種基于藏文句子級別的藏文論文復制檢測系統。
背景技術
論文復制檢測的定義是判斷一篇論文的內容是否抄襲、剽竊或者復制于另外一篇或者多篇論文。主要包括完全拷貝、內容的移位變換、同義詞替換以及改變說法重述等抄襲方式。復制檢測有時稱為“抄襲檢測”或者“剽竊檢測”特指針對學術論文。
隨著互聯網的不斷發展和網絡數字資源的日益豐富,給人們提供了資源共享和信息交流的便利平臺。已經成為人們信息獲取的重要來源,同時為廣大科研工作者和師生提供了便捷的學術交流機會。一篇論文的文本經過增添刪改字詞或改變說法重述之后便可以形成新的文本,這種行為稱為論文的復制或抄襲。
目前,中英文論文復制檢測技術較成熟。但由于藏文與中英文語言天然存在差異,諸多對中英文自然語言的復制檢測處理技術并不能完全適用于藏文,也無法用它們來檢測藏文論文的復制率。這一空白導致了很多民族高校和藏學研究者出現了論文質量低、學術氣氛差和學術創新難以提高等現象。依靠人工進行抄襲檢測,不僅耗費寶貴的人力資源,而且時效性和準確性也滿足不了實際需求。因此,必須建立健全的體制,創作藏文論文復制檢測系統來有效地保護知識產權。
實用新型內容
為了解決現有技術依靠人工檢測抄襲論文,存在檢測效率低、檢測準確性不高的技術問題,本實用新型的目的是提供一種基于藏文句子級別的藏文論文復制檢測系統。
為了達成本實用新型的目的,本實用新型提供一種使用基于藏文句子級別的藏文論文復制檢測系統,包括可訪問因特網的客戶終端,通過因特網連接到所述客戶終端服務器的藏文論文復制檢測裝置,以及連接到所述服務器存儲的藏文論文的數據庫;所述藏文論文復制檢測裝置包括:
從藏文論文的數據庫提取待檢測藏文論文文本字符做編碼轉換及去除噪音的通過因特網連接到所述客戶終端的服務器中預處理模塊;
所述客戶終端的服務器中預處理模與基于藏文句子邊界識別藏文論文文本并按句子分成文本塊,構建文本塊分詞的分詞臨時表模塊連接;
所述分詞臨時表模塊與在句子-文檔倒排索引表W和文本塊分詞的臨時表T中,構建句子文本特征的特征提取模塊連接;
所述特征提取模塊與利用鄰接表獲得文本塊相似值來檢測兩篇藏文論文存在的復制數據的復制檢測模塊連接。
其中,所述藏文論文文本文件編碼轉換成Unicode編碼。
其中,所述句子文本特征由句子中的停單詞、格助詞和虛詞組成。
其中,用待測藏文論文每條句子相似度的向量集的每個元素表示待測藏文論文對應的句子相似度。
有益的技術效果:為了解決藏文論文的抄襲現象,本實用新型是基于藏文句子級別的復制檢測系統,利用可訪問因特網的客戶終端,通過因特網連接到所述客戶終端服務器的藏文論文復制檢測裝置,以及連接到所述服務器存儲的藏文論文的數據庫;建立句子與文檔的倒排索引,可以根據句子能夠快速定位存在該句子的文檔列表和位置信息,由于重復的藏文句子可以由索引直接得到,可以極大的提高本實用新型系統的工作效率,為大規模文本復制檢測提供了一種可行的技術方案。本實用新型的系統中,剔除句子中的停用詞,其余作為句子的文本特征,會提高相似度的準確性,為了解決藏文論文的抄襲現象,根據所得的相似值來判定兩篇論文是否存在抄襲現象以及抄襲程度。
本實用新型提供一種使用基于藏文句子級別的藏文論文復制系統,對計算機互聯網上藏文論文的知識產權保護,通過計算機復制檢測系統檢測藏文論文的復制率,本實用新型能夠防止藏文論文復制或抄襲的剽竊行為,從而保護論文知識產權、端正學術風氣和提高信息檢索效率的重要手段。
附圖說明
圖1為本實用新型一種基于藏文句子級別的藏文論文復制檢測系統結構示意圖;
圖2為本實用新型中的鄰接表;
圖3為本實用新型中的句子-文本文檔的倒排索引結構原理圖;
圖4為本實用新型中的計算相似度流程;
圖5為論文注冊模塊的流程圖;
圖6為不同類型的編碼文件藏文字母對應的十六進制碼;
圖7為ReadString函數實現按行讀取及編碼轉換流程圖;
圖8為藏語句子邊界識別流程圖;
圖9為待測論文1的句子相似度閾值取值指標圖;
圖10為待測論文1的句子相似度閾值語料庫測試指標圖;
圖11為待測論文2的句子相似度閾值取值指標圖;
圖12為待測論文2的句子相似度閾值語料庫測試指標圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于青海民族大學,未經青海民族大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201621006813.2/2.html,轉載請聲明來源鉆瓜專利網。





