[發明專利]一種基于多特征的跨語言剽竊檢測方法有效
| 申請號: | 201711084337.5 | 申請日: | 2017-11-07 |
| 公開(公告)號: | CN107862045B | 公開(公告)日: | 2022-01-14 |
| 發明(設計)人: | 劉剛;胡昱臨;李光曦 | 申請(專利權)人: | 哈爾濱工程大學 |
| 主分類號: | G06F16/335 | 分類號: | G06F16/335;G06F40/58;G06F40/253;G06F40/205 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 150001 黑龍江省哈爾濱市南崗區*** | 國省代碼: | 黑龍江;23 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 特征 語言 剽竊 檢測 方法 | ||
1.一種基于多特征的跨語言剽竊檢測方法,其特征是:
(1)構建語料庫;
(2)譯文特征的構建
根據翻譯文章普遍出現的歐化現象和翻譯體問題進行了譯文特征構建,通過特征選擇的方式對特征進行清洗篩選出有效特征,過濾無效特征或者效果不明顯的特征;
(3)特征選擇
從諸多特征中選擇出若干有效特征來進行分類器的訓練,進而區分某一篇或某幾篇中文文章是否存在跨語言剽竊問題;
(4)基于特征對應的剽竊檢測
針對中文的特征,進行英文特征的準確對應,并根據譯文特征和結構特征對應進行剽竊結果的過濾和生成,通過WordNet進行剽竊結果的最終確認;
基于特征對應的剽竊檢測分為四個階段,第一階段,剽竊候選集預處理階段,對中英文剽竊候選集進行段落劃分與詞性標注;第二階段,一次過濾階段,根據譯文特征進行準確的特征對應,并實現段落距離計算算法;第三階段,二次過濾階段,根據結構特征進行剽竊結果再次過濾;第四階段,最終結果確認階段,運用WordNet對剽竊結果進行最終的確認,得到最終剽竊結果;選取了五種結構特征:句子的長度、句子中名詞的長度、句子中動詞的長度、句子中形容詞的長度、句子中副詞的長度,用來對剽竊候選集進行進一步篩選和過濾。
2.根據權利要求1所述的基于多特征的跨語言剽竊檢測方法,其特征是所述構建語料庫具體包括:
所述語料庫分為中文訓練集和中文測試集,將語料庫分為兩類,第一類語料庫是存在跨語言剽竊的中文文章,這部分語料的獲取通過將英文文檔自動翻譯得到;第二類語料庫為原創性的中文文章,這部分語料的獲取通過下載權威性中文論文;
第一類語料庫的構建方法為:用爬蟲爬取大量英文文章,并通過程序進行批量自動翻譯得到剽竊中文文檔,實現對批量的帶有特定編號的PDF格式的文章進行處理,一篇編號為n的文章,形成m個純文本文件,文件名為n.m,其中m為該文章的段落數,包括以下三步,
1)將PDF格式的文檔轉換為可文本標記的XML格式文檔;
2)根據XML的標簽,各類文本的信息轉化,P/P之間的為一個段落,依次去讀文檔,讀到P后便在該標簽前面加入其特殊標記,并去掉其它標簽以及標簽之間的內容,文檔中剩余的即為在每段前面加入特殊標記的文檔;
3)用程序去讀加入特殊標記的文檔,每讀到特殊標記便將其后面的內容寫入一個純文本文檔,并將其特殊標記去掉。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于哈爾濱工程大學,未經哈爾濱工程大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711084337.5/1.html,轉載請聲明來源鉆瓜專利網。





