[發(fā)明專利]基于排序的抄襲檢測文本匹配方法有效
| 申請?zhí)枺?/td> | 201810198863.2 | 申請日: | 2018-03-09 |
| 公開(公告)號: | CN108509414B | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計)人: | 孔蕾蕾;韓中元;齊浩亮 | 申請(專利權(quán))人: | 黑龍江工程學(xué)院 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 哈爾濱市松花江專利商標事務(wù)所 23109 | 代理人: | 楊立超 |
| 地址: | 150050 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 排序 抄襲 檢測 文本 匹配 方法 | ||
基于排序的抄襲檢測文本匹配方法,涉及抄襲檢測技術(shù)領(lǐng)域。本發(fā)明為了實現(xiàn)高模糊抄襲的檢測,解決基于啟發(fā)式方法依賴專家經(jīng)驗、無法融合抄襲檢測中各類有效的特征的問題。將抄襲文本的匹配形式化為一個排序任務(wù),給出一個可疑文本片段,該方法應(yīng)用基于序?qū)Φ呐判驅(qū)W習(xí)方法獲得源文檔中該片段最可能抄襲的片段。本發(fā)明引入機器翻譯的評價指標METEOR來捕獲詞匯相似和語義相似。應(yīng)用PAN2012和PAN 2013的抄襲檢測數(shù)據(jù)集對該方法進行了評價,并與PAN2013、2013和2014評測中獲得最好性能的方法進行了比較。在高模糊抄襲和總結(jié)抄襲子集上,本發(fā)明相對基線方法在評價指標Plagdet上分別提高了22%和43%。本發(fā)明方法時間效率也優(yōu)于基線方法。
技術(shù)領(lǐng)域
本發(fā)明涉及一種抄襲檢測文本匹配方法,涉及抄襲檢測技術(shù)領(lǐng)域。
背景技術(shù)
抄襲文本匹配是抄襲檢測的核心任務(wù),該任務(wù)致力于獲取可疑文檔和它抄襲的源文檔匹配的抄襲片段(Potthastetal.,2012a;2013a;2014)。研究者針對抄襲文本匹配開展了大量的工作,其中大部分研究基于啟發(fā)式的方法,應(yīng)用詞或者字符表示可疑文檔和抄襲源文檔,然后通過計算可疑文檔和源文檔片段中重疊的字符、單詞,或通過文本向量的相似來識別確切的或可能的抄襲匹配。
這類方法在低模糊抄襲檢測上取得了良好的性能,而在高模糊抄襲檢測上的性能卻不令人滿意。例如,以PlagDet得分為評價指標(PAN定義的抄襲檢測的主要評價指標,最高分為1.0),在抄襲檢測評測PAN@CLEF2012的無模糊抄襲檢測子集上最高的PlagDet為0.9451,在PAN@CLEF2012的低模糊抄襲檢測子集上,最高的PlagDet為0.8441。然而,與簡單的復(fù)制和粘貼源文擋的無模糊抄襲或者簡單的修改源文檔的低模糊抄襲不同,在高模糊的抄襲中,文本通常使用詞匯和句法釋義、句子的縮減、組合、重組、概念泛化和特化等手段來躲避抄襲檢測(Alzahranietal.,2012)。面對抄襲文檔會大篇幅的改動、大部分的單詞和短語都被替換的情況,啟發(fā)式方法在高模糊抄襲的文本匹配中沒有取得令人滿意的性能。例如,在PAN@CLEF2012高模糊抄襲子集上,PlagDet的最高分僅為0.4067,在總結(jié)性抄襲子集上,PlagDet的最高分僅為0.6101(Potthast et al.,2012a;2013a)。
單憑專家經(jīng)驗和啟發(fā)式規(guī)則設(shè)計的抄襲匹配方法受到它所在的框架的限制,特別是在實踐中,很難向啟發(fā)式方法中添加在抄襲檢測的研究中已被確認的有效的特征來捕獲高模糊抄襲的匹配文本。因此,在基于啟發(fā)式的文本匹配方法中,系統(tǒng)性能的改善只能依賴于修改原啟發(fā)式方法的參數(shù)或者開發(fā)新的啟發(fā)式方法實現(xiàn)。
現(xiàn)有技術(shù)中針對基于啟發(fā)式的文本匹配方法存在的問題沒有給出相應(yīng)的解決方案。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于排序的抄襲檢測文本匹配方法,為了解決基于啟發(fā)式方法依賴專家經(jīng)驗,致使檢測性能不佳的問題。
本發(fā)明為解決上述技術(shù)問題采取的技術(shù)方案是:
一種基于排序的抄襲檢測文本匹配方法,所述方法的實現(xiàn)過程為:
步驟1、構(gòu)建基于排序的抄襲文本匹配模型:
設(shè)f為基于排序的抄襲文本匹配模型,f是關(guān)于的線性函數(shù),定義如下:
其中,稱f為基于排序的抄襲文本匹配模型;表示利用源文檔片段與抄襲文檔片段對所構(gòu)建的描述源文檔片段與抄襲文檔片段抄襲程度的特征向量,表示權(quán)重向量,將使用基于序?qū)Φ呐判驅(qū)W習(xí)的方法獲得;
將基于步驟2獲取,將基于步驟3的學(xué)習(xí)算法獲得;
步驟2、基于METEOR評價指標提取排序特征
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于黑龍江工程學(xué)院,未經(jīng)黑龍江工程學(xué)院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810198863.2/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





