[發(fā)明專利]基于排序的抄襲檢測文本匹配方法有效
| 申請?zhí)枺?/td> | 201810198863.2 | 申請日: | 2018-03-09 |
| 公開(公告)號: | CN108509414B | 公開(公告)日: | 2021-09-03 |
| 發(fā)明(設(shè)計)人: | 孔蕾蕾;韓中元;齊浩亮 | 申請(專利權(quán))人: | 黑龍江工程學院 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/35 |
| 代理公司: | 哈爾濱市松花江專利商標事務(wù)所 23109 | 代理人: | 楊立超 |
| 地址: | 150050 黑龍江*** | 國省代碼: | 黑龍江;23 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 排序 抄襲 檢測 文本 匹配 方法 | ||
1.一種基于排序的抄襲檢測文本匹配方法,其特征在于,所述方法的實現(xiàn)過程為:
步驟1、構(gòu)建基于排序的抄襲文本匹配模型:
設(shè)f為基于排序的抄襲文本匹配模型,是關(guān)于的線性函數(shù),定義如下:
其中,表示利用源文檔片段與抄襲文檔片段對構(gòu)建的描述源文檔片段與抄襲文檔片段抄襲程度的特征向量,表示權(quán)重向量;
將基于步驟2獲取,將基于步驟3獲得;
步驟2、基于METEOR評價指標提取排序特征
給出可疑文檔dplg中的片段si,將選擇si的抄襲源形式化為給定一個可疑文檔的片段,對源文檔的片段列表dsrc={(r1,r2,......,rq)}的每個文本片段rj,利用機器翻譯評價指標METEOR的精確率Precision、召回率Recall、F1值、F均值Fmean、懲罰度Penalty和METEOR得分METEORScore六個評價指標構(gòu)建特征向量將作為排序?qū)W習的特征向量;的每一維為METEOR的一個評價指標,分別為Precision、Recall、F1、Fmean、Penalty和METEORScore;其計算方法如下所示:
評價指標Precision表示為P,計算方法為其中common(si,rj)表示si與rj中共有的相同的一元文法的數(shù)目,len(rj)為rj中一元文法的總數(shù)目;評價指標Recall表示為R,計算方法為其中l(wèi)en(si)為si中一元文法的總數(shù)目;評價指標F1計算方法為其中利用P和R的調(diào)和平均數(shù)來組合精確率和召回率;評價指標Fmean計算方法為其中利用P和9R的調(diào)和平均數(shù)來組合精確率和召回率;評價指標Penalty計算方法為其中l(wèi)en(chunks)表示si與rj中最長匹配的一元文法的數(shù)目;評價指標METEORScore,表示為Score,計算方法為Score=Fmean*(1-Penalty);
步驟3、根據(jù)抄襲文本匹配的排序算法,學習排序模型f,獲得權(quán)重向量具體過程為:
和分別表示文本片段對(si,ru)和(si,rv)的特征向量,yi,u和yi,v分別表示si與ru以及si與rv的抄襲程度;用>表示偏序關(guān)系,如果yi,u>yi,v,表示對于可疑文檔片段si,ru排序在rv前面,即下列不等式成立:
對于偏序關(guān)系yi,u>yi,v,如果則模型f發(fā)生了一個錯誤;因此,損失函數(shù)與定義在訓練數(shù)據(jù)集上的排序錯誤相關(guān);
排序錯誤發(fā)生在f將一個非抄襲匹配文檔對排在抄襲匹配文檔對之前,即:
其中,如果是真,則為0,否則為1;定義p和q分別是dplg和dsrc中的文本片段的數(shù)目;最小化式(3)意味著排序?qū)W習系統(tǒng)應(yīng)該在假設(shè)空間H上學習一個排序函數(shù)f∈H,使得f在訓練數(shù)據(jù)T的n個可疑文檔片段上,最大化下列不等式的數(shù)目:
使用非負的松弛變量式(4)可被表示為:
進一步的,式(5)可被重寫為:
用新的向量表示偏序關(guān)系yi,u>yi,v;令z表示ru和rv的排序,則有:
根據(jù)ru和rv的排序,賦予向量一個正的標簽z=+1或一個負的標簽z=-1;
由此,式(6)的優(yōu)化問題轉(zhuǎn)化為在序?qū)ι系姆诸悊栴};式(7)等價于在序?qū)ο蛄可辖鉀Q下面的二次最優(yōu)化問題:
最小化:
使得:
ξu,v,k≥0,k=1,...,n
其中,項為控制模型的復雜度;
式(8)為:使用定義在文檔序?qū)ι系腍inge損失,對于可疑文檔片段si,xi,u為抄襲匹配對應(yīng)的向量,xi,v不是抄襲匹配對應(yīng)的向量,yu,v=1,那么如果以邊界1大于則沒有損失,否則,損失為ξu,v,k;對于經(jīng)RankingSVM學到的優(yōu)化向量則最終的排序函數(shù)f為:
式中,表示算法學到的最優(yōu)的權(quán)重向量,表示最優(yōu)權(quán)重向量與特征向量的線性組合。
2.根據(jù)權(quán)利要求1所述的一種基于排序的抄襲檢測文本匹配方法,其特征在于,步驟1所述基于排序的抄襲文本匹配模型的構(gòu)建過程為:
設(shè)可疑文檔dplg={(s1,s2,......,sp)},dplg的抄襲源文檔dsrc={(r1,r2,......,rq)},其中si和rj分別是文檔dplg和dsrc的文本片段;
給定si∈dplg,表示在dsrc中找到si最可能的抄襲匹配;
對于一個文本片段對(si,rj),設(shè)yi,j是表明si和rj抄襲匹配程度的標簽;設(shè)在文本dsrc中,ru是si的抄襲匹配,rv不是si的抄襲匹配,則:
yi,u>yi,v (10)
給定一個文本片段對(si,rj),設(shè)函數(shù)的輸出與yi,j成正比:
根據(jù)式(10)和(11),函數(shù)f滿足下列不等式
式(12)定義了兩個文本片段對(si,ru)和(si,rv)之間的偏序關(guān)系;給定si∈dplg,基于在dsrc中找到si最可能的抄襲匹配的目標,認為文本片段對間的相對順序比準確的預測每一個文本片段對的抄襲程度更重要,使用函數(shù)f,得到dsrc中的文本片段關(guān)于si的抄襲程度的列表
在中,假設(shè)si的抄襲匹配文本排序在非抄襲匹配文本前面,則下式成立:
其中,是dsrc中si的抄襲匹配文本的數(shù)目,q是dsrc中文本片段的總數(shù);
給定一個si∈dplg,排序列表L(i)的前個文本片段可視為si的抄襲匹配;因此,估計rj是si的抄襲匹配通過排序dsrc上的文本片段實現(xiàn);通過學習函數(shù)f,使得排序列表中抄襲匹配片段的排序在非抄襲片段前面;當給定一個新的可疑文檔中的文本片段sm時,使用學到的函數(shù)f得到的關(guān)于sm排序列表在中,sm的抄襲匹配通過截取的前個文本片段實現(xiàn)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于黑龍江工程學院,未經(jīng)黑龍江工程學院許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810198863.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





