[發(fā)明專利]Python源代碼文件相似性檢測方法有效

申請?zhí)枺?/td>	201510014906.3	申請日：	2015-01-09
公開（公告）號：	CN104598231B	公開（公告）日：	2018-07-20
發(fā)明（設(shè)計）人：	董付國;孫玲玲;原達;馮磊	申請（專利權(quán)）人：	山東工商學(xué)院
主分類號：	G06F8/70	分類號：	G06F8/70
代理公司：	暫無信息	代理人：	暫無信息
地址：	264005 山東***	國省代碼：	山東;37
權(quán)利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關(guān)鍵詞：	python 源代碼文件相似性檢測方法
鉆瓜網(wǎng) 技術(shù)展會專利詞庫專利權(quán)人專利榜在售專利公布日期熱門專利

【權(quán)利要求書】：

1.一種Python源代碼文件相似性檢測方法，其特征在于，包括以下步驟：

S1、獲取用戶輸入的參數(shù)類型；

S2、若判斷出所述用戶輸入的參數(shù)類型為一個Python源文件，則應(yīng)用算法A檢測所述Python源文件內(nèi)代碼之間的相似性；

S3、若判斷出所述用戶輸入的參數(shù)類型為一個包含Python源文件的文件夾，則應(yīng)用算法B檢測所述文件夾中所有Python源文件之間的相似性

S4、若判斷出所述用戶輸入的參數(shù)類型為一個目標(biāo)Python源文件和一個包含Python源文件的目標(biāo)文件夾，則應(yīng)用算法C檢測所述目標(biāo)Python源文件與所述目標(biāo)文件夾中所有Python源文件之間的相似性；

其中，用來檢測同一個Python源文件內(nèi)代碼之間相似性的算法A為：

A1、將用戶輸入的所述Python源文件中的所有行讀入列表；對所有讀入內(nèi)容進行預(yù)處理，刪除讀入內(nèi)容中所有多余的空格、每行兩端的空格以及行尾的換行符；

所述多余的空格即2個相鄰標(biāo)識符或運算符之間最多只保留一個空格，其他空格都是多余的空格；

A2、從0開始依次為列表中每個元素標(biāo)號，令index1＝0；進行步驟A3-A9；

A3、如果當(dāng)前行被判斷為注釋行，則跳過從當(dāng)前行開始的所有連續(xù)注釋行；所述當(dāng)前行為標(biāo)號index1所標(biāo)識的行；

A4、如果當(dāng)前行已被判斷為相似行，則跳過該行開始的所有連續(xù)相似行；將當(dāng)前行與該當(dāng)前行之前的代碼行進行比較，如果符合相似性檢測標(biāo)準(zhǔn)則判斷當(dāng)前行為相似行；通過查詢Result字典獲取信息，實現(xiàn)快速判斷；

A5、遍歷列表中index1之后的剩余元素，令index2＝index1+1，進行步驟A6-A8；

A6、如果當(dāng)前行被判斷為注釋行，則跳過從當(dāng)前行開始的所有連續(xù)注釋行；此處的當(dāng)前行為標(biāo)號index2所標(biāo)識的行；

A7、如果當(dāng)前行已被判斷為相似行，則跳過該行開始的所有連續(xù)相似行；

A8、對比分別以標(biāo)號index1和標(biāo)號index2開始的若干連續(xù)行的相似性，如果符合相似性檢測標(biāo)準(zhǔn)，則將相似性結(jié)果更新到Result字典，并將index2增加符合相似性檢測標(biāo)準(zhǔn)的連續(xù)行的步長；否則將index2增加1行；

當(dāng)index2小于等于列表中最后一個元素編號時，繼續(xù)進行步驟A6-A8；

A9、讀取Result字典，獲取index1行的最大相似跨度，并將index1增加最大相似跨度的步長；若當(dāng)前行無相似行，則將index1增加1；

在步驟A9中重置index1的值后，當(dāng)index1小于等于列表中最后一個元素編號時，繼續(xù)循環(huán)進行步驟A3-A9；

用來檢測同一個文件夾中所有Python源文件之間相似性的算法B為：

B1、將所述用戶輸入的文件夾中所有Python源文件內(nèi)容讀入至列表allFiles，列表allFiles的每個元素是一個列表，每個列表中的第0個元素為文件名，第1個元素是包含該文件的所有代碼行；同時對讀取的所有內(nèi)容進行預(yù)處理，刪除讀取的所有內(nèi)容中的所有多余的空格、每行兩端的空格以及行尾的換行符；

B2、從0開始，依次為列表allFiles中各個列表元素標(biāo)號，令index0＝0；進行步驟B3-B13；

B3、從0開始依次為標(biāo)號為index0的列表中的元素標(biāo)號，令index1＝0；進行步驟B4-B12；

B4、如果當(dāng)前行已被判斷為相似行，則跳過該行開始的所有連續(xù)相似行；

B5、如果當(dāng)前行被判斷為注釋行，則跳過從當(dāng)前行開始的所有連續(xù)注釋行；

B6、選擇標(biāo)號為index3的列表，其中，index3＝index0+1；進行步驟B7-B11；

B7、從0開始依次為標(biāo)號為index3的列表中的元素標(biāo)號，令index2＝0；進行步驟B8-B10；

B8、如果當(dāng)前行已被判斷為相似行，則跳過該行開始的所有連續(xù)相似行；

B9、如果當(dāng)前行被判斷為注釋行，則跳過從當(dāng)前行開始的所有連續(xù)注釋行；

B10、對比以index1和index2開始的若干連續(xù)行相似性，如果符合相似性檢測標(biāo)準(zhǔn)，則更新Result字典，并將index2增加符合相似性檢測標(biāo)準(zhǔn)的連續(xù)行的步長；否則將index2增加1行；當(dāng)index2小于等于編號為index3的列表最后一個元素編號時，繼續(xù)進行步驟B8-B10；

B11、將index3增加1，當(dāng)index3小于等于allFiles列表中最后一個元素編號時，繼續(xù)進行步驟B7-B11；

B12、讀取Result字典，獲取index1行的最大相似跨度，并將index1增加最大相似跨度的步長；若當(dāng)前行無相似行，則將index1增加1；當(dāng)index1小于等于index0的列表中的最后一個元素編號時，進行步驟B4-B12；

B13、將index0增加1；當(dāng)index0小于等于allFiles列表中最后一個元素編號時，循環(huán)進行步驟B3-B13；

所述目標(biāo)Python源文件與所述目標(biāo)文件夾中所有Python源文件之間相似性的算法C為：

C1、將所述用戶輸入的目標(biāo)文件夾中所有Python源文件內(nèi)容讀入至目標(biāo)列表allFiles，目標(biāo)列表allFiles的每個元素是一個列表，該列表的第0個元素為文件名，第1個元素是包含該文件的所有代碼行；同時將所述用戶輸入的目標(biāo)Python源文件內(nèi)容讀入至目標(biāo)列表currentFile；對所有讀入內(nèi)容進行預(yù)處理，刪除文件中所有多余的空格、每行兩端的空格以及行尾的換行符；

C2、從0開始依次為目標(biāo)列表currentFile中的元素標(biāo)號，令index1＝0；進行步驟C3-C9；

C3、如果當(dāng)前行被判斷為注釋行，則跳過從當(dāng)前行開始的所有連續(xù)注釋行；

C4、從0開始，依次為列表allFiles中各個列表標(biāo)號，令index3＝0；進行步驟C5-C8；

C5、從0開始依次為標(biāo)號為index3的列表中的元素標(biāo)號，令index2＝0；進行步驟C6-C7；

C6、如果當(dāng)前行被判斷為注釋行，則跳過從當(dāng)前行開始的所有連續(xù)注釋行；

C7、對比以index1和index2開始的若干連續(xù)行相似性，如果符合相似性檢測標(biāo)準(zhǔn)，則更新Result字典，并將index2增加符合相似性檢測標(biāo)準(zhǔn)的連續(xù)行的步長；否則index2增加1；若index3的列表中的元素還未檢測完，則繼續(xù)進行步驟C6-C7；

C8、將index3增加1，當(dāng)index3小于等于allFiles列表中最后一個元素編號時，循環(huán)進行步驟C5-C8；

C9、讀取Result字典，獲取index1行的最大相似跨度，并將index1增加最大相似跨度的步長；若當(dāng)前行無相似行，則將index1增加1；

在步驟C9中重置index1的值后，當(dāng)index1小于等于currentFile列表中最后一個元素編號時，繼續(xù)循環(huán)進行步驟C3-C9；

其中，所述相似性檢測標(biāo)準(zhǔn)為：要求完全相等，則直接將分別以index1和index2開始的若干連續(xù)代碼行進行比較是否精確相等，若精確相等則認為符合相似性檢測標(biāo)準(zhǔn)標(biāo)準(zhǔn)，否則認為不符合；

或者，所述相似性檢測標(biāo)準(zhǔn)為：要求兩段代碼中變量名和運算符具有一定重合度或相似性，則需要首先提取類名、函數(shù)名、變量名等標(biāo)識符以及運算符，并統(tǒng)計各自出現(xiàn)的頻率，將結(jié)果按標(biāo)識符出現(xiàn)頻率從高到低進行排序；如果標(biāo)識符與運算符名稱以及頻率分布達到預(yù)設(shè)標(biāo)準(zhǔn)，則認為兩段代碼相似，符合相似性檢測標(biāo)準(zhǔn)標(biāo)準(zhǔn)，否則認為不符合；

其中，提取出兩段代碼或兩個源文件中所有標(biāo)識符和運算符以后，分類并按出現(xiàn)頻率從高到低排序，如果兩段代碼中標(biāo)識符與運算符以及頻率分布具有較高相似性，即如果

同時，

則認為兩段代碼具有較高相似性。

下載完整專利技術(shù)內(nèi)容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息，商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東工商學(xué)院，未經(jīng)山東工商學(xué)院許可，擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作，請聯(lián)系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201510014906.3/1.html，轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。

同類專利

專利分類

G 物理

G06 計算；推算；計數(shù)
G06F 電數(shù)字數(shù)據(jù)處理

免登錄下載普通用戶下載升級VIP會員，免費下載

專利文獻下載

說明：

1、專利原文基于中國國家知識產(chǎn)權(quán)局專利說明書；

2、支持發(fā)明專利、實用新型專利、外觀設(shè)計專利（升級中）；

3、專利數(shù)據(jù)每周兩次同步更新，支持Adobe PDF格式；

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖、流程工藝圖或技術(shù)構(gòu)造圖；

5、已全新升級為極速版,下載速度顯著提升！歡迎使用！

請您登陸后，進行下載，點擊【登陸】【注冊】