[發(fā)明專利]源代碼語言類型檢測方法和系統(tǒng)、設(shè)備及存儲介質(zhì)在審
| 申請?zhí)枺?/td> | 202210344124.6 | 申請日: | 2022-04-02 |
| 公開(公告)號: | CN114840207A | 公開(公告)日: | 2022-08-02 |
| 發(fā)明(設(shè)計)人: | 何魏酉;張研;李薛 | 申請(專利權(quán))人: | 三六零數(shù)字安全科技集團(tuán)有限公司 |
| 主分類號: | G06F8/41 | 分類號: | G06F8/41;G06K9/62 |
| 代理公司: | 北京市鼎立東審知識產(chǎn)權(quán)代理有限公司 11751 | 代理人: | 朱慧娟 |
| 地址: | 100015 北京市朝陽區(qū)酒*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 源代碼 語言 類型 檢測 方法 系統(tǒng) 設(shè)備 存儲 介質(zhì) | ||
1.一種源代碼語言類型檢測方法,其特征在于,包括:
基于預(yù)先構(gòu)建的代碼特征集合,提取當(dāng)前要檢測的源代碼的代碼特征;
計算所述代碼特征的TF-IDF,并基于計算得到的TF-IDF結(jié)合訓(xùn)練好的檢測模型,由所述檢測模型根據(jù)所述TF-IDF對當(dāng)前要檢測的所述源代碼進(jìn)行檢測分類。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述代碼特征集合中包括不同語言類型的源代碼的變量類型、函數(shù)名、包名、語法格式、標(biāo)識符中的至少一種。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于預(yù)先構(gòu)建的代碼特征集合,提取當(dāng)前要檢測的源代碼的代碼特征時,按照元素匹配的方式進(jìn)行。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括檢測模型訓(xùn)練的步驟;
其中,對所述檢測模型進(jìn)行訓(xùn)練時,包括:
收集不同語言類型的源代碼的變量類型、函數(shù)名、包名、語法格式、標(biāo)識符中的至少一種構(gòu)建所述代碼特征集合,并收集預(yù)設(shè)數(shù)量的源代碼作為樣本數(shù)據(jù);其中,預(yù)設(shè)數(shù)量的源代碼的語言類型包括多種;
基于所述代碼特征集合提取各所述樣本數(shù)據(jù)的代碼特征,并計算提取出的樣本數(shù)據(jù)的代碼特征計算TF-IDF;
將各所述樣本數(shù)據(jù)的TF-IDF輸入至檢測模型中,對所述檢測模型進(jìn)行訓(xùn)練。
5.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,所述檢測模型為隨機(jī)森林模型。
6.根據(jù)權(quán)利要求1至4任一項所述的方法,其特征在于,基于預(yù)先構(gòu)建的代碼特征集合,提取當(dāng)前要檢測的源代碼的代碼特征之前,還包括:
由所述源代碼中提取出特有特征,在提取出所述特有特征時,執(zhí)行根據(jù)所述特有特征對所述源代碼進(jìn)行檢測分類的步驟。
7.一種源代碼語言類型檢測系統(tǒng),其特征在于,包括:特征提取模塊和檢測分類模塊;
所述特征提取模塊,被配置為基于預(yù)先構(gòu)建的代碼特征集合,提取當(dāng)前要檢測的源代碼的代碼特征;
所述檢測分類模塊,被配置為計算所述代碼特征的TF-IDF,并基于計算得到的TF-IDF結(jié)合訓(xùn)練好的檢測模型,由所述檢測模型根據(jù)所述TF-IDF對當(dāng)前要檢測的所述源代碼進(jìn)行檢測分類。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,還包括啟發(fā)式檢測模塊;
所述啟發(fā)式檢測模塊,被配置為在所述特征提取模塊提取當(dāng)前要檢測的源代碼的代碼特征之前,由所述源代碼中提取出特有特征,在提取出所述特有特征時,執(zhí)行根據(jù)所述特有特征對所述源代碼進(jìn)行檢測分類的步驟。
9.一種源代碼語言類型檢測設(shè)備,其特征在于,包括:
處理器;
用于存儲處理器可執(zhí)行指令的存儲器;
其中,所述處理器被配置為執(zhí)行所述可執(zhí)行指令時實現(xiàn)權(quán)利要求1至6中任意一項所述的方法。
10.一種非易失性計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序指令,其特征在于,所述計算機(jī)程序指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至6中任意一項所述的方法。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于三六零數(shù)字安全科技集團(tuán)有限公司,未經(jīng)三六零數(shù)字安全科技集團(tuán)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210344124.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





