[發明專利]一種文件碎片分類方法及系統在審
| 申請號: | 201911146348.0 | 申請日: | 2019-11-21 |
| 公開(公告)號: | CN110928848A | 公開(公告)日: | 2020-03-27 |
| 發明(設計)人: | 尹凌;奚桂鍇 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 曹衛良 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件 碎片 分類 方法 系統 | ||
1.一種文件碎片分類方法,其特征在于,該方法包括如下步驟:
a.利用文件數據集,構建文件碎片數據集,所述的文件碎片數據集包括:訓練集和測試集;
b.對構建的文件碎片數據集進行預處理;
c.構建深度卷積神經網絡模型;
d.利用預處理后的訓練集和測試集,對上述構建的深度卷積神經網絡模型進行訓練和評估;
e.利用所述深度卷積神經網絡模型預測文件碎片所屬的文件類型。
2.如權利要求1所述的方法,其特征在于,所述的步驟a具體包括:
對公開文件數據集govdocs1包含的所有zip壓縮包文件進行解壓,將解壓后文件夾中的文件按照所屬的文件類型劃分到不同的類別;
將對應待研究的文件類型所選取的文件劃分成兩類,以生成分別用于訓練集和測試集的文件碎片;
對每個文件根據所選的文件碎片大小進行切片以生成大量文件碎片,并刪除每個文件的頭一個文件碎片,及最后一個小于指定文件碎片大小的文件碎片。
3.如權利要求2所述的方法,其特征在于,所述的步驟b具體包括:
對生成的訓練集和測試集中的每一個文件碎片都進行轉換,通過簡單的形狀變化將一維的文件碎片轉換為二維灰度圖像;
對每個所述二維灰度圖像進行歸一化處理,計算訓練集中每個位置像素點的最大值和最小值,將訓練集和測試集中對應的二維灰度圖像,依據訓練集中求得的所述最大值和最小值將對應的像素點進行縮放,使得所述像素點的灰度值落在-1到1之間。
4.如權利要求3所述的方法,其特征在于,所述的深度卷積神經網絡模型包含L個卷積塊,一個全局平均池化層以及兩個全連接層。
5.如權利要求4所述的方法,其特征在于,所述卷積塊包括:卷積層、殘差單元和最大池化層三個部分;
卷積塊的數量L受轉換后的灰度圖像的大小限制:
Lmax=min(log2max(w,h)-1,log2min(w,h))
在該式中,Lmax指的是所述模型中允許堆疊的卷積塊的最大數量,w和h分別指的是轉換后的二維灰度圖像的寬和高。
6.如權利要求5所述的方法,其特征在于,所述卷積層使用d個1x1的卷積核,假設卷積塊輸入了C個IxJ的特征圖,則卷積層對輸入特征圖的通道數進行上采樣。
7.如權利要求6所述的方法,其特征在于,所述殘差單元包含兩個卷積層,采用殘差學習的方法進行跳躍連接。
8.如權利要求7所述的方法,其特征在于,所述最大池化層對每個輸入特征圖進行空間上的下采樣,減小為原來的即
9.如權利要求8所述的方法,其特征在于,所述的步驟d具體包括:
利用預處理后的測試集對所述的深度卷積神經網絡進行評估,評估指標包括多個文件碎片類別的平均分類準確率,宏平均的F1分數和微平均的F1分數。
10.一種文件碎片分類系統,其特征在于,該系統包括碎片數據集構建模塊、預處理模塊、模型構建模塊、訓練評估模塊以及文件類型預測模塊,其中:
所述碎片數據集構建模塊用于利用文件數據集,構建文件碎片數據集,所述的文件碎片數據集包括:訓練集和測試集;
所述預處理模塊用于對構建的文件碎片數據集進行預處理;
所述模型構建模塊用于構建深度卷積神經網絡模型;
所述訓練評估模塊用于利用預處理后的訓練集和測試集,對上述構建的深度卷積神經網絡模型進行訓練和評估;
所述文件類型預測模塊用于利用所述深度卷積神經網絡模型預測文件碎片所屬的文件類型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911146348.0/1.html,轉載請聲明來源鉆瓜專利網。





