[發明專利]一種文件碎片分類方法及系統在審
| 申請號: | 201911146348.0 | 申請日: | 2019-11-21 |
| 公開(公告)號: | CN110928848A | 公開(公告)日: | 2020-03-27 |
| 發明(設計)人: | 尹凌;奚桂鍇 | 申請(專利權)人: | 中國科學院深圳先進技術研究院 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06N3/04;G06N3/08 |
| 代理公司: | 深圳市科進知識產權代理事務所(普通合伙) 44316 | 代理人: | 曹衛良 |
| 地址: | 518055 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文件 碎片 分類 方法 系統 | ||
本發明涉及一種文件碎片分類方法,包括:利用文件數據集,構建文件碎片數據集,所述的文件碎片數據集包括:訓練集和測試集;對構建的文件碎片數據集進行預處理;構建深度卷積神經網絡模型;利用預處理后的訓練集和測試集,對上述構建的深度卷積神經網絡模型進行訓練和評估;利用所述深度卷積神經網絡模型預測文件碎片所屬的文件類型。本發明還涉及一種文件碎片分類系統。本發明無需手動設計特征,無需其他先驗知識,能夠自動學習到輸入的文件碎片的特征,并且設計的深度卷積神經網絡能夠適用于不同大小的文件碎片的分類任務,具有更好的分類效果。
技術領域
本發明涉及一種文件碎片分類方法及系統。
背景技術
當犯罪嫌疑人刪除存儲在磁盤中的文件后,磁盤中往往還會有殘留的文件內容。如果司法取證人員想要通過磁盤中的文件碎片尋找證據,就需要對這些文件碎片進行重組進而拼接成文件。
如果直接對大量的文件碎片進行兩兩拼接,則需要耗費巨大的計算量。如果能夠提前知道各文件碎片所屬文件的文件類型(即,文件碎片的類型),則可以大大減少所需要嘗試的組合數量。
現有文件碎片分類方法中的一類是利用魔幻數字等來識別不同文件類型的文件。這些魔幻數字一般出現在文件頭和文件尾,并且不同文件類型的文件會在不同的位置出現不同數值的魔幻數字。由于磁盤中的文件往往以碎片化的形式存儲,同屬一個文件的多個文件碎片并不總是順序相連,故通常難以利用文件的文件頭信息和文件尾信息來識別不同文件類型的文件碎片。
另一類文件碎片分類方法是基于內容的文件碎片分類方法。基于內容的文件碎片分類方法是直接通過對文件碎片內容的分析進而預測該文件碎片的文件類型。該方法不需要依賴于文件簽名或者魔幻數字等。現有基于內容的文件碎片分類方法主要是從統計學角度出發,通過提取各文件碎片的統計學特征,如unigram和bigram的頻率分布,以及熵等,建立傳統的機器學習模型,如LDA、SVM和KNN等,進而識別出各文件碎片所對應的類型。在基于內容的文件碎片分類方法中,通過提取文件碎片的統計學特征進而建立傳統機器學習模型的方法嚴重依賴于特征的設計,是耗時的并且要求具備大量的專業知識。而且,這類方法目前并不能達到比較好的分類效果。
在基于內容的文件碎片分類方法中,現有基于深度學習的文件碎片分類方法還沒有成熟,相應的分類效果不好,低于基于傳統機器學習模型的文件碎片分類方法。現有基于深度學習的研究還需針對不同大小的文件碎片設計不同的神經網絡架構,因此這類現有方法的適用性也受到了一定的限制。
發明內容
有鑒于此,有必要提供一種文件碎片分類方法及系統。
本發明提供一種文件碎片分類方法,該方法包括如下步驟:a.利用文件數據集,構建文件碎片數據集,所述的文件碎片數據集包括:訓練集和測試集;b.對構建的文件碎片數據集進行預處理;c.構建深度卷積神經網絡模型;d.利用預處理后的訓練集和測試集,對上述構建的深度卷積神經網絡模型進行訓練和評估;e.利用所述深度卷積神經網絡模型預測文件碎片所屬的文件類型。
其中,所述的步驟a具體包括:
對公開文件數據集govdocs1包含的所有zip壓縮包文件進行解壓,將解壓后文件夾中的文件按照所屬的文件類型劃分到不同的類別;
將對應待研究的文件類型所選取的文件劃分成兩類,以生成分別用于訓練集和測試集的文件碎片;
對每個文件根據所選的文件碎片大小進行切片以生成大量文件碎片,并刪除每個文件的頭一個文件碎片,及每個文件最后一個小于指定文件碎片大小的文件碎片。
所述的步驟b具體包括:
對生成的訓練集和測試集中的每一個文件碎片都進行轉換,通過簡單的形狀變化將一維的文件碎片轉換為二維灰度圖像;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院深圳先進技術研究院,未經中國科學院深圳先進技術研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911146348.0/2.html,轉載請聲明來源鉆瓜專利網。





