[發明專利]文件分類方法、設備、存儲介質及裝置在審
| 申請號: | 202011275211.8 | 申請日: | 2020-11-13 |
| 公開(公告)號: | CN112445760A | 公開(公告)日: | 2021-03-05 |
| 發明(設計)人: | 徐傳宇;黨亮;王士聰 | 申請(專利權)人: | 北京鴻騰智能科技有限公司 |
| 主分類號: | G06F16/13 | 分類號: | G06F16/13;G06K9/62 |
| 代理公司: | 深圳市世紀恒程知識產權代理事務所 44287 | 代理人: | 薛福玲 |
| 地址: | 100020 北京市朝陽區酒*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文件 分類 方法 設備 存儲 介質 裝置 | ||
本發明公開了一種文件分類方法、設備、存儲介質及裝置,該方法包括:獲取待處理文件,以及待處理文件的文件信息,對待處理文件進行字符信息提取,獲得待處理文件的結構字符信息,根據結構字符信息以及文件信息確定文件索引值,并根據文件索引值對待處理文件進行分類;相較于現有的人工分析樣本文件的代碼特征,以對樣本文件進行分類的方式,本發明中,通過待處理文件的文件信息以及結構字符信息確定文件索引值,并根據文件索引值對待處理文件進行分類,克服了現有技術中文件歸類效率低、可靠性差的缺陷,從而能夠優化文件分類過程,提高文件分類效率,保證文件分類可靠性。
技術領域
本發明涉及互聯網技術領域,尤其涉及一種文件分類方法、設備、存儲介質及裝置。
背景技術
目前,用戶在進行樣本文件分析時,通常是將樣本文件下載到本地計算機,然后人工分析樣本文件的代碼特征,以對樣本文件進行分類。
但是,上述方式由于需要人工分析樣本文件,從而導致文件歸類效率低、可靠性差。
上述內容僅用于輔助理解本發明的技術方案,并不代表承認上述內容是現有技術。
發明內容
本發明的主要目的在于提供一種文件分類方法、設備、存儲介質及裝置,旨在解決如何優化文件分類過程的技術問題。
為實現上述目的,本發明提供一種文件分類方法,所述文件分類方法包括以下步驟:
獲取待處理文件,以及所述待處理文件的文件信息;
對所述待處理文件進行字符信息提取,獲得所述待處理文件的結構字符信息;
根據所述結構字符信息以及所述文件信息確定文件索引值,并根據所述文件索引值對所述待處理文件進行分類。
可選地,所述根據所述結構字符信息以及所述文件信息確定文件索引值,并根據所述文件索引值對所述待處理文件進行分類的步驟,具體包括:
獲取所述待處理文件的入口數據,并根據所述入口數據以及所述結構字符信息生成一級索引值;
根據所述文件信息生成所述待處理文件的二級索引值;
根據所述一級索引值以及所述二級索引值生成文件索引值,并根據所述文件索引值對所述待處理文件進行分類。
可選地,所述獲取所述待處理文件的入口數據,并根據所述入口數據以及所述結構字符信息生成一級索引值的步驟,具體包括:
根據所述結構字符信息確定簽名字符、標志字符以及文件屬性信息;
根據所述簽名字符、所述標志字符以及所述文件屬性信息確定所述待處理文件的屬性數據索引值;
獲取所述待處理文件的入口數據,并查找所述入口數據對應的入口數據索引值;
根據所述屬性數據索引值以及所述入口數據索引值生成一級索引值。
可選地,所述根據所述結構字符信息確定簽名字符、標志字符以及文件屬性信息的步驟,具體包括:
根據所述結構字符信息確定頭部字符位置信息、標志字符、文件屬性信息;
根據所述頭部字符位置信息確定簽名字符位置信息,并根據所述簽名字符位置信息確定簽名字符。
可選地,所述根據所述簽名字符、所述標志字符以及所述文件屬性信息確定所述待處理文件的屬性數據索引值的步驟,具體包括:
根據所述簽名字符判斷所述待處理文件是否為合法文件,獲得文件判斷結果;
根據所述標志字符確定標志字段,并根據所述標志字段確定待處理文件的文件位數信息;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京鴻騰智能科技有限公司,未經北京鴻騰智能科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011275211.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種高性能銀油墨的制備方法
- 下一篇:一種高安全性網絡安全設備





