[發(fā)明專利]一種識(shí)別文件格式及對(duì)應(yīng)完整性的方法和設(shè)備在審
| 申請(qǐng)?zhí)枺?/td> | 201611206211.6 | 申請(qǐng)日: | 2016-12-23 |
| 公開(公告)號(hào): | CN106844476A | 公開(公告)日: | 2017-06-13 |
| 發(fā)明(設(shè)計(jì))人: | 石印;張彥雷;高政偉 | 申請(qǐng)(專利權(quán))人: | 上海上訊信息技術(shù)股份有限公司 |
| 主分類號(hào): | G06F17/30 | 分類號(hào): | G06F17/30 |
| 代理公司: | 上海百一領(lǐng)御專利代理事務(wù)所(普通合伙)31243 | 代理人: | 甘章乖 |
| 地址: | 201203 上海市浦東新區(qū)張*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 識(shí)別 文件格式 對(duì)應(yīng) 完整性 方法 設(shè)備 | ||
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)處理技術(shù),具體涉及一種識(shí)別文件格式及對(duì)應(yīng)完整性的方法和設(shè)備。
背景技術(shù)
文件格式是指電腦為了存儲(chǔ)信息而使用的對(duì)信息的特殊編碼方式,是用于識(shí)別內(nèi)部儲(chǔ)存的資料。對(duì)于硬盤機(jī)或任何電腦存儲(chǔ)來說,有效的信息只有0和1兩種。識(shí)別這些二進(jìn)制數(shù)到底表示的是怎樣的文件,是通過文件本身組織起來的方式即文件格式來進(jìn)行的。文件格式時(shí)組織文件的規(guī)范。每一種文件格式通常會(huì)有一種或多種擴(kuò)展名可以用來識(shí)別,但也可能沒有擴(kuò)展名。
現(xiàn)有操作系統(tǒng)對(duì)于文件格式的識(shí)別大多是根據(jù)文件名后綴識(shí)別文件類型,如windows系統(tǒng);而在linux以及unix系統(tǒng)有file命令可以根據(jù)文件magic識(shí)別文件類型。但對(duì)于文件完整性并有統(tǒng)一的工具能夠檢測(cè)多種文件格式的完整性,而且file對(duì)于文件類型檢測(cè)也有其局限性。
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明提供了一種識(shí)別文件格式及對(duì)應(yīng)完整性的方法。本發(fā)明提供的一種識(shí)別文件格式及對(duì)應(yīng)完整性的方法,根據(jù)實(shí)際需求,提供了一個(gè)不單純依賴文件擴(kuò)展名,而是根據(jù)實(shí)際文件二進(jìn)制內(nèi)容以及結(jié)構(gòu)特征來識(shí)別文件類型,并能快速判斷文件完整性,進(jìn)一步的使其他程序可以做文件后續(xù)處理。
本發(fā)明采用的技術(shù)方案如下:
一種識(shí)別文件格式的方法,包括如下步驟:
S11.建立文件屬性數(shù)據(jù)庫,所述文件屬性數(shù)據(jù)庫包括不同文件格式對(duì)應(yīng)的屬性以及與不同文件格式的屬性對(duì)應(yīng)的權(quán)重值;
S12.獲取待識(shí)別文件的文件屬性;
S13.將待識(shí)別文件的文件屬性與文件屬性數(shù)據(jù)庫中存儲(chǔ)的每種文件格式的文件屬性進(jìn)行比較,并根據(jù)相應(yīng)的權(quán)重值計(jì)算待識(shí)別文件與每種文件格式的匹配度;
S14.比較S13中得到的各個(gè)匹配度值,最高的匹配度值對(duì)應(yīng)的文件格式即為待識(shí)別文件的文件格式。
上述的識(shí)別文件格式的方法,其中,所述步驟S12包括如下內(nèi)容:
S121.判斷待識(shí)別文件是否有文件頭信息,如果有,至步驟S122,如果無,至步驟S123;
S121.獲取待識(shí)別文件的文件頭信息,通過該文件頭信息獲取待識(shí)別文件的文件屬性;
S123.直接獲取待識(shí)別文件的文件屬性。
上述的識(shí)別文件格式的方法,其中,還包括如下步驟:
S15.當(dāng)步驟S14得到的文件格式為包含子類型的格式時(shí),對(duì)待識(shí)別文件做二次檢測(cè)。
上述的識(shí)別文件格式的方法,其中,所述包含子類型的格式為基于其他格式進(jìn)行封裝的新格式。例如html即為xml的子類型。當(dāng)S14得出的文件格式為諸如zip、xml、txt等包含子類型的格式時(shí),對(duì)待識(shí)別文件做二次檢測(cè);包含子類型的格式為基于其他格式進(jìn)行封裝的新格式。
上述的識(shí)別文件格式的方法,其中,還包括步驟S16,當(dāng)步驟S14得出的文件格式為多媒體文件格式時(shí),對(duì)待識(shí)別文件進(jìn)行打開驗(yàn)證。
上述的識(shí)別文件格式的方法,其中,還包括步驟S16,當(dāng)步驟S15得出的文件格式為多媒體文件格式時(shí),對(duì)待識(shí)別文件進(jìn)行打開驗(yàn)證。
上述的識(shí)別文件格式的方法,其中,對(duì)所述多媒體文件格式使用FFMPEG進(jìn)行打開驗(yàn)證。打開驗(yàn)證的驗(yàn)證結(jié)果為:是否能夠正常打開,并獲取相應(yīng)的多媒體信息。
目的是再次進(jìn)行對(duì)多媒體格式進(jìn)行確認(rèn)。因?yàn)槟承┨厥獾奈谋疚募钠鹗嘉谋緝?nèi)容可能恰好與文件頭標(biāo)志相符造成識(shí)別文件類型檢測(cè)誤報(bào)。
上述的識(shí)別文件格式的方法,其中,所述步驟S13.包括如下步驟:
S131.將待識(shí)別文件的文件屬性與文件屬性數(shù)據(jù)庫中的第N種文件格式的文件屬性逐項(xiàng)比對(duì),如果內(nèi)容一致,取該屬性對(duì)應(yīng)的權(quán)重值,如果內(nèi)容不一致,則該權(quán)重值為0,最后計(jì)算待識(shí)別文件與第N種文件格式的匹配度,所述匹配度為各個(gè)屬性對(duì)應(yīng)的權(quán)重值之和;
S132.將待識(shí)別文件的文件屬性與文件屬性數(shù)據(jù)庫中的第N+1種文件格式的文件屬性逐項(xiàng)比對(duì),如果內(nèi)容一致,取該屬性對(duì)應(yīng)的權(quán)重值,如果內(nèi)容不一致,則該權(quán)重值為0,最后計(jì)算待識(shí)別文件與第N+1種文件格式的匹配度,所述匹配度為各個(gè)屬性對(duì)應(yīng)的權(quán)重值之和。
上述的識(shí)別文件格式的方法,其中,所述步驟S14.包括如下步驟:
S141.比較步驟S131與步驟S132中得到的不同文件格式對(duì)應(yīng)的匹配度,取較大值;
S142.當(dāng)步驟S141中所得的較大值大于或者等于各個(gè)屬性總權(quán)重值之和的50%時(shí),該匹配度對(duì)應(yīng)的文件格式即為待識(shí)別文件格式。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于上海上訊信息技術(shù)股份有限公司,未經(jīng)上海上訊信息技術(shù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611206211.6/2.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06F 電數(shù)字?jǐn)?shù)據(jù)處理
G06F17-00 特別適用于特定功能的數(shù)字計(jì)算設(shè)備或數(shù)據(jù)處理設(shè)備或數(shù)據(jù)處理方法
G06F17-10 .復(fù)雜數(shù)學(xué)運(yùn)算的
G06F17-20 .處理自然語言數(shù)據(jù)的
G06F17-30 .信息檢索;及其數(shù)據(jù)庫結(jié)構(gòu)
G06F17-40 .數(shù)據(jù)的獲取和記錄
G06F17-50 .計(jì)算機(jī)輔助設(shè)計(jì)
- 識(shí)別媒體、識(shí)別媒體的識(shí)別方法、識(shí)別對(duì)象物品以及識(shí)別裝置
- 一種探針卡識(shí)別裝置和方法
- 識(shí)別裝置、識(shí)別方法以及記錄介質(zhì)
- 識(shí)別裝置、識(shí)別系統(tǒng),識(shí)別方法以及存儲(chǔ)介質(zhì)
- 識(shí)別程序、識(shí)別方法以及識(shí)別裝置
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 車載身份識(shí)別方法及系統(tǒng)
- 識(shí)別裝置、識(shí)別方法以及識(shí)別程序
- 識(shí)別裝置、識(shí)別方法及識(shí)別程序





