[發(fā)明專利]一種大文件去重重定向方法在審
| 申請?zhí)枺?/td> | 202110316494.4 | 申請日: | 2021-03-25 |
| 公開(公告)號: | CN112905547A | 公開(公告)日: | 2021-06-04 |
| 發(fā)明(設(shè)計)人: | 張玉啟;金陵;吳貴明 | 申請(專利權(quán))人: | 深圳潮數(shù)軟件科技有限公司 |
| 主分類號: | G06F16/16 | 分類號: | G06F16/16;G06F16/17;G06F16/215 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 518109 廣東省深圳市龍*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 文件 重重 定向 方法 | ||
一種大文件去重重定向方法,其由大文件設(shè)置模塊、大文件判別模塊、大文件去重模塊、大文件重定向模塊組成。其既能夠節(jié)省重復(fù)大文件存儲空間,又能夠提升大文件讀寫速度。大文件設(shè)置模塊可以由用戶設(shè)置“大文件”的閾值、大文件格式,滿足相應(yīng)條件的則設(shè)置為“大文件”;大文件判別模塊通過文件名稱、文件長度、文件MD5值來判斷“重復(fù)大文件”。大文件去重模塊用于保留高速存儲介質(zhì)上1份大文件,并刪除掉其余的重復(fù)大文件。大文件重定向模塊在存儲系統(tǒng)訪問重復(fù)大文件時,用高速存儲介質(zhì)上保留大文件的路徑替換原重復(fù)大文件路徑,在高速存儲介質(zhì)上實現(xiàn)大文件的讀、寫。
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)、新一代信息技術(shù)領(lǐng)域,尤其是一種大文件去重重定向方法。
背景技術(shù)
我們身處一個大數(shù)據(jù)的時代,數(shù)據(jù)正變得越來越多、越來越快,也變得越來越大。
5G及下一代移動通信、人工智能、工業(yè)互聯(lián)網(wǎng)和航空航天裝備等行業(yè)有一個最重要的特性就是將會產(chǎn)生海量的大數(shù)據(jù)。5G最大的特色體現(xiàn)在三個方面:高速度,速度可以最高達(dá)到20Gbps;大容量,每平方公里連接數(shù)可以達(dá)到100萬;低延時,延時小于10毫秒。5G影響的不僅是通信行業(yè),包括好多民生行業(yè)和娛樂行業(yè)也會受影響,比如:自動駕駛、自動停車、車路協(xié)同、VR電影、5G遠(yuǎn)程醫(yī)療,因此產(chǎn)生的數(shù)據(jù)會越來越多、越來越大、越來越快。
人工智能行業(yè)的發(fā)展,腦機(jī)接口成為現(xiàn)實,將來可能知識也能夠直接灌入人的大腦中,也將產(chǎn)生更多維度的新數(shù)據(jù)。
工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)與產(chǎn)值將會比消費(fèi)互聯(lián)網(wǎng)大得多,至少是4倍以上,消費(fèi)互聯(lián)網(wǎng)已經(jīng)產(chǎn)生了這么多大數(shù)據(jù),工業(yè)互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)量就不難想象了。現(xiàn)代化工業(yè)制造生產(chǎn)線安裝有數(shù)以千計的小型傳感器,來探測溫度、壓力、熱能、振動和噪聲。每隔幾秒就收集一次數(shù)據(jù),并利用這些數(shù)據(jù)進(jìn)行分析、生產(chǎn)工藝改進(jìn)、仿真并優(yōu)化生產(chǎn)流程。以通用電氣(GE)為例,位于美國亞特蘭大的GE能源監(jiān)測和診斷(MD)中心,收集全球50多個國家上千臺GE燃?xì)廨啓C(jī)的數(shù)據(jù),每天就能為客戶收集10GB的數(shù)據(jù),分析這些大數(shù)據(jù)以對燃?xì)廨啓C(jī)進(jìn)行故障診斷和預(yù)警。風(fēng)力渦輪機(jī)制造商Vestas也通過對天氣數(shù)據(jù)及期渦輪儀表數(shù)據(jù)進(jìn)行交叉分析,并對風(fēng)力渦輪機(jī)布局進(jìn)行改善,由此增加了風(fēng)力渦輪機(jī)的電力輸出水平,同時大大延長了服務(wù)壽命。工業(yè)物聯(lián)網(wǎng)和5G時代,對于汽車行業(yè)的影響會很大,汽車將會有更多的傳感器,這也將產(chǎn)生更多的數(shù)據(jù)。
航空航天行業(yè)是高科技密集型行業(yè),《大數(shù)據(jù)的沖擊》里舉例提到波音噴氣式飛機(jī)每30分鐘就產(chǎn)生10TB運(yùn)行信息數(shù)據(jù),每次飛躍大西洋就會產(chǎn)生640TB的飛行信息數(shù)據(jù)量。這些數(shù)據(jù),不僅僅是未來某個時間點(diǎn)能夠分析的工程遙測數(shù)據(jù),而且還促進(jìn)了實時自適應(yīng)控制、燃油使用、零件故障預(yù)測和飛行員通報,能有效實現(xiàn)故障診斷和預(yù)測。
隨著硬件價格的下降,人們在生產(chǎn)和生活中產(chǎn)生的數(shù)據(jù)也越來越快了,比如好多人幾乎每天都要拍照、錄視頻,一個人去醫(yī)院檢查同一項檢查的頻次增加,數(shù)據(jù)的變化變得快了。
同時,伴隨著硬件的發(fā)展,越來越精確的設(shè)備被發(fā)明出來,數(shù)據(jù)也變得越來越大,比如:攝像頭像素越來越高,拍出的照片就會更大;醫(yī)療設(shè)備的制作工藝的提升,拍攝出的影像也會越來越大。
通過調(diào)查發(fā)現(xiàn),在存儲的海量信息中,結(jié)構(gòu)化數(shù)據(jù)僅占數(shù)據(jù)信息總量的9%,而非結(jié)構(gòu)化數(shù)據(jù)卻占數(shù)據(jù)信息總量的91%,非結(jié)構(gòu)化數(shù)據(jù)多數(shù)以文件的形式存儲。
大文件變得越來越多,而且重復(fù)文件也很多,它們被存儲在不同的介質(zhì)和路徑下。不僅占用、浪費(fèi)了很多的空間,而且保存在不同的介質(zhì)上,讀寫速度不盡相同,存儲在低速介質(zhì)上的大文件在讀寫時將明顯降低系統(tǒng)的速度。
現(xiàn)有情況下最接近技術(shù)的分析與對比。
目前,現(xiàn)有情況下最接近的技術(shù)方案為:公告號為 CN106487937A的《一種云存儲系統(tǒng)文件去重方法及系統(tǒng)》(下文簡稱“對比文件1”)和公告號為CN110175155A的《一種文件去重處理的方法和系統(tǒng)》(以下簡稱“對比文件2”)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于深圳潮數(shù)軟件科技有限公司,未經(jīng)深圳潮數(shù)軟件科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110316494.4/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





