[發明專利]一種數據處理方法和裝置在審
| 申請號: | 201610705863.8 | 申請日: | 2016-08-22 |
| 公開(公告)號: | CN107766392A | 公開(公告)日: | 2018-03-06 |
| 發明(設計)人: | 湯景柱 | 申請(專利權)人: | 南京中興軟件有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 工業和信息化部電子專利中心11010 | 代理人: | 吳永亮 |
| 地址: | 210000 江蘇省南*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據處理 方法 裝置 | ||
技術領域
本發明涉及移動通訊領域,特別是涉及一種數據處理方法和裝置。
背景技術
隨著互聯網技術的不斷發展,對于大數據處理的需要也越來越高,對于如何處理大數據,目前主要有兩個處理方向:第一個方向:集中式計算,就是通過不斷增加處理器的數量來增強單個計算機的計算能力,從而提高處理數據的速度;第二個方向:分布式計算,就是將一組計算機通過網絡相互連接組成分散系統,然后,將需要處理的大量數據分散成多個部分,再交由分散系統內的計算機組同時計算,最后,將這些計算結果合并以得到最終的處理結果。
盡管分散系統內的單個計算機的計算能力不強,但是,由于每個計算機只計算一部分數據,而且是多臺計算機同時計算,因此,就分散系統而言,處理數據的速度會遠高于單個計算機的處理速度。
近幾年來,隨著計算機和信息技術的迅猛發展和普及應用,行業應用系統的規模迅速擴大,行業應用所產生的數據呈爆炸性增長,數百TB(Terabyte,計算機存儲容量單位,大小為2的40次方字節)甚至數十至數百PB(petabyte,計算機存儲容量單位,大小為2的50次方字節)規模的行業/企業大數據已遠遠超出了現有傳統的計算技術和信息系統的處理能力,因此,尋求有效的大數據處理技術、方法和手段已經成為現實世界的迫切需求。
目前,對于一個較大的文件,一般會將原始輸入文件進行文件分割,具體地,會先確定每個分割塊的大小(例如128MB),然后通過“文件總大小/每個分割塊的大小”來計算分割的總數,如果不足一個分割的大小,可以當做1。文件的多份分割可以存放在不同服務器之上,這樣能夠保證一個小數據集是位于一臺計算機上的,便于本地計算。如果有N個分割數據待處理,就可以啟動N個計算任務。各個計算任務是獨立的,不會進行任務之間的信息交換。最后,再將多個并行計算任務的結果進行匯總處理。
然而,因為各個計算任務是相互獨立的,相互之間不進行信息交互,從而導致最終的匯總結果會丟失上下文或者某些數據之間的隱性關系,例如:會將一個完整的短語分割到不同劃分結果中,導致統計結果不準確,無法滿足上下文相關聯的計算場景。
針對上述問題,目前尚未提出有效的解決方案。
發明內容
本發明提供一種數據處理方法和裝置,用以解決現有技術因為丟失上下文信息而導致的數據處理結果不準確的技術問題。
為解決上述技術問題,一方面,本發明提供一種數據處理方法,該方法包括:
對待處理文件進行劃分,得到N份分割數據,其中,N為正整數;
按照預設的上下文關聯長度,對所述N份分割數據進行關聯劃分,生成N份分割關聯數據,其中,所述分割關聯數據與所述分割數據是一一對應的關系;
對所述N份分割數據和所述N份分割關聯數據進行合并處理,得到N份合并數據;
對所述N份合并數據中的每份合并數據分別進行處理,得到N份處理結果;
匯總所述N份處理結果,得到輸出數據。
進一步,對待處理文件進行劃分,得到N份分割數據,包括:
統計所述待處理文件的文件總大小;
根據所述文件總大小,按照每份分割數據的大小相等的原則,將所述待處理文件劃分為N份分割數據。
進一步,對所述N份合并數據中的每份合并數據分別進行處理,得到N份處理結果,包括:
將所述N份合并數據中的每份合并數據作為一個計算任務,得到N個計算任務;
對所述N個計算任務并行進行處理。
進一步,按照預設的上下文關聯長度,對所述N份分割數據進行關聯劃分,生成N份分割關聯數據,包括:
按照所述預設的上下文關聯長度,截取所述當前份分割數據的下一份分割數據中前所述預設的上下文關聯長度的數據,作為與所述當前份分割數據對應的分割關聯數據;
或者,按照所述預設的上下文關聯長度,截取所述當前份分割數據的上一份分割數據中后所述預設的上下文關聯長度的數據,作為與所述當前份分割數據對應的分割關聯數據。
進一步,在對待處理文件進行劃分,得到N份分割數據之后,所述方法還包括:對所述N份分割數據一一進行編號;
在按照預設的上下文關聯長度,對所述N份分割數據進行關聯劃分,生成N份分割關聯數據之后,所述方法還包括:對所述N份分割關聯數據一一進行編號,且每份分割關聯數據與對應的分割數據的編號是相同的;
相應的,對所述N份分割數據和所述N份分割關聯數據進行合并處理,得到N份合并數據,包括:讀取編號相同的分割數據和分割關聯數據進行合并,得到N份合并數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中興軟件有限責任公司,未經南京中興軟件有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610705863.8/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:數據庫與OPC聯接系統及其控制方法
- 下一篇:路由器





