[發明專利]一種集群的外部數據訪問方法在審
| 申請號: | 201710946005.7 | 申請日: | 2017-10-12 |
| 公開(公告)號: | CN107885460A | 公開(公告)日: | 2018-04-06 |
| 發明(設計)人: | 孫旭 | 申請(專利權)人: | 北京人大金倉信息技術股份有限公司 |
| 主分類號: | G06F3/06 | 分類號: | G06F3/06 |
| 代理公司: | 北京紐樂康知識產權代理事務所(普通合伙)11210 | 代理人: | 秦月貞 |
| 地址: | 100083 北京市朝陽區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 集群 外部 數據 訪問 方法 | ||
技術領域
本發明涉及數據處理技術,具體來說,涉及一種集群的外部數據訪問方法。
背景技術
集群為了對大量數據進行處理和存儲,為了訪問外部存儲的數據,需要將外部數據導入到集群中,或者不需要將數據導入集群,而直接進行運算。這就要求集群具有外部數據訪問的能力。
傳統方案是利用數據導入工具將外部的數據導入到數據庫中,在數據庫中再使用SQL進行運算。
這種方案是訪問外部數據的傳統方法,在集群里也可以使用。但有其現實的缺點:
1. 數據入庫后,占用存儲資源。外部數據入庫后,對于用戶對存儲敏感的情況下,就不會是一個好的選擇。如果數據量大,用戶的實際存儲會不夠用。并且,分析結束后,還需要對這部分數據進行刪除操作。無形中,就會影響了當前系統中運行的業務。
2. 易用性較差。在用戶分析過程中,需要先對數據進行導入,之后才能執行分析過程。無法在分析過程中直接使用外部數據,無需額外的步驟進行數據導入。
針對相關技術中的問題,目前尚未提出有效的解決方案。
發明內容
針對相關技術中的上述技術問題,本發明提出一種集群的外部數據訪問方法,能夠在使用集群過程中,方便的使用外部數據,無需額外將數據導入到集群。
為實現上述技術目的,本發明的技術方案是這樣實現的:
一種集群的外部數據訪問方法,包括以下步驟:
S1 在外部存放數據的機器上,啟動文件加載進程,并對外提供網絡接口服務;
S2 集群中在計算節點上啟動ForeignTableScan算子,并行的連接文件加載進程、并行地加載數據。
作為優選,S1進一步包括:
S11對外啟動特定的網絡端口服務;
S12集群的計算節點連接網絡服務;
S13 集群的計算節點發送讀取指令;
S14 文件加載進程發送一定數據量的數據給計算節點。
進一步的,S11中在加載機器啟動網絡端口,將加載機作為加載服務器。
進一步的,S12中集群的計算節點可以連接加載機服務,并請求數據。
進一步的,S13中集群的計算節點可以發送讀取數據指令,此時,文件加載進程可以發送數據給這個計算節點。
作為優選,S2進一步包括:
S21在ForeignTableScan,根據自身的節點ID,輪詢連接數據加載服務進程;
S22 發送讀取數據指令,計算節點每次處理完數據,主動請求數據;
S23讀取數據,并按照數據分隔符解析數據,將解析好的數據表示成內核元組形式,所述元組參與后續計算。
進一步的,S23中加載服務器回饋一定數據量的數據,計算節點根據一定的格式,將接受的數據解析成各個字段,并將其轉化成內部元組,由ForeignTableScan返回,進行下一步SQL運算。
本發明的有益效果:用戶可以無縫地在查詢中使用外部表,無需將外部數據導入到集群中,再進行計算,避免了頻繁的對用戶存儲的占用;而且數據讀取的方式是按照集群節點的方式分布的并行讀取,提升了效率。
附圖說明
為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
圖1是根據本發明實施例所述的一種集群的外部數據訪問方法的流程示意圖;
圖2是根據本發明實施例所述的一種集群的外部數據訪問方法中文件加載進程的執行流程示意圖;
圖3是根據本發明實施例所述的一種集群的外部數據訪問方法中ForeignTableScan算子的計算流程示意圖;
圖4是根據本發明實施例所述的一種集群的外部數據訪問方法的應用物理結構。
具體實施方式
下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員所獲得的所有其他實施例,都屬于本發明保護的范圍。
如圖1所示,根據本發明實施例所述的一種集群的外部數據訪問方法,包括以下步驟:
S1 在外部存放數據的機器上,啟動文件加載進程,并對外提供網絡接口服務;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京人大金倉信息技術股份有限公司,未經北京人大金倉信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710946005.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種多功能會計印章
- 下一篇:一種基于云平臺管控的物聯印章
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





