[發明專利]一種基于Memcached的大數據緩存交互式查詢方法在審
| 申請號: | 201710160266.6 | 申請日: | 2017-03-17 |
| 公開(公告)號: | CN107145500A | 公開(公告)日: | 2017-09-08 |
| 發明(設計)人: | 沈志宏;周園春;吳章生;黎建輝;朱小杰;杜園園;徐曉偉 | 申請(專利權)人: | 中國科學院計算機網絡信息中心 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京君尚知識產權代理事務所(普通合伙)11200 | 代理人: | 余長江 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 memcached 數據 緩存 交互式 查詢 方法 | ||
技術領域
本發明涉及大數據、數據庫技術領域,尤其涉及一種基于Memcached的大數據緩存交互式查詢方法。
背景技術
隨著網絡的發展和普及,應用生產和需要處理的數據量越來越大。數據的爆炸式增長,使得現在數據庫系統的工作負載日益增大,不斷增長的數據量要求越來越多的應用程序能夠擴展到更大的集群里去計算,因此大數據分布式計算是處理海量數據的必由之路。
在信息技術高速發展的今天,各種大數據處理和分析工具及框架應運而生,其中典型的處理框架如Hadoop、Spark、Storm等。以伯克利大學推出的Apache Spark為例,它是目前非常強大的分布式計算框架。Spark使用了內存內運算技術,能在數據尚未寫入硬盤時即在內存內分析運算,在某種程度上是對MapReduce模型的一種擴展。Spark解決了MapReduce不擅長的計算工作,比如迭代式、交互式和流式。雖然Spark在操作大數據集上很有優勢,但是它仍然需要數據的持久化存儲,HDFS是比較通用的選擇,其和Spark結合使用,然而它基于磁盤的特點,導致在實時應用程序中會影響性能。
參與大數據計算的數據來自流、內存以及磁盤,后者包括關系數據庫管理系統(RDBMS)、HBase數據庫、MongoDB數據庫以及HDFS文件系統。在大數據處理框架中,待處理的數據格式需要滿足諸如可分塊、不可修改等規范,因此,人們定義了類似于RDD(Resilient Distributed Datasets,彈性分布式數據集)以及HiveQL、Spark SQL等類SQL的接口,并且針對常用的數據源提供了相應的驅動程序。如:借助于Apache Spark的Spark SQL組件,可以將HBase、MongoDB、HDFS文件系統等存儲映射成數據庫表,并提供高效的SQL查詢能力。
HBase、MongoDB、HDFS文件系統將數據存儲在磁盤中,盡管它們采用了cache結構,但仍具有較大的讀寫延遲。在大數據應用場景中,為了實現更高效的數據訪問性能,很多高頻數據(如:熱門商品、實時統計變量等)往往需要借助于Memcached這一類緩存系統進行存儲。Memcached是以LiveJournal公司里的Brad Fitzpatric為首開發的一款軟件,是一套分布式的高速緩存系統,由于它基于內存緩存的特性,使得在應用中有比較高的性能與可擴展性。由于Memcached與HBase、關系型數據庫等系統采用了不同的存儲模型即Key-Value模型,因此需要針對Memcached開發支持大數據計算框架的SQL查詢驅動。
另一方面,現有的應用程序,只能通過API方式調用Memcached服務(這些API往往對應著Memcached協議的不同命令,https://github.com/memcached/memcached/wiki/Commands),這種API的使用方式缺乏與大數據處理框架的集成能力。以一個weblog(Web日志)統計系統為例,為了高效的統計網站的用戶數,網站的日志記錄會依次流經大數據消息系統Kafka、大數據存儲系統HBase、在線緩存系統Memcached,以及傳統的關系型數據庫MySQL等。然而由于Memcached采用API而非SQL語言,程序開發人員無法采用一種通用的、適用于大數據計算框架的方法來操作Memcached,這種緊耦合性會影響系統部署的靈活性。
已存在一些針對HBase、HDFS、Solr、MongoDB的大數據交互式查詢接口的方案,如:華為開源的astro(https://github.com/HuaweiBigData/astro)就是這樣一款針對HBase的SQL查詢驅動。類似的軟件還包括Solr-Sql(https://github.com/bluejoe2008/solr-sql)、elasticsearch-sql(https://github.com/NLPchina/elasticsearch-sql)等。然而,目前還不存在一種基于Memcached的大數據緩存交互式查詢的方法。
發明內容
本發明的目的在于提供一種基于Memcached的大數據緩存交互式查詢方法,該方法有效實現了針對大數據緩存進行交互式查詢的能力,同時改善了現有Hadoop/Spark生態中各大數據管理系統(HBase、Impala等)無法滿足實時緩存數據高效讀寫的現狀。
針對上述目的,本發明所采用的技術方案為:
一種基于Memcached的大數據緩存交互式查詢方法,其步驟包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算機網絡信息中心,未經中國科學院計算機網絡信息中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710160266.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





