[發明專利]一種基于科技媒體云計算非結構化數據處理方法在審
| 申請號: | 201310399024.4 | 申請日: | 2013-09-05 |
| 公開(公告)號: | CN104424309A | 公開(公告)日: | 2015-03-18 |
| 發明(設計)人: | 渠繼永 | 申請(專利權)人: | 清控科創控股股份有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市蘭臺律師事務所 11354 | 代理人: | 張峰 |
| 地址: | 100084 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 科技 媒體 計算 結構 數據處理 方法 | ||
技術領域
本發明涉及計算機數據處理技術領域,尤其涉及一種基于科技媒體云計算非結構化數據處理方法。
背景技術
云計算是基于互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。狹義云計算是指IT基礎設施的交付和使用模式,指通過網絡以按需、易擴展的方式獲得所需資源;廣義云計算指服務的交付和使用模式,指通過網絡以按需、易擴展的方式獲得所需服務,這種服務可以是IT和軟件、互聯網相關,也可以是其它服務,意味著計算能力也可作為一種商品通過互聯網進行流通。
非結構化數據管理為傳統信息領域的理論與方法研究提出了挑戰并成為重要的新的研究方向。由于非結構化數據數據類型豐富,結構復雜,沒有明確的、統一定義的數據結構約束,加之其海量的數據規模,高度動態的數據特性,多樣的應用場景,統一的聯合訪問需求,使得非結構化數據管理面臨巨大挑戰。由于非結構化數據種類彼此不同,每種數據類型帶有特有的數據操作,通過擴展對象數據模型,支持不同非結構化數據的有效操作;基于上述考慮,各大公司圍繞不同類型的非結構化數據類型,定義并實現特有操作,并結合應用領域,實現了非結構化數據管理系統。
基于對象模型的非結構化數據管理的主要問題包括:目前系統缺乏對象方法的優化執行機制,海量環境中數據處理的效率很難得到保證;系統側重處理特定對象的不同需求,在處理統一數據查詢中存在一定困難;某些系統基于關系數據庫實現,受限于關系數據庫的框架,需要嚴格考慮并發控制等問題,進一步降低非結構化數據處理的效率。數據集成相關技術側重于異構數據的共享和查詢,在非結構化數據管理系統中能夠減少空間代價,提高查詢結果質量。數據集成中的模式匹配、查詢重寫等使得系統構建代價和查詢處理代價過高。數據空間克服了數據集成中的部分問題,但是數據空間內部的模型過于復雜,不支持海量的數據管理。同時,數據集成系統中沒有討論關鍵字查詢方式和海量數據的分布式管理框架。
結合以上分析,需要重點指出的是,目前,現有的一些基于云計算的非結構化數據處理技術,其范圍仍然比較寬泛,對數據的精準度也深入不夠;同時,現有的基于云計算的非結構化數據處理只是涉及到實現的方法,沒有從軟硬件配置到實現方法的一整套解決方案。因此,針對以上方面,需要做出有效的創新。
發明內容
本發明的目的是提供一種結合云計算的非結構化數據處理技術并提供硬件配置、系統架構、數據處理、結果反饋等全流程的基于科技媒體云計算非結構化數據處理方法,以解決現有技術的諸多不足。
本發明的目的通過以下技術方案來具體實現:
一種基于科技媒體云計算非結構化數據處理方法,主要由以下步驟組成:
(1)、進行科技媒體信息數據的獲取,得到待處理的非結構化數據;
(2)、對非結構化數據,根據不同類型的特征進行分布式云存儲;
(3)、對步驟(2)中云存儲的非結構化數據,調用后進行離線處理,離線處理包括:清洗、排重、關聯、過濾、關鍵詞提取和智能歸類,然后將離線處理后的非結構化數據更新到云存儲中;
(4)、根據非結構化數據的特征,對收到信息檢索請求進行回應,檢索結果序列按照非結構化數據的特征進行展示。
步驟(1)中,科技媒體信息數據獲取的渠道包括人工錄入和互聯網抓取兩種方式。
步驟(3),對非結構化數據進行的調用及其后的離線處理,由大型分布式計算平臺完成。
對于步驟(4),檢索結果序列同時儲存在緩存中。
步驟(4),將緩存中的檢索結果序列直接更新到云存儲中或者經過離線處理后再進行云存儲。
本發明所述的基于科技媒體云計算非結構化數據處理方法的有益效果為:該方法是定位在科技媒體的垂直領域的基于云計算的非結構化數據解決方案,由于對行業的精準定位,對常用關鍵詞的深入分析,能夠提高信息的精準度,同時能排除部分的噪音詞,提高數據處理的效率;具體表現為:
其一,采用松散耦合非結構化源數據云存儲系統、非文本類非結構化數據的特征數據云存儲系統、和文本類非結構化數據的特征數據云系統等子存儲系統的體系結構;
其二,通過可多重部署的獨立查詢處理模塊對底層子存儲系統和多類型特征提取子模塊的調度,關聯非結構化數據的源數據和特征數據;
其三,以統一的模式實現面向源數據和特征數據的對多種非結構化數據的存儲、獲取、查詢等管理功能;
在形成的系統體系結構和管理的內容等方面都具有高可擴展性的優點。
附圖說明
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于清控科創控股股份有限公司,未經清控科創控股股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201310399024.4/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:對列狀表數據庫的數據庫操作
- 下一篇:用于提供地點信息的方法和設備





