[發明專利]用于數據處理的方法和裝置在審
| 申請號: | 201610105872.3 | 申請日: | 2016-02-25 |
| 公開(公告)號: | CN107122371A | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 郭小燕;陳超;曹逾;周旻弘;薛丁萌 | 申請(專利權)人: | 伊姆西公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市金杜律師事務所11256 | 代理人: | 王茂華 |
| 地址: | 美國馬*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 數據處理 方法 裝置 | ||
技術領域
本公開的實施例總體涉及數據處理,更具體地,涉及一種用于數據處理的方法和裝置。
背景技術
當前,企業通常構建數據湖以持有其大量的數據,這些數據通常包括結構化數據和非結構化數據兩者。例如,結構化數據可以包括純文本文件、JavaScript對象符號(JSON)文件、逗號分隔值(CSV)文件、數據庫文件和目標文件等。非結構化數據通常可以包括富文本格式文件和多媒體文件,富文本格式(RTF)文件諸如Word文檔、可移植文檔格式(PDF)文檔和演示文檔等,多媒體文件諸如音頻文件和視頻文件等。針對這兩種類型的數據的數據處理和分析流程通常是不同的。當前,流行的大數據處理框架,諸如Hadoop、Spark、Hive、多物理分區(MPP)數據庫等,能夠直接且容易地分析諸如純文本數據的結構化數據。然而,對于非結構化數據而言,通常需要首先離線地從這些文件中提取并存儲其中包含的文本數據,然后基于所提取的文本數據來對其進行處理。
由于針對結構化數據和非結構化數據的不同處理流程,處理和分析大量的企業數據將存在若干挑戰。首先,難以進行結構化數據和非結構化數據之間的關聯分析,其需要先對非結構化數據進行復雜的抽取-轉換-加載(ETL)等操作后才可進行;其次,由于需要首先從非結構化數據中離線提取并存儲其中包含的文本數據,可能帶來數據不一致的問題并且將會耗費更多存儲空間。
因此,本領域中需要一種更為有效的方案以解決上述問題。
發明內容
本公開的實施例旨在提供一種用于數據處理的方法和裝置,以解決上述問題。
根據本公開的一個方面,提供了一種用于利用數據轉換層進行數據處理的方法,包括:從數據處理器接收數據加載請求;響應于接收到所述數據加載請求,從數據存儲器獲取所請求的原始數據;響應于所述原始數據是非結構化數據,利用與所述原始數據的文件類型相關聯的文本提取器從所述原始數據中提取相應的文本數據;以及向所述數據處理器發送所述文本數據。
在一些實施例中,所述數據轉換層位于所述數據處理器和所述數據存儲器之間,并且所述數據轉換層隱藏從所述非結構化數據到所述文本數據的轉換細節。
在一些實施例中,所述方法還包括:響應于所述原始數據是結構化數據,向所述數據處理器發送所述原始數據。
在一些實施例中,所述結構化數據包括純文本數據。
在一些實施例中,所述非結構化數據包括富文本格式數據和多媒體數據中的至少一種。
在一些實施例中,從數據處理器接收數據加載請求包括:經由數據訪問接口從所述數據處理器接收所述數據加載請求,其中所述數據訪問接口對于結構化數據和非結構化數據兩者是統一的。
在一些實施例中,其中所述數據存儲器為Hadoop分布式文件系統,并且其中從數據存儲器獲取所請求的原始數據包括:從所述Hadoop分布式文件系統的名字節點獲取所述原始數據的文件塊所處的位置;以及從與所述位置相對應的數據節點獲取所述文件塊。
在一些實施例中,所述原始數據的文件類型包括用戶自定義文件類型,并且其中利用與所述原始數據的文件類型相關聯的文本提取器從所述原始數據中提取相應的文本數據包括:利用與所述用戶自定義文件類型相關聯的、用戶自定義文本提取器,從所述原始數據中提取所述文本數據。
在一些實施例中,利用與所述原始數據的文件類型相關聯的文本 提取器從所述原始數據中提取相應的文本數據包括:利用所述文本提取器從所述原始數據中實時地提取所述文本數據。
根據本公開的另一方面,提供了一種用于數據處理的裝置,包括:請求接收模塊,被配置為從數據處理器接收數據加載請求;數據獲取模塊,被配置為響應于接收到所述數據加載請求,從數據存儲器獲取所請求的原始數據;文本提取模塊,被配置為響應于所述原始數據是非結構化數據,利用與所述原始數據的文件類型相關聯的文本提取器從所述原始數據中提取相應的文本數據;以及第一發送模塊,被配置為向所述數據處理器發送所述文本數據。
在一些實施例中,所述裝置位于所述數據處理器和所述數據存儲器之間,并且所述裝置隱藏從所述非結構化數據到所述文本數據的轉換細節。
在一些實施例中,所述裝置還包括第二發送模塊,被配置為響應于所述原始數據是結構化數據,向所述數據處理器發送所述原始數據。
在一些實施例中,所述結構化數據包括純文本數據。
在一些實施例中,所述非結構化數據包括富文本格式數據和多媒體數據中的至少一種。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伊姆西公司,未經伊姆西公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610105872.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分布式檢索方法及裝置
- 下一篇:一種內容管理系統





