[發明專利]用于數據處理的方法和裝置在審
| 申請號: | 201610105872.3 | 申請日: | 2016-02-25 |
| 公開(公告)號: | CN107122371A | 公開(公告)日: | 2017-09-01 |
| 發明(設計)人: | 郭小燕;陳超;曹逾;周旻弘;薛丁萌 | 申請(專利權)人: | 伊姆西公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市金杜律師事務所11256 | 代理人: | 王茂華 |
| 地址: | 美國馬*** | 國省代碼: | 暫無信息 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 數據處理 方法 裝置 | ||
1.一種用于利用數據轉換層進行數據處理的方法,包括:
從數據處理器接收數據加載請求;
響應于接收到所述數據加載請求,從數據存儲器獲取所請求的原始數據;
響應于所述原始數據是非結構化數據,利用與所述原始數據的文件類型相關聯的文本提取器從所述原始數據中提取相應的文本數據;以及
向所述數據處理器發送所述文本數據。
2.根據權利要求1所述的方法,其中所述數據轉換層位于所述數據處理器和所述數據存儲器之間,并且所述數據轉換層隱藏從所述非結構化數據到所述文本數據的轉換細節。
3.根據權利要求1所述的方法,還包括:
響應于所述原始數據是結構化數據,向所述數據處理器發送所述原始數據。
4.根據權利要求3所述的方法,其中所述結構化數據包括純文本數據。
5.根據權利要求1所述的方法,其中所述非結構化數據包括富文本格式數據和多媒體數據中的至少一種。
6.根據權利要求1所述的方法,其中從數據處理器接收數據加載請求包括:
經由數據訪問接口從所述數據處理器接收所述數據加載請求,
其中所述數據訪問接口對于結構化數據和非結構化數據兩者是統一的。
7.根據權利要求1所述的方法,其中所述數據存儲器為Hadoop分布式文件系統,并且
其中從數據存儲器獲取所請求的原始數據包括:
從所述Hadoop分布式文件系統的名字節點獲取所述原始數 據的文件塊所處的位置;以及
從與所述位置相對應的數據節點獲取所述文件塊。
8.根據權利要求1所述的方法,其中所述原始數據的文件類型包括用戶自定義文件類型,并且
其中利用與所述原始數據的文件類型相關聯的文本提取器從所述原始數據中提取相應的文本數據包括:
利用與所述用戶自定義文件類型相關聯的、用戶自定義文本提取器,從所述原始數據中提取所述文本數據。
9.根據權利要求1所述的方法,其中利用與所述原始數據的文件類型相關聯的文本提取器從所述原始數據中提取相應的文本數據包括:
利用所述文本提取器從所述原始數據中實時地提取所述文本數據。
10.一種用于數據處理的裝置,包括:
請求接收模塊,被配置為從數據處理器接收數據加載請求;
數據獲取模塊,被配置為響應于接收到所述數據加載請求,從數據存儲器獲取所請求的原始數據;
文本提取模塊,被配置為響應于所述原始數據是非結構化數據,利用與所述原始數據的文件類型相關聯的文本提取器從所述原始數據中提取相應的文本數據;以及
第一發送模塊,被配置為向所述數據處理器發送所述文本數據。
11.根據權利要求10所述的方法,其中所述裝置位于所述數據處理器和所述數據存儲器之間,并且所述裝置隱藏從所述非結構化數據到所述文本數據的轉換細節。
12.根據權利要求10所述的裝置,還包括:
第二發送模塊,被配置為響應于所述原始數據是結構化數據,向所述數據處理器發送所述原始數據。
13.根據權利要求12所述的裝置,其中所述結構化數據包括純文本數據。
14.根據權利要求10所述的裝置,其中所述非結構化數據包括富文本格式數據和多媒體數據中的至少一種。
15.根據權利要求10所述的裝置,其中所述請求接收模塊還被配置為:
經由數據訪問接口從所述數據處理器接收所述數據加載請求,
其中所述數據訪問接口對于結構化數據和非結構化數據兩者是統一的。
16.根據權利要求10所述的裝置,其中所述數據存儲器為Hadoop分布式文件系統,并且
其中所述數據獲取模塊還被配置為:
從所述Hadoop分布式文件系統的名字節點獲取所述原始數據的文件塊所處的位置;以及
從與所述位置相對應的數據節點獲取所述文件塊。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于伊姆西公司,未經伊姆西公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610105872.3/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種分布式檢索方法及裝置
- 下一篇:一種內容管理系統





