[發(fā)明專利]一種數(shù)據(jù)分析方法和裝置在審
| 申請?zhí)枺?/td> | 202010716779.2 | 申請日: | 2020-07-23 |
| 公開(公告)號: | CN111782970A | 公開(公告)日: | 2020-10-16 |
| 發(fā)明(設(shè)計)人: | 李道遠(yuǎn);曾青軍;黃昌金;邱靖;賴秋杰;李伯興;夏雪 | 申請(專利權(quán))人: | 廣州匯智通信技術(shù)有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536 |
| 代理公司: | 北京集佳知識產(chǎn)權(quán)代理有限公司 11227 | 代理人: | 黃忠 |
| 地址: | 510639 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 分析 方法 裝置 | ||
1.一種數(shù)據(jù)分析方法,其特征在于,包括:
S1、基于第一接入方式接入原始數(shù)據(jù),根據(jù)預(yù)置抽取規(guī)則對所述原始數(shù)據(jù)進(jìn)行抽取,得到業(yè)務(wù)數(shù)據(jù),所述第一接入方式包括:KAFKA消費方式、文件數(shù)據(jù)流方式和接口方式;
S2、根據(jù)可配式規(guī)整方案對所述業(yè)務(wù)數(shù)據(jù)進(jìn)行規(guī)整處理,得到結(jié)構(gòu)格式統(tǒng)一的第一數(shù)據(jù),所述第一數(shù)據(jù)包括:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù);
S3、當(dāng)所述第一數(shù)據(jù)為所述非結(jié)構(gòu)化數(shù)據(jù)時,讀取所述非結(jié)構(gòu)化數(shù)據(jù),對讀取后的所述非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行過濾,得到內(nèi)容性文件數(shù)據(jù);
S4、根據(jù)預(yù)置的匹配規(guī)則對所述結(jié)構(gòu)化數(shù)據(jù)和所述內(nèi)容性文件數(shù)據(jù)進(jìn)行匹配,得到第一中標(biāo)數(shù)據(jù);
S5、根據(jù)所述第一中標(biāo)數(shù)據(jù)和所述原始數(shù)據(jù),基于預(yù)置的擴充條件對所述第一中標(biāo)數(shù)據(jù)進(jìn)行擴充,得到擴充數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,所述基于第一接入方式接入原始數(shù)據(jù),根據(jù)預(yù)置抽取規(guī)則對所述原始數(shù)據(jù)進(jìn)行抽取,得到業(yè)務(wù)數(shù)據(jù),具體包括:
通過KAFKA平臺接入所述原始數(shù)據(jù),根據(jù)預(yù)置抽取規(guī)則對所述KAFKA平臺的TOPIC數(shù)據(jù)進(jìn)行抽取,得到所述業(yè)務(wù)數(shù)據(jù);
或
通過FTP方式接入文件數(shù)據(jù),對所述文件數(shù)據(jù)的預(yù)置目錄進(jìn)行輪詢消費,得到第一文件數(shù)據(jù),根據(jù)預(yù)置抽取規(guī)則對所述第一文件數(shù)據(jù)進(jìn)行抽取,得到所述業(yè)務(wù)數(shù)據(jù);
或
基于接口,通過資源配置的方式接入所述原始數(shù)據(jù),根據(jù)預(yù)置抽取規(guī)則對所述原始數(shù)據(jù)進(jìn)行抽取,得到所述業(yè)務(wù)數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,所述根據(jù)可配式規(guī)整方案對所述業(yè)務(wù)數(shù)據(jù)進(jìn)行規(guī)整處理,得到結(jié)構(gòu)格式統(tǒng)一的第一數(shù)據(jù),具體包括:
基于Oracle數(shù)據(jù)庫配置所述業(yè)務(wù)數(shù)據(jù),得到適配數(shù)據(jù),通過Redis對所述適配數(shù)據(jù)進(jìn)行映射,得到映射數(shù)據(jù),對所述映射數(shù)據(jù)進(jìn)行規(guī)整,得到結(jié)構(gòu)格式統(tǒng)一的所述第一數(shù)據(jù)。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,所述當(dāng)所述第一數(shù)據(jù)為所述非結(jié)構(gòu)化數(shù)據(jù)時,讀取所述非結(jié)構(gòu)化數(shù)據(jù),對讀取后的所述非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行過濾,得到內(nèi)容性文件數(shù)據(jù),具體包括:
當(dāng)所述第一數(shù)據(jù)為所述非結(jié)構(gòu)化數(shù)據(jù)時,基于Hbase數(shù)據(jù)庫,對所述非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行實體存儲,得到多實體數(shù)據(jù);
根據(jù)批量抽取策略對所述多實體數(shù)據(jù)進(jìn)行讀取后,將所述多實體數(shù)據(jù)中的非內(nèi)容性文件過濾,得到所述內(nèi)容性文件數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,所述根據(jù)預(yù)置的匹配規(guī)則對所述結(jié)構(gòu)化數(shù)據(jù)和所述內(nèi)容性文件數(shù)據(jù)進(jìn)行匹配,得到第一中標(biāo)數(shù)據(jù),具體包括:
當(dāng)所述結(jié)構(gòu)化數(shù)據(jù)和所述內(nèi)容性文件數(shù)據(jù)為內(nèi)容字段時,根據(jù)AC自動機優(yōu)化匹配算法,基于關(guān)鍵字匹配規(guī)則對所述內(nèi)容字段進(jìn)行匹配,得到所述第一中標(biāo)數(shù)據(jù);
當(dāng)所述結(jié)構(gòu)化數(shù)據(jù)和所述內(nèi)容性文件數(shù)據(jù)為核心內(nèi)容字段時,基于目標(biāo)匹配規(guī)則對所述核心內(nèi)容字段進(jìn)行匹配,得到所述第一中標(biāo)數(shù)據(jù);
當(dāng)所述結(jié)構(gòu)化數(shù)據(jù)和所述內(nèi)容性文件數(shù)據(jù)為非所述內(nèi)容字段或非所述核心內(nèi)容字段時,定義匹配規(guī)則對所述結(jié)構(gòu)化數(shù)據(jù)和所述內(nèi)容性文件數(shù)據(jù)進(jìn)行匹配,得到所述第一中標(biāo)數(shù)據(jù)。
6.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,所述根據(jù)所述第一中標(biāo)數(shù)據(jù)和所述原始數(shù)據(jù),基于預(yù)置的擴充條件對所述中標(biāo)數(shù)據(jù)進(jìn)行擴充,得到擴充數(shù)據(jù),具體包括:
根據(jù)所述第一中標(biāo)數(shù)據(jù)對應(yīng)的實體與所述原始數(shù)據(jù)的關(guān)聯(lián)關(guān)系,基于預(yù)置的過濾條件對所述原始數(shù)據(jù)進(jìn)行過濾,將過濾后的所述原始數(shù)據(jù)作為所述擴充數(shù)據(jù);
或
基于預(yù)置的匹配規(guī)則,將所述第一中標(biāo)數(shù)據(jù)對應(yīng)的實體和與所述原始數(shù)據(jù)的實體依次進(jìn)行匹配,得到所述第一中標(biāo)數(shù)據(jù)對應(yīng)的實體與所述原始數(shù)據(jù)的實體的關(guān)系,將所述關(guān)系作為所述擴充數(shù)據(jù);
或
基于預(yù)置的搜索條件對所述原始數(shù)據(jù)的實體進(jìn)行搜索,將搜索后的所述原始數(shù)據(jù)的實體作為擴充數(shù)據(jù)。
7.根據(jù)權(quán)利要求1所述的數(shù)據(jù)分析方法,其特征在于,步驟S4之后還包括:
根據(jù)預(yù)置的正反方向優(yōu)化方案對所述第一中標(biāo)數(shù)據(jù)進(jìn)行匹配,得到第二中標(biāo)數(shù)據(jù)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于廣州匯智通信技術(shù)有限公司,未經(jīng)廣州匯智通信技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010716779.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





