[發明專利]一種數據分析方法和裝置在審
| 申請號: | 202010716779.2 | 申請日: | 2020-07-23 |
| 公開(公告)號: | CN111782970A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 李道遠;曾青軍;黃昌金;邱靖;賴秋杰;李伯興;夏雪 | 申請(專利權)人: | 廣州匯智通信技術有限公司 |
| 主分類號: | G06F16/9536 | 分類號: | G06F16/9536 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 黃忠 |
| 地址: | 510639 廣東省廣州市天*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 分析 方法 裝置 | ||
本申請公開了一種數據分析方法和裝置,方法包括:S1、基于第一接入方式接入原始數據,根據預置抽取規則對原始數據進行抽取,得到業務數據;S2、根據可配式規整方案對業務數據進行規整處理,得到結構格式統一的第一數據;S3、當第一數據為非結構化數據時,讀取非結構化數據,對讀取后的非結構化數據進行過濾,得到內容性文件數據;S4、根據預置的匹配規則對結構化數據和內容性文件數據進行匹配,得到第一中標數據;S5、根據第一中標數據和原始數據,基于預置的擴充條件對第一中標數據進行擴充,得到擴充數據。解決了現有技術用于分析的數據來源單一并且數據分析的實體固定,導致不能根據用戶的業務需求靈活地對數據進行深度分析的技術問題。
技術領域
本申請涉及數據處理技術領域,尤其涉及一種數據分析方法和裝置。
背景技術
在線社交網絡話題是指在線社交網絡平臺上受到網民的關注程高、觀點傾向性明確、觀點認同度高且有影響力的話題,是網絡輿情產生的萌芽。隨著在線社交網絡的迅速發展,網絡輿情對人們的生活和工作方式產生了越來越大的影響,因此,對于網絡輿情的研究有著十分重要的意義。
現有技術在對網絡輿情的數據進行分析時,分析的數據來源單一并且分析的實體固定,導致不能根據用戶的業務需求靈活地對數據進行深度分析。
發明內容
本申請實施例提供了一種數據分析方法和裝置,用于解決現有技術用于分析的數據來源單一并且分析的實體固定,導致不能根據用戶的業務需求靈活地對數據進行深度分析的技術問題。
有鑒于此,本申請第一方面提供了一種數據分析方法,所述方法包括:
S1、基于第一接入方式接入原始數據,根據預置抽取規則對所述原始數據進行抽取,得到業務數據,所述第一接入方式包括:KAFKA消費方式、文件數據流方式和接口方式;
S2、根據可配式規整方案對所述業務數據進行規整處理,得到結構格式統一的第一數據,所述第一數據包括:結構化數據、非結構化數據;
S3、當所述第一數據為所述非結構化數據時,讀取所述非結構化數據,對讀取后的所述非結構化數據進行過濾,得到內容性文件數據;
S4、根據預置的匹配規則對所述結構化數據和所述內容性文件數據進行匹配,得到第一中標數據;
S5、根據所述第一中標數據和所述原始數據,基于預置的擴充條件對所述第一中標數據進行擴充,得到擴充數據。
可選地,所述基于第一接入方式接入原始數據,根據預置抽取規則對所述原始數據進行抽取,得到業務數據,具體包括:
通過KAFKA平臺接入所述原始數據,根據預置抽取規則對所述KAFKA平臺的TOPIC數據進行抽取,得到所述業務數據;
或
通過FTP方式接入文件數據,對所述文件數據的預置目錄進行輪詢消費,得到第一文件數據,根據預置抽取規則對所述第一文件數據進行抽取,得到所述業務數據;
或
基于接口,通過資源配置的方式接入所述原始數據,根據預置抽取規則對所述原始數據進行抽取,得到所述業務數據。
可選地,所述根據可配式規整方案對所述業務數據進行規整處理,得到結構格式統一的第一數據,具體包括:
基于Oracle數據庫配置所述業務數據,得到適配數據,通過Redis對所述適配數據進行映射,得到映射數據,對所述映射數據進行規整,得到結構格式統一的所述第一數據。
可選地,所述當所述第一數據為所述非結構化數據時,讀取所述非結構化數據,對讀取后的所述非結構化數據進行過濾,得到內容性文件數據,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣州匯智通信技術有限公司,未經廣州匯智通信技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010716779.2/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





