[發明專利]基于彈性分布式數據模型的多維度信息提取方法及裝置在審
| 申請號: | 202010034181.5 | 申請日: | 2020-01-14 |
| 公開(公告)號: | CN110851432A | 公開(公告)日: | 2020-02-28 |
| 發明(設計)人: | 馮世偉;吳正好;李鎖在;韓鵬;劉濤;朱慧彤;閆永燦;席邵賓;張超超;胡堅升;喬擁俊 | 申請(專利權)人: | 中軟信息系統工程有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/2458;G06F16/25;G06F16/28;G06F16/951 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 唐正瑜 |
| 地址: | 102209 北京市昌平區北七家*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 彈性 分布式 數據模型 多維 信息 提取 方法 裝置 | ||
本申請提供一種基于彈性分布式數據模型的多維度信息提取方法及裝置,方法包括:獲取第一預設格式的數據;利用彈性分布式數據模型對第一預設格式的數據進行數據處理;將數據處理后的數據依據維度進行數據標注;根據數據標注的結果生成數據維度表,以完成對第一預設格式的數據的信息提取。因此,可以根據網頁數據以及業務數據得到第一預設格式的數據,然后利用彈性分布式數據模型對上述數據進行數據處理最終實現對網頁數據以及業務數據的信息提取。其中,利用彈性分布式數據模型進行信息提取時,可以對海量的數據進行操作,從而增加信息提取的工作效率;同時,具有強大的復原能力,可以實現多維度的信息提取,從而充分展示數據之間的關聯性。
技術領域
本申請涉及數據處理領域,具體而言,涉及一種基于彈性分布式數據模型的多維度信息提取方法及裝置。
背景技術
現有技術中,主流的信息提取方式一般是基于純語言的技術或者基于瀏覽器/服務器(Browser/Server,B/S)架構等輕量級的數據倉庫技術(Extract-Transform-Load,ETL),這些技術具有容量小、速度慢、靈活性差、數據之間較為獨立、沒有關聯性的問題,不利于后續對提取到的信息進行進一步的處理。
發明內容
本申請實施例的目的在于提供一種基于彈性分布式數據模型的多維度信息提取方法及裝置,用以解決現有技術容量小,提取的數據較為獨立、沒有關聯性的技術問題。
為了實現上述目的,本申請實施例所提供的技術方案如下所示:
第一方面,本申請實施例提供一種基于彈性分布式數據模型的多維度信息提取方法,包括:獲取第一預設格式的數據;其中,所述第一預設格式的數據為根據數據源中的數據得到,所述數據源中的數據包括網頁數據以及業務數據;利用彈性分布式數據模型對所述第一預設格式的數據進行數據處理;將數據處理后的數據依據維度進行數據標注;根據數據標注的結果生成數據維度表,以完成對所述第一預設格式的數據的信息提取。因此,可以根據網頁數據以及業務數據得到第一預設格式的數據,然后利用彈性分布式數據模型對第一預設格式的數據進行數據處理最終實現對網頁數據以及業務數據的信息提取。其中,利用彈性分布式數據模型進行信息提取時,可以對海量的數據進行操作,從而增加信息提取的工作效率;同時,具有強大的復原能力,可以實現多維度的信息提取,從而充分展示數據之間的關聯性。
在本申請的可選實施例中,所述利用彈性分布式數據模型對所述第一預設格式的數據進行數據處理,包括:將所述第一預設格式的數據通過所述彈性分布式數據模型轉化為彈性分布式數據集;對所述彈性分布式數據集進行數據清洗;對數據清洗后的彈性分布式數據集進行數據分解;對分解后的彈性分布式數據集進行實體及屬性值去重;對去重后的彈性分布式數據集進行關系及屬性關聯;對關聯后的彈性分布式數據集進行多維度分析。因此,可以利用彈性分布式模型將第一預設格式的數據轉化為彈性分布式數據集,由于對大量數據進行分布式運算比常用方法計算同級別量級數據快百倍,所以可以增加信息提取的效率。此外,通過將保存好的數據轉化到彈性分布式數據模型中,對數據進行分解、去重關聯等分析處理后,可以得到關聯性較強的數據。
在本申請的可選實施例中,在所述獲取第一預設格式的數據之前,所述基于彈性分布式數據模型的多維度信息提取方法還包括:獲取所述數據源中的數據;對所述數據源中的數據進行數據格式分類;其中,所述數據源中的數據包括結構化數據、半結構化數據以及非結構化數據;從數據格式分類后的數據中提取所述第一預設格式的數據。因此,第一預設格式的數據可以是根據數據源中的數據得到的,通過對第一預設格式的數據進行提取,可以得到數據源中的數據提取結果,以應用于輿情分析、搜索、推薦系統等領域。
在本申請的可選實施例中,所述獲取數據源中的數據包括:通過爬蟲技術獲取所述網頁數據;以及,通過驅動獲取所述業務數據。因此,數據源中的數據可以包括網頁數據以及業務數據,由于其來源不同,所以獲取的方式也不相同,可以利用爬蟲技術爬取網頁以獲得網頁數據、利用相關驅動采集信息系統中的業務數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中軟信息系統工程有限公司,未經中軟信息系統工程有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010034181.5/2.html,轉載請聲明來源鉆瓜專利網。





