[發明專利]一種面向多來源數據管理的半自動化數據采集更新方法有效
| 申請號: | 202110363545.9 | 申請日: | 2021-04-02 |
| 公開(公告)號: | CN113094382B | 公開(公告)日: | 2022-12-06 |
| 發明(設計)人: | 溫延龍;王藝茹;皮春瑩;鄭羽辰;乜鵬 | 申請(專利權)人: | 南開大學 |
| 主分類號: | G06F16/23 | 分類號: | G06F16/23;G06F16/25;G06F16/951 |
| 代理公司: | 合肥晨創知識產權代理事務所(普通合伙) 34162 | 代理人: | 宋仔娟 |
| 地址: | 300071*** | 國省代碼: | 天津;12 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 來源 數據管理 半自動 數據 采集 更新 方法 | ||
1.一種面向多來源數據管理的半自動化數據采集更新方法,其特征在于,該方法包括如下步驟,
步驟1、用戶建立數據類型庫,并為類型庫配置不同來源;
步驟2、用戶為數據類型庫中的來源設置數據抓取規則,并啟動源數據采集任務獲取網頁中的源數據;
步驟3、用戶啟動數據預處理任務,對步驟2中得到的源數據進行初步預處理,提取出來源網頁中的網頁信息;
所述步驟3中的數據預處理任務是指,對抓取的網頁源數據進行網頁結構的梳理,根據用戶提供的匹配規則提取出網頁中的所有標題項;
所述步驟3數據的預處理操作是將網頁中出現的所有網頁標題提取出來,形成一張對應關系表的一列,用戶需要在下一步中配置對應規則,即網頁標題到屬性名的轉換規則;
步驟4、用戶基于數據預處理得到的網頁信息,進行系統配置,并在配置完成后啟動數據處理任務,對數據進行處理或更新;
所述步驟4中的系統配置的步驟包括:
步驟4.1、用戶查看各來源數據預處理結果,確定該數據類型庫的最終屬性名;
步驟4.2、用戶根據步驟4.1中確定的屬性名,分別為每個來源配置網頁標題到屬性名的對應關系;即在該對應關系下,該來源網頁中的標題項及其內容將會展示在對應的屬性名下;
所述步驟4中啟動數據處理任務包括以下步驟:
步驟4.3、用戶啟動數據處理任務,得到根據標題-屬性配置轉化之后的最終數據,該數據在不同來源中的結構相同,都與步驟4.1中用戶確定的屬性名格式一致;
所述步驟4.3用戶在完成配置后可以啟動數據處理任務,該任務將會根據用戶配置的網頁標題到屬性名的對應規則進行相應的轉換,即建立一張以所有屬性名標題的表,數據源中的每一條數據對應標題下的一行數據,行與列的交叉即為數據處理任務轉換的結果;
步驟4.4、用戶對得到的最終數據進行匯總利用,在出現數據時效性降低、數據完整性被破壞情況時,可以利用系統提供的更新任務,重新進行數據采集和處理,保證數據的一致性和完整性;
所述步驟4對數據進行更新,包括兩種情況:一是系統后臺運行的監測任務監測到網頁數據較本地數據有更新時,啟動數據采集任務重新進行采集;二是,用戶發現本地存儲數據的時效性降低時,可以啟動數據采集任務重新進行更新采集。
2.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟1中的數據類型庫是指用戶需要收集的任意一種類型的數據,為其命名并在系統中創建。
3.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟1中用戶在配置不同來源時,主要包括以下步驟:
步驟1.1、新增一個來源時,首先查看系統來源庫中是否包含該來源;
步驟1.2、如果系統來源庫中包含該來源,則用戶只需將該來源添加到該數據類型庫中;
步驟1.3、如果系統來源庫中不包含該來源,則用戶需要添加新來源,錄入來源信息包括設置來源信息、來源地址、上傳數據抓取文件。
4.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟2中用戶為數據類型庫中的來源設置抓取規則時,若用戶采用的是系統來源庫中的來源,則不需要再提供抓取規則。
5.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟2中用戶為數據類型庫中的來源設置抓取規則,所述抓取規則自定義抓取規則。
6.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟3中的網頁信息為網頁標題。
7.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟4在完成數據預處理操作之后,用戶已經得到所有來源的網頁標題列表,用戶可以參閱該列表配置該數據類型庫的全局屬性名,也即用戶希望最后保存的數據屬性或數據格式。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110363545.9/1.html,轉載請聲明來源鉆瓜專利網。





