日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發明專利]一種面向多來源數據管理的半自動化數據采集更新方法有效

專利信息
申請號: 202110363545.9 申請日: 2021-04-02
公開(公告)號: CN113094382B 公開(公告)日: 2022-12-06
發明(設計)人: 溫延龍;王藝茹;皮春瑩;鄭羽辰;乜鵬 申請(專利權)人: 南開大學
主分類號: G06F16/23 分類號: G06F16/23;G06F16/25;G06F16/951
代理公司: 合肥晨創知識產權代理事務所(普通合伙) 34162 代理人: 宋仔娟
地址: 300071*** 國省代碼: 天津;12
權利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關鍵詞: 一種 面向 來源 數據管理 半自動 數據 采集 更新 方法
【權利要求書】:

1.一種面向多來源數據管理的半自動化數據采集更新方法,其特征在于,該方法包括如下步驟,

步驟1、用戶建立數據類型庫,并為類型庫配置不同來源;

步驟2、用戶為數據類型庫中的來源設置數據抓取規則,并啟動源數據采集任務獲取網頁中的源數據;

步驟3、用戶啟動數據預處理任務,對步驟2中得到的源數據進行初步預處理,提取出來源網頁中的網頁信息;

所述步驟3中的數據預處理任務是指,對抓取的網頁源數據進行網頁結構的梳理,根據用戶提供的匹配規則提取出網頁中的所有標題項;

所述步驟3數據的預處理操作是將網頁中出現的所有網頁標題提取出來,形成一張對應關系表的一列,用戶需要在下一步中配置對應規則,即網頁標題到屬性名的轉換規則;

步驟4、用戶基于數據預處理得到的網頁信息,進行系統配置,并在配置完成后啟動數據處理任務,對數據進行處理或更新;

所述步驟4中的系統配置的步驟包括:

步驟4.1、用戶查看各來源數據預處理結果,確定該數據類型庫的最終屬性名;

步驟4.2、用戶根據步驟4.1中確定的屬性名,分別為每個來源配置網頁標題到屬性名的對應關系;即在該對應關系下,該來源網頁中的標題項及其內容將會展示在對應的屬性名下;

所述步驟4中啟動數據處理任務包括以下步驟:

步驟4.3、用戶啟動數據處理任務,得到根據標題-屬性配置轉化之后的最終數據,該數據在不同來源中的結構相同,都與步驟4.1中用戶確定的屬性名格式一致;

所述步驟4.3用戶在完成配置后可以啟動數據處理任務,該任務將會根據用戶配置的網頁標題到屬性名的對應規則進行相應的轉換,即建立一張以所有屬性名標題的表,數據源中的每一條數據對應標題下的一行數據,行與列的交叉即為數據處理任務轉換的結果;

步驟4.4、用戶對得到的最終數據進行匯總利用,在出現數據時效性降低、數據完整性被破壞情況時,可以利用系統提供的更新任務,重新進行數據采集和處理,保證數據的一致性和完整性;

所述步驟4對數據進行更新,包括兩種情況:一是系統后臺運行的監測任務監測到網頁數據較本地數據有更新時,啟動數據采集任務重新進行采集;二是,用戶發現本地存儲數據的時效性降低時,可以啟動數據采集任務重新進行更新采集。

2.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟1中的數據類型庫是指用戶需要收集的任意一種類型的數據,為其命名并在系統中創建。

3.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟1中用戶在配置不同來源時,主要包括以下步驟:

步驟1.1、新增一個來源時,首先查看系統來源庫中是否包含該來源;

步驟1.2、如果系統來源庫中包含該來源,則用戶只需將該來源添加到該數據類型庫中;

步驟1.3、如果系統來源庫中不包含該來源,則用戶需要添加新來源,錄入來源信息包括設置來源信息、來源地址、上傳數據抓取文件。

4.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟2中用戶為數據類型庫中的來源設置抓取規則時,若用戶采用的是系統來源庫中的來源,則不需要再提供抓取規則。

5.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟2中用戶為數據類型庫中的來源設置抓取規則,所述抓取規則自定義抓取規則。

6.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟3中的網頁信息為網頁標題。

7.如權利要求1所述的面向多來源數據管理的半自動化數據采集更新方法,其特征在于,所述步驟4在完成數據預處理操作之后,用戶已經得到所有來源的網頁標題列表,用戶可以參閱該列表配置該數據類型庫的全局屬性名,也即用戶希望最后保存的數據屬性或數據格式。

下載完整專利技術內容需要扣除積分,VIP會員可以免費下載。

該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南開大學,未經南開大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202110363545.9/1.html,轉載請聲明來源鉆瓜專利網。

×

專利文獻下載

說明:

1、專利原文基于中國國家知識產權局專利說明書;

2、支持發明專利 、實用新型專利、外觀設計專利(升級中);

3、專利數據每周兩次同步更新,支持Adobe PDF格式;

4、內容包括專利技術的結構示意圖流程工藝圖技術構造圖

5、已全新升級為極速版,下載速度顯著提升!歡迎使用!

請您登陸后,進行下載,點擊【登陸】 【注冊】

關于我們 尋求報道 投稿須知 廣告合作 版權聲明 網站地圖 友情鏈接 企業標識 聯系我們

鉆瓜專利網在線咨詢

周一至周五 9:00-18:00

咨詢在線客服咨詢在線客服
tel code back_top
主站蜘蛛池模板: 久久久久国产精品免费免费搜索| 日日夜夜一区二区| 国产亚洲另类久久久精品| 国产精品美女久久久另类人妖| 国产69精品久久久久久野外| 亚洲欧美一卡| 国产精品视频二区三区| 中文字幕在线一二三区| 久久夜色精品国产亚洲| 爽妇色啪网| 国产原创一区二区| 麻豆国产一区二区| 国产二区不卡| 日韩av在线高清| 久久久999精品视频| 91精品视频在线观看免费| 狠狠插狠狠爱| 99精品偷拍视频一区二区三区| 国产一区不卡视频| 欧美日韩中文国产一区发布| **毛片免费| 亚洲国产午夜片| 欧美高清极品videossex| 午夜天堂电影| 国产午夜精品一区二区三区最新电影 | 久久99国产精品久久99| 久久99精| ass韩国白嫩pics| 91夜夜夜| 国产精品二十区| 国产精品电影免费观看| 国产日韩一区二区三区| 黄色国产一区二区| 日本精品视频一区二区三区| 午夜影院激情| 亚洲精品一品区二品区三品区| 狠狠色噜噜狠狠狠四色米奇| 91国产在线看| 中文字幕精品一区二区三区在线| 精品国产一区二区三区免费| 欧美在线一级va免费观看| 午夜伦理在线观看| 久久精品国产一区二区三区不卡| 成年人性生活免费看| 久久久久久亚洲精品中文字幕| 热99re久久免费视精品频软件 | 99视频国产在线| 国产精品一二三区视频网站| 国产亚洲另类久久久精品| 91久久免费| 国产无套精品久久久久久| 亚洲精品欧美精品日韩精品| 久久激情图片| 国产伦精品一区二区三区照片91| 色噜噜狠狠一区二区| 久久国产精久久精产国| 精品国产鲁一鲁一区二区三区| 国产精品美女www爽爽爽视频| 亚洲欧洲日韩av| 欧美一区视频观看| 99久久婷婷国产精品综合| 国产二区精品视频| 精品国产一二区| 99精品欧美一区二区| 亚洲国产精品激情综合图片| 91精品国产综合久久福利软件| 狠狠色综合久久丁香婷婷| 精品久久久影院| 久久久国产精品一区| 国产91丝袜在线播放动漫| 午夜精品影视| 日韩三区三区一区区欧69国产| 国产精品免费一视频区二区三区| 亚洲三区二区一区| 日韩av在线电影网| 精品国产18久久久久久依依影院| 午夜电影一区| 国产午夜精品免费一区二区三区视频| 欧美一区二区三区日本| 99国产精品欧美久久久久的广告| 91av一区二区三区| 久久九九国产精品|