日韩在线一区二区三区,日本午夜一区二区三区,国产伦精品一区二区三区四区视频,欧美日韩在线观看视频一区二区三区 ,一区二区视频在线,国产精品18久久久久久首页狼,日本天堂在线观看视频,综合av一区

[發(fā)明專利]一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)在審

專利信息
申請(qǐng)?zhí)枺?/td> 202010111429.3 申請(qǐng)日: 2020-02-24
公開(公告)號(hào): CN111324688A 公開(公告)日: 2020-06-23
發(fā)明(設(shè)計(jì))人: 干際陽(yáng);徐斌;李毅 申請(qǐng)(專利權(quán))人: 南京萊斯網(wǎng)信技術(shù)研究院有限公司
主分類號(hào): G06F16/31 分類號(hào): G06F16/31;G06F16/81;G06F16/25
代理公司: 江蘇圣典律師事務(wù)所 32237 代理人: 于瀚文;胡建華
地址: 210000 江蘇省南京*** 國(guó)省代碼: 江蘇;32
權(quán)利要求書: 查看更多 說明書: 查看更多
摘要:
搜索關(guān)鍵詞: 一種 基于 事件 結(jié)構(gòu) 數(shù)據(jù) 采集 系統(tǒng)
【說明書】:

發(fā)明提供了一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng),包括半結(jié)構(gòu)化數(shù)據(jù)采集端、非結(jié)構(gòu)化數(shù)據(jù)采集端、半結(jié)構(gòu)化數(shù)據(jù)匯集端、非結(jié)構(gòu)化數(shù)據(jù)匯集端、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端;該系統(tǒng)基于flume組件,兼容http、udp、tcp等多種傳輸協(xié)議,支持半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集。

技術(shù)領(lǐng)域

本發(fā)明屬于數(shù)據(jù)采集技術(shù)領(lǐng)域,特別涉及一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)。

背景技術(shù)

現(xiàn)如今,互聯(lián)網(wǎng)的普及導(dǎo)致網(wǎng)絡(luò)上的各類信息數(shù)量激增,大數(shù)據(jù)時(shí)代到來(lái)。而網(wǎng)絡(luò)上的采集到的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),如office文檔、公司報(bào)表、圖片、音頻、視頻等類型。非結(jié)構(gòu)化數(shù)據(jù)具有樣式多樣、數(shù)據(jù)量大等特點(diǎn),所以用戶想通過網(wǎng)絡(luò)有效找到所需信息變得十分困難。因此過濾掉無(wú)用的信息以便用戶查詢變得越來(lái)越重要,這需要利用轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)的方法來(lái)對(duì)網(wǎng)上的信息進(jìn)行轉(zhuǎn)換。

非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的方法大致分為兩類:直接轉(zhuǎn)換法和間接轉(zhuǎn)換法,間接轉(zhuǎn)換法即為先把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為半結(jié)構(gòu)化數(shù)據(jù),然后再轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的方法。因?yàn)橹苯愚D(zhuǎn)換法對(duì)數(shù)據(jù)類型和長(zhǎng)度有限制,它既不能隨著數(shù)據(jù)的擴(kuò)展而擴(kuò)展,也不能對(duì)擴(kuò)展以后的數(shù)據(jù)進(jìn)行檢索,因此間接轉(zhuǎn)換法運(yùn)用的較為廣泛。

基于事件是指在持續(xù)事務(wù)管理過程中,進(jìn)行決策的一種策略,即跟隨當(dāng)前時(shí)間點(diǎn)上出現(xiàn)的事件,調(diào)動(dòng)可用資源,執(zhí)行相關(guān)任務(wù),使不斷出現(xiàn)的問題得以解決,防止事務(wù)堆積。在計(jì)算機(jī)編程、公共關(guān)系、經(jīng)濟(jì)活動(dòng)等領(lǐng)域均有應(yīng)用。基于事件的系統(tǒng)可以提高系統(tǒng)的靈活性,降低系統(tǒng)的耦合度,輔以并發(fā)技術(shù)的合理使用,可以提高性能。

目前,數(shù)據(jù)共享開放平臺(tái)廣泛應(yīng)用于各行業(yè)門戶網(wǎng)站數(shù)據(jù)管理,如電子政務(wù)系統(tǒng)、教務(wù)管理系統(tǒng)、銀行交易系統(tǒng)等領(lǐng)域。數(shù)據(jù)共享開放平臺(tái)需要將半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息從各種網(wǎng)站來(lái)源頁(yè)面中抽取出來(lái)保存到結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中。而對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理往往需要大量人力標(biāo)注處理,非常耗費(fèi)人力和精力。為保證數(shù)據(jù)處理的有效性和及時(shí)性,有必要提出一種半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng),將網(wǎng)絡(luò)上的非結(jié)構(gòu)化數(shù)據(jù)抽取并存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化方式存儲(chǔ)。

發(fā)明內(nèi)容

發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng),該系統(tǒng)基于flume組件,兼容http、udp、tcp等多種傳輸協(xié)議,支持半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集;所述系統(tǒng)包括半結(jié)構(gòu)化數(shù)據(jù)采集端、非結(jié)構(gòu)化數(shù)據(jù)采集端、半結(jié)構(gòu)化數(shù)據(jù)匯集端、非結(jié)構(gòu)化數(shù)據(jù)匯集端、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端;

所述半結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)半結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置;

所述非結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置;

所述半結(jié)構(gòu)化數(shù)據(jù)匯集端用于進(jìn)行半結(jié)構(gòu)化數(shù)據(jù)的flumeTi配置;

所述非結(jié)構(gòu)化數(shù)據(jù)匯集端用于進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的flumeTi配置;

所述半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端用于半結(jié)構(gòu)化數(shù)據(jù)hdfs存儲(chǔ)配置;

所述非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端用于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。

所述半結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)半結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置,包括:配置采集任務(wù)的監(jiān)控文件目錄、采集格式、攔截器名稱、攔截器類型、收集端IP、備用收集端IP、收集端處理優(yōu)先級(jí)等。

所述半結(jié)構(gòu)化數(shù)據(jù)包括Txt文件、Xml文件和Excel文件,所述Excel文件需要通過自定義source先轉(zhuǎn)化為文本。

所述非結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置,包括:配置采集任務(wù)的監(jiān)控文件目錄、采集圖片的序列化格式、攔截器名稱、攔截器類型、采集端IP。

所述非結(jié)構(gòu)化數(shù)據(jù)包括圖片、音頻和視頻文件。

下載完整專利技術(shù)內(nèi)容需要扣除積分,VIP會(huì)員可以免費(fèi)下載。

該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京萊斯網(wǎng)信技術(shù)研究院有限公司,未經(jīng)南京萊斯網(wǎng)信技術(shù)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服

本文鏈接:http://www.szxzyx.cn/pat/books/202010111429.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。

×

專利文獻(xiàn)下載

說明:

1、專利原文基于中國(guó)國(guó)家知識(shí)產(chǎn)權(quán)局專利說明書;

2、支持發(fā)明專利 、實(shí)用新型專利、外觀設(shè)計(jì)專利(升級(jí)中);

3、專利數(shù)據(jù)每周兩次同步更新,支持Adobe PDF格式;

4、內(nèi)容包括專利技術(shù)的結(jié)構(gòu)示意圖流程工藝圖技術(shù)構(gòu)造圖

5、已全新升級(jí)為極速版,下載速度顯著提升!歡迎使用!

請(qǐng)您登陸后,進(jìn)行下載,點(diǎn)擊【登陸】 【注冊(cè)】

關(guān)于我們 尋求報(bào)道 投稿須知 廣告合作 版權(quán)聲明 網(wǎng)站地圖 友情鏈接 企業(yè)標(biāo)識(shí) 聯(lián)系我們

鉆瓜專利網(wǎng)在線咨詢

周一至周五 9:00-18:00

咨詢?cè)诰€客服咨詢?cè)诰€客服
tel code back_top
主站蜘蛛池模板: 国产在线精品区| 亚洲精品乱码久久久久久按摩| 色噜噜狠狠色综合久| 国产乱对白刺激视频在线观看| 日韩精品久久久久久久的张开腿让| 欧美精品一区二区久久久| 国产99久久久国产精品免费看| 国产精品视频久久| 亚洲一区精品视频| 国产精品国产三级国产专播精品人| 国产天堂第一区| 亚洲精品国产精品国自| 97人人模人人爽视频一区二区| 鲁丝一区二区三区免费观看| 久久99精品久久久大学生| 国产第一区在线观看| 国产高清精品一区| 北条麻妃久久99精品| 毛片免费看看| 日本边做饭边被躁bd在线看| 日日夜夜亚洲精品| 99国产精品久久久久老师| 国产亚洲综合一区二区| 国产盗摄91精品一区二区三区| 99久久国产综合精品尤物酒店| 国产精品偷拍| 国产精品二区一区| 久久免费精品国产| 久久精品国产久精国产| 亚洲一区二区福利视频| 免费a一毛片| 午夜影院伦理片| 欧美性受xxxx狂喷水| 久久精品一二三| 国产乱一乱二乱三| 93精品国产乱码久久久| 国产一区二区激情| 国产精品偷拍| 久久99精品一区二区三区| 国产精品国产三级国产专区53| 狠狠操很很干| 中文字幕1区2区3区| 国产第一区二区| 国产一区二区三级| 亚洲二区在线播放视频| 538国产精品| 午夜电影网一区| 欧美一区二区三区爽大粗免费| 欧美乱大交xxxxx胶衣| 国产极品一区二区三区| 国产一区二区视频播放| 中文字幕一区二区三区不卡| 国产欧美性| 97人人模人人爽人人喊小说 | 国产一区二区四区| 久久不卡精品| 国产一区二| 一级久久久| 日韩精品中文字幕一区二区三区| 国产黄色一区二区三区 | 自拍偷在线精品自拍偷无码专区| 亚洲欧洲国产伦综合| 天干天干天干夜夜爽av| 亚洲精品日本久久一区二区三区 | 国产精品麻豆一区二区三区| 色一情一乱一乱一区99av白浆| 69精品久久| 99久久婷婷国产亚洲终合精品| 亚洲国产美女精品久久久久∴| 久久精品国产一区二区三区| 91国产一区二区| 一级久久精品| 福利视频亚洲一区| 欧美性猛交xxxxxⅹxx88| 亚洲视频精品一区| 亚洲久久在线| 国产精品国产三级国产专区51区| 精品久久久影院| 国产99久久久久久免费看| 国产精品日韩三级| 91麻豆精品国产91久久久无限制版| 麻豆91在线|