[發(fā)明專利]一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)在審
| 申請(qǐng)?zhí)枺?/td> | 202010111429.3 | 申請(qǐng)日: | 2020-02-24 |
| 公開(公告)號(hào): | CN111324688A | 公開(公告)日: | 2020-06-23 |
| 發(fā)明(設(shè)計(jì))人: | 干際陽(yáng);徐斌;李毅 | 申請(qǐng)(專利權(quán))人: | 南京萊斯網(wǎng)信技術(shù)研究院有限公司 |
| 主分類號(hào): | G06F16/31 | 分類號(hào): | G06F16/31;G06F16/81;G06F16/25 |
| 代理公司: | 江蘇圣典律師事務(wù)所 32237 | 代理人: | 于瀚文;胡建華 |
| 地址: | 210000 江蘇省南京*** | 國(guó)省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 事件 結(jié)構(gòu) 數(shù)據(jù) 采集 系統(tǒng) | ||
本發(fā)明提供了一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng),包括半結(jié)構(gòu)化數(shù)據(jù)采集端、非結(jié)構(gòu)化數(shù)據(jù)采集端、半結(jié)構(gòu)化數(shù)據(jù)匯集端、非結(jié)構(gòu)化數(shù)據(jù)匯集端、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端;該系統(tǒng)基于flume組件,兼容http、udp、tcp等多種傳輸協(xié)議,支持半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集。
技術(shù)領(lǐng)域
本發(fā)明屬于數(shù)據(jù)采集技術(shù)領(lǐng)域,特別涉及一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng)。
背景技術(shù)
現(xiàn)如今,互聯(lián)網(wǎng)的普及導(dǎo)致網(wǎng)絡(luò)上的各類信息數(shù)量激增,大數(shù)據(jù)時(shí)代到來(lái)。而網(wǎng)絡(luò)上的采集到的數(shù)據(jù)85%以上是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),如office文檔、公司報(bào)表、圖片、音頻、視頻等類型。非結(jié)構(gòu)化數(shù)據(jù)具有樣式多樣、數(shù)據(jù)量大等特點(diǎn),所以用戶想通過網(wǎng)絡(luò)有效找到所需信息變得十分困難。因此過濾掉無(wú)用的信息以便用戶查詢變得越來(lái)越重要,這需要利用轉(zhuǎn)換非結(jié)構(gòu)化數(shù)據(jù)的方法來(lái)對(duì)網(wǎng)上的信息進(jìn)行轉(zhuǎn)換。
非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的方法大致分為兩類:直接轉(zhuǎn)換法和間接轉(zhuǎn)換法,間接轉(zhuǎn)換法即為先把非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為半結(jié)構(gòu)化數(shù)據(jù),然后再轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)的方法。因?yàn)橹苯愚D(zhuǎn)換法對(duì)數(shù)據(jù)類型和長(zhǎng)度有限制,它既不能隨著數(shù)據(jù)的擴(kuò)展而擴(kuò)展,也不能對(duì)擴(kuò)展以后的數(shù)據(jù)進(jìn)行檢索,因此間接轉(zhuǎn)換法運(yùn)用的較為廣泛。
基于事件是指在持續(xù)事務(wù)管理過程中,進(jìn)行決策的一種策略,即跟隨當(dāng)前時(shí)間點(diǎn)上出現(xiàn)的事件,調(diào)動(dòng)可用資源,執(zhí)行相關(guān)任務(wù),使不斷出現(xiàn)的問題得以解決,防止事務(wù)堆積。在計(jì)算機(jī)編程、公共關(guān)系、經(jīng)濟(jì)活動(dòng)等領(lǐng)域均有應(yīng)用。基于事件的系統(tǒng)可以提高系統(tǒng)的靈活性,降低系統(tǒng)的耦合度,輔以并發(fā)技術(shù)的合理使用,可以提高性能。
目前,數(shù)據(jù)共享開放平臺(tái)廣泛應(yīng)用于各行業(yè)門戶網(wǎng)站數(shù)據(jù)管理,如電子政務(wù)系統(tǒng)、教務(wù)管理系統(tǒng)、銀行交易系統(tǒng)等領(lǐng)域。數(shù)據(jù)共享開放平臺(tái)需要將半結(jié)構(gòu)化和非結(jié)構(gòu)化的信息從各種網(wǎng)站來(lái)源頁(yè)面中抽取出來(lái)保存到結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中。而對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理往往需要大量人力標(biāo)注處理,非常耗費(fèi)人力和精力。為保證數(shù)據(jù)處理的有效性和及時(shí)性,有必要提出一種半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng),將網(wǎng)絡(luò)上的非結(jié)構(gòu)化數(shù)據(jù)抽取并存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化方式存儲(chǔ)。
發(fā)明內(nèi)容
發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于事件的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集系統(tǒng),該系統(tǒng)基于flume組件,兼容http、udp、tcp等多種傳輸協(xié)議,支持半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)采集;所述系統(tǒng)包括半結(jié)構(gòu)化數(shù)據(jù)采集端、非結(jié)構(gòu)化數(shù)據(jù)采集端、半結(jié)構(gòu)化數(shù)據(jù)匯集端、非結(jié)構(gòu)化數(shù)據(jù)匯集端、半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端和非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端;
所述半結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)半結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置;
所述非結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置;
所述半結(jié)構(gòu)化數(shù)據(jù)匯集端用于進(jìn)行半結(jié)構(gòu)化數(shù)據(jù)的flumeTi配置;
所述非結(jié)構(gòu)化數(shù)據(jù)匯集端用于進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的flumeTi配置;
所述半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端用于半結(jié)構(gòu)化數(shù)據(jù)hdfs存儲(chǔ)配置;
所述非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)端用于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。
所述半結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)半結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置,包括:配置采集任務(wù)的監(jiān)控文件目錄、采集格式、攔截器名稱、攔截器類型、收集端IP、備用收集端IP、收集端處理優(yōu)先級(jí)等。
所述半結(jié)構(gòu)化數(shù)據(jù)包括Txt文件、Xml文件和Excel文件,所述Excel文件需要通過自定義source先轉(zhuǎn)化為文本。
所述非結(jié)構(gòu)化數(shù)據(jù)采集端用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)采集任務(wù)進(jìn)行配置,包括:配置采集任務(wù)的監(jiān)控文件目錄、采集圖片的序列化格式、攔截器名稱、攔截器類型、采集端IP。
所述非結(jié)構(gòu)化數(shù)據(jù)包括圖片、音頻和視頻文件。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于南京萊斯網(wǎng)信技術(shù)研究院有限公司,未經(jīng)南京萊斯網(wǎng)信技術(shù)研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010111429.3/2.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種事件通訊裝置及方法
- 動(dòng)態(tài)權(quán)重事件處理系統(tǒng)和方法
- 攻擊檢測(cè)裝置和攻擊檢測(cè)方法
- 基于Unity的事件管理方法及系統(tǒng)
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 事件解析裝置、事件解析系統(tǒng)、事件解析方法及事件解析程序
- 熱點(diǎn)事件確定方法及裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)
- 一種樹狀模型中節(jié)點(diǎn)的連接方法及其模型、計(jì)算機(jī)裝置和可讀存儲(chǔ)介質(zhì)
- 一種事件處理方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺(tái)結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





