[發(fā)明專利]一種從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)在審
| 申請?zhí)枺?/td> | 201710757699.X | 申請日: | 2017-08-29 |
| 公開(公告)號: | CN107622093A | 公開(公告)日: | 2018-01-23 |
| 發(fā)明(設(shè)計)人: | 耐爾;屈朝暉 | 申請(專利權(quán))人: | 蘇州優(yōu)圣美智能系統(tǒng)有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京遠(yuǎn)大卓悅知識產(chǎn)權(quán)代理事務(wù)所(普通合伙)11369 | 代理人: | 韓飛 |
| 地址: | 215000 江蘇省蘇州市*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 結(jié)構(gòu) 數(shù)據(jù) 提取 系統(tǒng) | ||
技術(shù)領(lǐng)域
本發(fā)明涉及大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)解析技術(shù),更具體地說,本發(fā)明涉及一種從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)。
背景技術(shù)
運維數(shù)據(jù)不僅數(shù)量驚人,種類繁多,而且產(chǎn)出位置也各不相同,處理起來十分復(fù)雜,而我們往往需要在幾秒鐘內(nèi)得到答案。我們需要有一種方法或方式能從海量數(shù)據(jù)中快遞定位,找到問題,找到根因。同時,這些數(shù)量龐大的數(shù)據(jù)還包含了許多對企事業(yè)單位、各組織機(jī)構(gòu)或個人都十分有價值的信息。我們需要有一種方法或方式把這些數(shù)據(jù)變成有意義、有價值的信息,從而產(chǎn)生影響。
運維數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)由機(jī)器或者人類產(chǎn)生,人類產(chǎn)生的半結(jié)構(gòu)化數(shù)據(jù)包括文本、聲音、圖片等形式的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)主要來自系統(tǒng)日志、應(yīng)用程序、服務(wù)器、中間件、網(wǎng)絡(luò)設(shè)備、安全設(shè)備和數(shù)據(jù)庫等。結(jié)構(gòu)化數(shù)據(jù)來自數(shù)據(jù)庫、監(jiān)控系統(tǒng)、日志網(wǎng)絡(luò)監(jiān)控系統(tǒng)、系統(tǒng)監(jiān)控等。數(shù)據(jù)通過代理器、SYSLOG、TCP、UDP、FTP、HTTP等方式從不同的位置采集。數(shù)據(jù)采集后被發(fā)至數(shù)據(jù)處理系統(tǒng)處理。在處理過程中就需要解析數(shù)據(jù),并從中提取有效字段信息。數(shù)據(jù)解析和字段提取需要實時或近實時或在匹配模式(Pattern)下完成。
能夠在生產(chǎn)環(huán)境中保存、存儲、加載、編輯、輸入、輸出和部署一個數(shù)據(jù)結(jié)構(gòu)的解析系統(tǒng)稱為解析器。開發(fā)一種從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)的人稱為開發(fā)人員。開發(fā)人員檢查樣本數(shù)據(jù)、理解樣本數(shù)據(jù)的類型和字段,再開發(fā)解析器(Parser),然后將解析器部署在實際生產(chǎn)環(huán)境中,數(shù)據(jù)會在實際生產(chǎn)環(huán)境中被數(shù)據(jù)分析體系解析和使用。具體地,開發(fā)人員的工作就是首先將原始數(shù)據(jù)中的數(shù)據(jù)記錄歸類,然后針對每一類的數(shù)據(jù)記錄,從中提取字段,并給字段命名,將這些字段具體化為數(shù)值、字符串、IP地址等。為了成功創(chuàng)造出可以掃描原始數(shù)據(jù),給原始數(shù)據(jù)歸類,從原始數(shù)據(jù)中提取、輸出字段的一種從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng),開發(fā)人員必須執(zhí)行上述兩步操作。傳統(tǒng)的一種從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)采用三種方法來開發(fā)和部署解析器。1.使用高級編程語言開發(fā)解析器。2.傳統(tǒng)方式需要編程人員編碼正則表達(dá)式(RegEx)。3.傳統(tǒng)開發(fā)方式是在如JSON或者XML的更加簡單的腳本中開發(fā)解析器定義。在開發(fā)出這些解析器后,傳統(tǒng)系統(tǒng)采用將解析器復(fù)制到文件的方式將其部署到生產(chǎn)系統(tǒng)中。
傳統(tǒng)解析方法的主要缺點有:
1.開發(fā)人員需要熟練掌握模式匹配語言或者高水平編程語言;當(dāng)要解析的數(shù)據(jù)量大,種類繁多時,使用這些語言很難維護(hù),調(diào)試起來也很困難;2.開發(fā)人員需要檢查原始數(shù)據(jù),理解原始數(shù)據(jù)的記錄類型和有意義的字段,根據(jù)個人對模式匹配語言或者高水平編程語言的掌握情況,開發(fā)出解析模式;3.開發(fā)人員不得不手動編寫解析器。沒有方便的圖形化開發(fā)環(huán)境。沒有可增編的交互性工具,開發(fā)人員需要在開發(fā)前將所有的設(shè)計熟練于心或者以文檔形式呈現(xiàn);4.開發(fā)人員在開發(fā)過程中沒有快速方法檢測解析器的正確性,而只能實際部署于生產(chǎn)中后才能發(fā)現(xiàn)解析器中的錯誤;5.因為缺少沖突處理工具,傳統(tǒng)的解析系統(tǒng)中,手寫的傳統(tǒng)解析器是沒有再次使用能力的;6.如果部署解析器時要做一些改變,就需要重新啟動整個數(shù)據(jù)處理系統(tǒng)。
發(fā)明內(nèi)容
針對上述技術(shù)中存在的不足之處,本發(fā)明提供一種從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng),解析操作基于圖形化界面,操作靈活,無需面對編程文件,利于開發(fā)、更新與維護(hù)。
為了實現(xiàn)根據(jù)本發(fā)明的這些目的和其它優(yōu)點,本發(fā)明通過以下技術(shù)方案實現(xiàn):
本發(fā)明提供一種從非結(jié)構(gòu)化數(shù)據(jù)提取結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng),其包括:
解析器數(shù)據(jù)庫,其用于存儲分類規(guī)則、解析規(guī)則以及緩存數(shù)據(jù)。
解析器服務(wù)器,其存儲有至少一個正則表達(dá)式編寫獲得的若干個模式;
解析器GUI,其通信連接到所述解析器服務(wù)器;
其中,所述解析器GUI基于樹節(jié)點方式,通過編輯所述分類規(guī)則和所述解析規(guī)則對樣本數(shù)據(jù)進(jìn)行分類和解析以建立解析器;
對至少一個所述模式進(jìn)行編輯獲得所述分類規(guī)則;
對至少一個所述模式進(jìn)行編輯獲得所述解析規(guī)則。
在GUI上將形成的解析器發(fā)送至生產(chǎn)環(huán)境,形成的解析器將解析結(jié)果輸出到數(shù)據(jù)分析的下一步驟。
優(yōu)選的是,所述解析器GUI包括:
主解析樹;
至少一個解析節(jié)點,其位于所述主解析樹樹根上以樹節(jié)點方式并列添加;所述解析節(jié)點設(shè)有對數(shù)據(jù)分類的分類單元以及對分類后數(shù)據(jù)解析的解析單元;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于蘇州優(yōu)圣美智能系統(tǒng)有限公司,未經(jīng)蘇州優(yōu)圣美智能系統(tǒng)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710757699.X/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 卡片結(jié)構(gòu)、插座結(jié)構(gòu)及其組合結(jié)構(gòu)
- 鋼結(jié)構(gòu)平臺結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 鋼結(jié)構(gòu)支撐結(jié)構(gòu)
- 單元結(jié)構(gòu)、結(jié)構(gòu)部件和夾層結(jié)構(gòu)
- 鋼結(jié)構(gòu)扶梯結(jié)構(gòu)
- 鋼結(jié)構(gòu)隔墻結(jié)構(gòu)
- 鋼結(jié)構(gòu)連接結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 螺紋結(jié)構(gòu)、螺孔結(jié)構(gòu)、機(jī)械結(jié)構(gòu)和光學(xué)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





