[發(fā)明專利]一種日志數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011444358.5 | 申請(qǐng)日: | 2020-12-08 |
| 公開(kāi)(公告)號(hào): | CN112579707B | 公開(kāi)(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 李曉戈;邱連濤;胡飛雄;胡立坤;于智洋;張東 | 申請(qǐng)(專利權(quán))人: | 西安郵電大學(xué);騰訊科技(深圳)有限公司 |
| 主分類號(hào): | G06F16/28 | 分類號(hào): | G06F16/28;G06F16/26;G06F16/215;G06F40/186;G06N20/00 |
| 代理公司: | 北京易捷勝知識(shí)產(chǎn)權(quán)代理有限公司 11613 | 代理人: | 齊勝杰;李會(huì)娟 |
| 地址: | 710121 陜西省*** | 國(guó)省代碼: | 陜西;61 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 日志 數(shù)據(jù) 知識(shí) 圖譜 構(gòu)建 方法 | ||
1.一種日志數(shù)據(jù)的知識(shí)圖譜構(gòu)建方法,其特征在于,包括:
S1、獲取指定時(shí)間窗口內(nèi)的日志數(shù)據(jù);
S2、對(duì)所述日志數(shù)據(jù)進(jìn)行預(yù)處理,并依據(jù)模板樹(shù)建立策略建立模板樹(shù);
S3、基于建立的模板樹(shù),獲取日志模板;
S4、基于獲取的日志數(shù)據(jù)和日志模板,進(jìn)行實(shí)體抽取和關(guān)系抽取,獲得用于輸出的多個(gè)三元組數(shù)據(jù),所述三元組數(shù)據(jù)為實(shí)體-關(guān)系-實(shí)體形式的數(shù)據(jù);
具體地,S4-2-1:從待抽取關(guān)系的日志模板中,獲得抽取的實(shí)體對(duì)e1,e2;
S4-2-2:使用TF-IDF算法計(jì)算出特征詞的權(quán)重w,記為v={(word1,w1)(word2,w2)……},獲得的實(shí)體對(duì)將日志數(shù)據(jù)中的非結(jié)構(gòu)化部分切分為三部分:e1之前的文本特征向量,e1與e2之間的文本特征向量,e2之后的文本特征向量,記為Vi=(v1,v2,v3);
S4-2-3:使用余弦相似度計(jì)算兩組向量之間的相似度,作為密度聚集類的輸入,計(jì)算公式為:
其中,n指的是日志的word數(shù),k是從1到n依次;
Vj指的是不同于Vi的另一條日志特征向量;
Wik指的是第i條日志中第k個(gè)單詞的權(quán)重;
Vin指的是Vi切分后的每個(gè)特征向量(v1,v2,v3);
公式(1)為計(jì)算兩個(gè)向量之間的距離,公式(2)對(duì)3組余弦相似度的距離求和,計(jì)算兩個(gè)向量之間的相似度;
S4-2-4:將相似度作為聚類的輸入,對(duì)所有預(yù)處理后的日志進(jìn)行密度聚類,每個(gè)聚類簇中按特征詞的TF-IDF值降序排列,選擇關(guān)系詞;
S5、對(duì)多個(gè)三元組數(shù)據(jù)按照時(shí)間序列進(jìn)行融合,獲得日志數(shù)據(jù)的知識(shí)圖譜。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述S5包括:
將三元組數(shù)據(jù)存放在圖數(shù)據(jù)庫(kù)中,將與三元組數(shù)據(jù)對(duì)應(yīng)的時(shí)間序列的信息存儲(chǔ)在時(shí)序數(shù)據(jù)庫(kù)中,用以在可視化顯示時(shí)按照時(shí)間序列調(diào)用三元組數(shù)據(jù),以獲得日志數(shù)據(jù)的知識(shí)圖譜;
所述圖數(shù)據(jù)庫(kù)為Neo4j型標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù),所述時(shí)序數(shù)據(jù)庫(kù)為OpenTSDB型標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù);
或者,
將三元組數(shù)據(jù)中不同的實(shí)體類型及屬性使用Cypher語(yǔ)句導(dǎo)入圖數(shù)據(jù)庫(kù),使用OpenTSDB服務(wù)將實(shí)體關(guān)系及屬性存儲(chǔ)在時(shí)序數(shù)據(jù)庫(kù)中;
所述圖數(shù)據(jù)庫(kù)為Neo4j型標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù),所述時(shí)序數(shù)據(jù)庫(kù)為OpenTSDB型標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括:
S6、接收平臺(tái)輸入的請(qǐng)求信息,依據(jù)請(qǐng)求信息中的可視化服務(wù)信息,向用戶展示與可視化服務(wù)信息對(duì)應(yīng)的實(shí)體關(guān)系;
或者,使用D3.js中的力導(dǎo)向圖完成實(shí)體關(guān)系的可視化,或者,使用D3.js中的EventDrops進(jìn)行實(shí)體時(shí)序的可視化。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述S2包括:
S2-1、對(duì)每一條日志數(shù)據(jù),將日志數(shù)據(jù)中正文內(nèi)容對(duì)應(yīng)的非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的正文數(shù)據(jù);
S2-2、針對(duì)所有結(jié)構(gòu)化的正文數(shù)據(jù),采用分隔符進(jìn)行分詞處理;
S2-3、針對(duì)分詞處理的所有正文數(shù)據(jù),采用模板樹(shù)建立策略,建立模板樹(shù);
其中,模板樹(shù)建立策略包括:針對(duì)第一條正文數(shù)據(jù),查看分詞后每一詞匯的順序,按照模板樹(shù)的根部到枝葉的順序,進(jìn)行劃分父節(jié)點(diǎn)和子節(jié)點(diǎn),針對(duì)第n條正文數(shù)據(jù),查看分詞后每一詞匯與模板樹(shù)中相應(yīng)位置的詞匯是否相同,若不同,則成為上一相同詞匯的子節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述S3包括:
S3-1、針對(duì)所述模板樹(shù),判斷每一個(gè)父節(jié)點(diǎn)和子節(jié)點(diǎn)的數(shù)據(jù)格式,采用指定數(shù)據(jù)格式所屬的標(biāo)識(shí)符替換節(jié)點(diǎn)的數(shù)據(jù),并獲取新的模板樹(shù);
S3-2、針對(duì)新的模板樹(shù),采用剪枝策略對(duì)子節(jié)點(diǎn)進(jìn)行剪枝處理,獲取精簡(jiǎn)模板樹(shù);
S3-3、將精簡(jiǎn)模板樹(shù)中每一根節(jié)點(diǎn)到葉子節(jié)點(diǎn)作為一個(gè)日志模板,并遍歷所述精簡(jiǎn)模板樹(shù),獲取所有的日志模板,且每一日志模板具有唯一的標(biāo)識(shí)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安郵電大學(xué);騰訊科技(深圳)有限公司,未經(jīng)西安郵電大學(xué);騰訊科技(深圳)有限公司許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買(mǎi)此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011444358.5/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 一種基于精簡(jiǎn)策略的集群系統(tǒng)的日志管理優(yōu)化方法
- 日志分離方法及裝置
- 日志服務(wù)器處理日志的方法和裝置
- 一種基于負(fù)載均衡的文件系統(tǒng)日志模型
- 日志生成方法、應(yīng)用服務(wù)器、日志服務(wù)器及日志生成系統(tǒng)
- 一種多線程日志輸出的方法及裝置
- 一種日志分析方法、系統(tǒng)、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志解析方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 日志處理方法及設(shè)備
- 一種日志檢測(cè)方法、裝置、終端及服務(wù)器
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 基于本體的知識(shí)地圖繪制系統(tǒng)
- 基于知識(shí)地圖的領(lǐng)域知識(shí)瀏覽方法
- 一種基于知識(shí)本體的知識(shí)體系的建模方法
- 一種知識(shí)工程系統(tǒng)
- 知識(shí)自動(dòng)化系統(tǒng)和方法以及存儲(chǔ)器
- 基于SOLR的知識(shí)管理系統(tǒng)
- 基于知識(shí)節(jié)點(diǎn)所屬度的知識(shí)圖譜構(gòu)建方法和裝置
- 一種基于知識(shí)圖譜的稅務(wù)知識(shí)庫(kù)系統(tǒng)
- 一種智聯(lián)網(wǎng)中的網(wǎng)絡(luò)知識(shí)統(tǒng)一表征架構(gòu)及實(shí)現(xiàn)方法
- 知識(shí)點(diǎn)存儲(chǔ)方法、裝置、服務(wù)器及介質(zhì)
- 用于圖譜界面的數(shù)據(jù)處理方法及系統(tǒng)
- 用于內(nèi)容特征圖譜化的特征圖譜布局的服務(wù)器及介質(zhì)
- 圖譜的構(gòu)建方法及裝置、電子設(shè)備
- 信息圖譜構(gòu)建方法、裝置及設(shè)備
- 知識(shí)圖譜的完善方法及裝置、數(shù)據(jù)處理方法及裝置
- 一種知識(shí)圖譜的構(gòu)建方法、裝置、知識(shí)圖譜系統(tǒng)及設(shè)備
- 一種基于知識(shí)圖譜的故障判別推理方法
- 一種事件圖譜的匹配方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 一種用于創(chuàng)建知識(shí)圖譜的計(jì)算機(jī)設(shè)備
- 一種支持增量實(shí)體關(guān)聯(lián)的關(guān)系圖譜計(jì)算方法





