[發明專利]一種保留特定業務信息的日志模板提取方法及裝置有效
| 申請號: | 202210702569.7 | 申請日: | 2022-06-21 |
| 公開(公告)號: | CN114818643B | 公開(公告)日: | 2022-10-04 |
| 發明(設計)人: | 湯汝鳴;曹立;殷康璘;劉大鵬 | 申請(專利權)人: | 北京必示科技有限公司 |
| 主分類號: | G06F40/186 | 分類號: | G06F40/186;G06F40/194;G06F40/216;G06F16/18 |
| 代理公司: | 北京中知法苑知識產權代理有限公司 11226 | 代理人: | 陳俊由 |
| 地址: | 100083 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 保留 特定 業務 信息 日志 模板 提取 方法 裝置 | ||
1.一種保留特定業務信息的日志模板提取方法,其特征在于,包括:
S1構造特定字段規則,針對業務日志,設立實體對象的字段匹配規則,得到特定字段匹配格式;
S2日志預處理,接收原始日志文本序列與所述特定字段匹配格式,針對所述原始日志文本中每一條日志文本,基于所述特定字段匹配格式匹配其實體對象的字段,并統一使用特定的占位符進行替換,得到結構化的日志序列;
S3 提取日志模板,接收所述結構化的日志序列,基于格式樹模板提取算法,對所述結構化的日志序列進行模板提取,得到日志模板序列,以及高相似度字段,所述日志模板序列包括每條日志對應的模板號與提取到的特定字段組合;
S4日志序列提取,接收所述日志模板序列,通過已匹配的實體對象字段,按照實體對象字段在原始日志文本中的原始取值,將屬于同一對象的日志序列提取出來,構造得到控制流圖;
所述S1包括,通過字符串的結構特征、語義特征和統計特征表示字段特征,通過隨機森林方式進行建模,模型輸入為原始的字段,輸出為判斷為是否為特殊實體對象字段的概率,所述結構特征包括字母長度,所述語義特征包括字符集基數、數字比例、元/輔音比例,所述統計特征包括香農墑、N-Gram向量;
S41按照所有字段的取值組合,對所述日志模板序列進行分類;
S42針對每一種取值組合,選取與原始日志文本取值一致的日志模板序列內容;
S43在當前分類的日志模板序列中,使用算法抽取業務事件序列;
S44對抽取結果進行人工核驗,或算法訓練驗證,若抽取結果滿足分類準確性要求,則保留所述業務事件序列;若不滿足,則按照字段優先級順序,排除最末尾字段的分類限制條件,轉步驟S42執行;
S45 基于所述業務事件序列的有向圖結構,得到所述控制流圖。
2.如權利要求1所述的方法,其特征在于,還包括:
S5 高相似度字段識別,對所述高相似度字段的文本特征執行特定字段識別與特定字段規則構造,得到新的特定字段匹配格式,并反饋至S2。
3.如權利要求1所述的方法,其特征在于,所述字段優先級順序是通過模板提取中的詞頻逆文檔頻率確定的。
4.一種保留特定業務信息的日志模板提取裝置,所述裝置包括:特定字段規則構造模塊,日志預處理模塊,日志模板提取模塊,以及日志序列提取模塊,其中:
特定字段規則構造模塊,用于針對業務日志,設立實體對象的字段匹配規則;
日志預處理模塊 ,接收原始日志文本序列與所述特定字段匹配格式,用于針對每一條日志,匹配其實體對象的字段,并統一使用特定的占位符替換, 得到結構化的日志序列;
日志模板提取模塊,接收所述結構化的日志序列,用于基于通用的格式樹模板提取算法,對原始日志進行模板提取, 得到日志模板序列,以及高相似度字段,所述日志模板序列包括每條日志對應的模板號與提取到的特定字段組合;
日志序列提取模塊,接收所述日志模板序列,用于通過已匹配的實體對象字段,將屬于同一對象的日志序列提取出來,構造得到控制流圖;
所述日志序列提取模塊執行如下操作:
按照模板提取與字段匹配結果,生成模板序列;
按照所有字段的取值組合,對所述日志模板序列進行分類;
針對每一種取值組合,選取與原始日志文本取值一致的日志模板序列內容;
在當前分類的日志模板序列中,使用算法抽取業務事件序列;
對抽取結果進行人工核驗,或算法訓練及驗證,若抽取結果滿足分類準確性要求,則保留所述業務事件序列;
若不滿足,則按照字段優先級順序,排除最末尾字段的分類限制條件,繼續選取符合條件的日志模板序列內容;
基于所述業務事件序列的有向圖結構,得到所述控制流圖;
所述特定字段規則構造模塊執行如下操作:
通過字符串的結構特征、語義特征和統計特征表示字段特征,通過隨機森林方式進行建模,模型輸入為原始的字段,輸出為判斷為是否為特殊實體對象字段的概率,所述結構特征包括字母長度,所述語義特征包括字符集基數、數字比例、元/輔音比例,所述統計特征包括香農墑、N-Gram向量。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京必示科技有限公司,未經北京必示科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210702569.7/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





