[發明專利]異常報文分類方法、裝置、計算機設備和存儲介質在審
| 申請號: | 202010171857.5 | 申請日: | 2020-03-12 |
| 公開(公告)號: | CN111460802A | 公開(公告)日: | 2020-07-28 |
| 發明(設計)人: | 吳宏平;賀勇軍 | 申請(專利權)人: | 微民保險代理有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/289;G06F16/35;G06Q40/08 |
| 代理公司: | 深圳智匯遠見知識產權代理有限公司 44481 | 代理人: | 李雪鵑 |
| 地址: | 518063 廣東省深圳市南山區*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 異常 報文 分類 方法 裝置 計算機 設備 存儲 介質 | ||
1.一種異常報文分類方法,其特征在于,所述方法包括:
獲取異常報文;
根據標簽庫,對所述異常報文設置標簽;
根據所述異常報文的標簽和分詞庫,對所述異常報文進行語句分詞;
根據語句分詞結果,獲取多個所述異常報文之間的相似性;
使相似的所述異常報文進入相同的分桶,不相似的所述報文進入不相同的分桶;
其中,所述標簽庫和分詞庫根據報文屬性更新,所述報文屬性包括:報文對應的平臺服務器、報文對應的協議、報文對應的接口、報文對應的地區。
2.如權利要求1所述的方法,其特征在于,所述獲取異常報文,包括:
從各個平臺服務器獲取報文,
根據所述報文的狀態碼,判斷所述報文的狀態,以獲取異常報文,所述報文的狀態包括正常或異常。
3.如權利要求1所述的方法,其特征在于,所述根據標簽庫,對異常報文設置標簽,包括:
獲取所述異常報文的關鍵字;
根據所述標簽庫和所述異常報文的關鍵字,設置所述異常報文的標簽。
4.如權利要求3所述的方法,其特征在于,每個所述標簽對應預設的分數值;
所述根據異常報文的標簽和分詞庫,對所述異常報文進行語句分詞,包括:
獲取所述異常報文的總分值,所述異常報文的總分值為所述異常報文包括的所有標簽的分數值的總和;
判斷所述異常報文的總分值是否大于等于分數閾值;
若所述異常報文的總分值大于等于所述分數閾值,則將所述異常報文放入第一分桶,
若所述異常報文的總分值小于所述分數閾值,則根據預設規則庫,對所述異常報文進行過濾清洗,獲取多個特征詞。
5.如權利要求4所述的方法,其特征在于,所述對異常報文進行過濾清洗,獲取多個特征詞,包括:
根據所述分詞庫,判斷所述異常報文是否包含特定特征詞;
若所述異常報文包含特定特征詞,則將所述特定特征詞取出后,進行一般規則清洗,獲取多個一般特征詞,
若所述報文不包含所述特定特征詞,則將所述報文進行一般規則清洗,獲取多個一般特征詞。
6.如權利要求5所述的方法,其特征在于,所述獲取多個異常報文之間的相似性,包括:
對所述特征詞進行降維處理,獲得特征詞的特征值;
對所述特征詞的特征值加權處理,累計分數后得到簽名值;
根據所述簽名值,計算多個所述異常報文之間的距離;
若兩個所述異常報文之間的距離大于等于距離閾值,則確認所述異常報文相似,
若兩個所述異常報文之間的距離小于所述距離閾值,則確認所述異常報文不相似;
其中,所述特征詞為一般特征詞,或為一般特征詞和特定特征詞。
7.如權利要求1所述的方法,其特征在于,在所述獲取多個異常報文的相似性之后,在所述使相似的異常報文進入相同的分桶之前,所述方法還包括:
將多個相似報文中的任一一條相似報文與多個歷史分桶中的歷史報文進行相似性判定;
若所述相似報文與所述歷史報文相似,則使所述多個相似報文進入對應的歷史分桶;
若所述相似報文與所有歷史報文不相似,則新建分桶,使所述多個相似報文進入所述新建分桶。
8.如權利要求1所述的方法,其特征在于,所述方法還包括:
根據所述報文屬性,調整所述標簽庫和/或分詞庫;和/或,
根據歷史分桶,調整所述標簽庫和/或分詞庫。
9.如權利要求6所述的方法,其特征在于,所述方法還包括:
根據所述報文屬性,調整所述分數閾值和/或距離閾值;和/或
根據歷史分桶,調整所述分數閾值和/或距離閾值。
10.如權利要求7所述的方法,其特征在于,所述第一分桶為歷史分桶中所述總分值大于等于所述分數閾值的異常報文進入的分桶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于微民保險代理有限公司,未經微民保險代理有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010171857.5/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:火情監控系統及火情監控方法
- 下一篇:碼率控制方法、裝置及可讀存儲介質





