[發明專利]一種基于機器學習的流程異常預測方法有效
| 申請號: | 201811511374.4 | 申請日: | 2018-12-11 |
| 公開(公告)號: | CN109753408B | 公開(公告)日: | 2022-03-25 |
| 發明(設計)人: | 王偉;曹健 | 申請(專利權)人: | 江陰逐日信息科技有限公司 |
| 主分類號: | G06F11/30 | 分類號: | G06F11/30 |
| 代理公司: | 上海申浩律師事務所 31280 | 代理人: | 龔敏 |
| 地址: | 214400 江蘇省無錫*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 機器 學習 流程 異常 預測 方法 | ||
本發明公開了一種基于機器學習的流程異常預測方法,通過挖掘流程執行的日志記錄,活動執行時間信息,實時預測業務流程中的超期異常和流程行為異常。本發明使用獨特的集成模式,建立對業務流程異常預測結果的分類方法,可以用于評估業務流程發生異常的可能性。本發明提出通過計算活動執行時間之間的比例關系作為流程輸入特征用于預測算法,提升預測準確性。
技術領域
本發明涉及流程異常預測技術領域,特別是涉及一種基于機器學習的流程異常預測方法。
背景技術
通常,在業務流程管理系統中,保存著大量流程執行的日志記錄,包含流程中活動開始、結束的時間戳等信息,并且其中很多流程是重復多次執行的。在大數據技術飛速發展的今天,這些信息還尚未被有效充分的利用起來。現有的流程異常檢測方法大多是主動的設置時間檢查點、動態檢查、或被動的基于異常發生后捕捉異常、處理異常的機制。主動設置時間檢查點的方法又造成了新的問題,如何巧妙的設立檢查點是一項困難而復雜的工作,而且隨著流程的改變,檢查點也很可能需要重新設定。被動的處理超期異常的方法,失去了對業務流程管理的主動性,導致工作流所期望的目標的延遲或付出更大的開銷。
發明內容
本發明針對現有技術存在的問題和不足,提供一種新型的基于機器學習的流程異常預測方法,通過引入監督學習的邏輯回歸算法和非監督學習的孤立森林算法,進行異常流程分類。
本發明是通過下述技術方案來解決上述技術問題的:
本發明提供一種基于機器學習的流程異常預測方法,其特點在于,其包括超期異常預測流程和行為異常預測流程;
其中超期異常預測流程以下步驟:
S11、從歷史流程日志中查找出與當前正在執行的待預測流程相同的所有歷史流程;提取與待預測流程已執行過的路徑一致的歷史流程數據作為算法的輸入數據集。
S12、計算查找出的歷史流程中每一歷史流程的流程執行總時間以及每一歷史流程中每一活動的執行時間;
S13、標記每一歷史流程是否是超期異常;
S14、基于每一歷史流程中每一活動的執行時間和每一歷史流程的是否超期異常的標記訓練基于監督學習的分類器;
S15、將待預測流程輸入至訓練好的分類器中以預測出該待預測流程是否屬于超期異常流程。
行為異常預測流程以下步驟:
S21、從歷史流程日志中查找出與當前正在執行的待預測流程相同的所有歷史流程;
S22、計算查找出的每一歷史流程中每一活動的執行時間;
S23、基于每一活動的執行時間訓練基于非監督學習的離群點檢測算法,使用離群點檢測算法找出歷史流程中活動時間比例與眾不同的流程判定為行為異常流程;
S24、將待預測流程輸入至訓練好的離群點檢測算法中以預測出該待預測流程是否屬于行為異常流程。
通過分別用兩種預測流程對流程是否異常進行預測并綜合兩種預測流程得出最終異常預測結果,稱之為集成業務流程異常預測。
較佳地,通過分別執行流程的超期異常預測和行為異常檢測,將業務流程預測異常分類為I類-超期異常流程、II類-行為異常流程、以及I類II類-高危異常流程。
較佳地,通過對每一活動開始與結束事件時間戳取差值,求得每一個活動的執行時間。
較佳地,在步驟S23中,將每一歷史流程中活動的執行時間序列相鄰項相除得到活動時間比例。
較佳地,使用監督學習中直接高效的邏輯回歸算法作為分類器的基本模型,綜合采樣的SMOTE+Tomek算法緩解樣本不均衡問題。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于江陰逐日信息科技有限公司,未經江陰逐日信息科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811511374.4/2.html,轉載請聲明來源鉆瓜專利網。





