[發明專利]基于機器學習的規則信息提取方法、系統及智能終端在審
| 申請號: | 202310073783.5 | 申請日: | 2023-02-07 |
| 公開(公告)號: | CN116010557A | 公開(公告)日: | 2023-04-25 |
| 發明(設計)人: | 孫笑笑;楊思青;趙辰瑩;俞東進 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06N5/025;G06F40/289;G06F40/30;G06F40/211;G06N3/048 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 機器 學習 規則 信息 提取 方法 系統 智能 終端 | ||
本發明公開了一種基于機器學習的規則信息提取方法、系統及智能終端。該方法采用基于領域預訓練BERT模型和基于規則的自然語言處理相結合的方法,能夠從監管法規文件中提取多層業務流程相關語義信息,并基于該語義信息構建規則庫。本發明所構建的規則庫可用于企業的業務流程合規性檢查,從而幫助企業檢測出業務流程違規,防止流程后續執行的潛在違規行為,從而節省企業的精力、時間和財政資源。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于機器學習的規則信息提取方法、系統及智能終端。
背景技術
業務流程管理(BPM)提供了一個框架來支持從建模、配置和制定到評估的業務流程生命周期。而業務流程遵從性(BPC)是業務流程管理的一個重要部分,它衡量組織的業務流程是否遵守所有相關法律、法規、指導方針和標準。而監管文檔是指業務流程應當遵守的相關法律、法規、指導方針和標準,此類文檔的例子有《健康保險可攜性與責任法案》(HIPAA)、《薩班斯-奧克斯利法案》(SOX)和《通用數據保護條例》(GDPR)。公司的業務流程如果違反了這些法規,該公司可能會失去投資者的信任,甚至遭到罰款,并面臨刑事指控。因此,遵守來自不同來源的規則對每個組織來說都是必不可少的,以避免巨額罰款損失和提高業務流程透明度。然而,在公司的實踐中,檢查和確保組織的業務流程與監管文檔的一致性在很大程度上仍然是手動完成的。此外,由于監管文件的不斷變化,手工審查的成本可能會大大增加。
業務流程遵從性檢查可以發生在流程生命周期的不同階段。在設計期間,檢查流程模型是否符合一組約束。在運行時,持續監視正在執行的流程實例,以檢測甚至預測違規。最后,在審核階段,當流程實例的執行完成時,將根據系統生成的日志文件檢查流程遵從性。設計期間的合規性檢查是一種需要優先考慮的選項,因為在早期階段檢測任何不合規性對于節省企業的努力、時間和財務資源是至關重要的。在現有技術中,提出了幾種基于流程模型的業務流程遵從方法。然而,這些方法用于檢查的約束并不是來自監管文檔,而是一組預先假定的約束規則,這些規則使用線性時間邏輯(LTL)、事件演算(EC)或復雜事件處理(CEP)等形式化邏輯表達。因此,這些方法不能直接使用法規文檔進行遵從性檢查。
但是監管文檔是一種自然語言形式的非結構化文本,要實現業務流程遵從性檢查,需要從中提取出結構化的業務流程需要遵從的相關規則。盡管有些方法也旨在從文檔中提取過程描述或遵從性約束,但形式化法律規范需要大量的人工工作和復雜的建模語言來獲取法規文檔的語義。因此,如何從形式多樣的監管文檔中提取結構化的業務流程規則,為自動的業務流程遵從性檢查提供前提條件,是目前亟待解決的技術問題。
發明內容
為克服上述現有技術的不足,本發明提供一種基于機器學習的規則信息提取方法、系統及智能終端,可有效解決上述問題。
本發明具體采用的技術方案如下:
第一方面,本發明提供了一種基于機器學習的規則信息提取方法,包括以下步驟:
S1:輸入包含目標監管文檔的監管文檔庫對中每個監管文檔E的文本內容c進行預處理,去除文本中的噪聲并將每個監管文檔拆分成獨立的規則語句sent;
S2:將BERT模型在法律領域通用語料上進行微調,然后再將微調后的BERT模型與分類器連接,構成規則語句分類模型;對規則語句分類模型進行訓練,使其能夠識別每條規則語句sent的語句類型,得到每條規則語句sent的分類結果tr;所述語句類型的分類結果標簽包含強制型、禁止型、允許型和定義型;
S3:通過成分句法分析和依存句法分析,對識別完語句類型的規則語句sent進行語義成分提取,從中提取出操作Ar、執行者Pr、條件Cr、約束Or和例外Er一共五種語義成分;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310073783.5/2.html,轉載請聲明來源鉆瓜專利網。





