[發(fā)明專利]基于機(jī)器學(xué)習(xí)的規(guī)則信息提取方法、系統(tǒng)及智能終端在審
| 申請(qǐng)?zhí)枺?/td> | 202310073783.5 | 申請(qǐng)日: | 2023-02-07 |
| 公開(公告)號(hào): | CN116010557A | 公開(公告)日: | 2023-04-25 |
| 發(fā)明(設(shè)計(jì))人: | 孫笑笑;楊思青;趙辰瑩;俞東進(jìn) | 申請(qǐng)(專利權(quán))人: | 杭州電子科技大學(xué) |
| 主分類號(hào): | G06F16/33 | 分類號(hào): | G06F16/33;G06F16/35;G06N5/025;G06F40/289;G06F40/30;G06F40/211;G06N3/048 |
| 代理公司: | 杭州君度專利代理事務(wù)所(特殊普通合伙) 33240 | 代理人: | 楊舟濤 |
| 地址: | 310018 浙*** | 國(guó)省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 機(jī)器 學(xué)習(xí) 規(guī)則 信息 提取 方法 系統(tǒng) 智能 終端 | ||
1.一種基于機(jī)器學(xué)習(xí)的規(guī)則信息提取方法,其特征在于包括以下步驟:
S1:輸入包含目標(biāo)監(jiān)管文檔的監(jiān)管文檔庫(kù)對(duì)中每個(gè)監(jiān)管文檔E的文本內(nèi)容c進(jìn)行預(yù)處理,去除文本中的噪聲并將每個(gè)監(jiān)管文檔拆分成獨(dú)立的規(guī)則語(yǔ)句sent;
S2:將BERT模型在法律領(lǐng)域通用語(yǔ)料上進(jìn)行微調(diào),然后再將微調(diào)后的BERT模型與分類器連接,構(gòu)成規(guī)則語(yǔ)句分類模型;對(duì)規(guī)則語(yǔ)句分類模型進(jìn)行訓(xùn)練,使其能夠識(shí)別每條規(guī)則語(yǔ)句sent的語(yǔ)句類型,得到每條規(guī)則語(yǔ)句sent的分類結(jié)果tr;所述語(yǔ)句類型的分類結(jié)果標(biāo)簽包含強(qiáng)制型、禁止型、允許型和定義型;
S3:通過成分句法分析和依存句法分析,對(duì)識(shí)別完語(yǔ)句類型的規(guī)則語(yǔ)句sent進(jìn)行語(yǔ)義成分提取,從中提取出操作Ar、執(zhí)行者Pr、條件Cr、約束Or和例外Er一共五種語(yǔ)義成分;
S4:將同一條規(guī)則語(yǔ)句sent中得到的所述語(yǔ)句類型的分類結(jié)果tr和所述語(yǔ)義成分結(jié)合生成一個(gè)規(guī)則記錄r=(tr,Ar,Pr,Cr,Or,Er,Ur,fr),其中Ur∈Ar×(Cr∪Or)表示操作與條件或操作與約束之間的順序關(guān)系,fr:表示執(zhí)行者與操作之間的執(zhí)行關(guān)系,即指定哪些執(zhí)行者必須執(zhí)行哪些操作;由所有規(guī)則記錄組成規(guī)則庫(kù)R,用于作為業(yè)務(wù)流程中合規(guī)性檢查的依據(jù)。
2.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的規(guī)則信息提取方法,其特征在于,所述S2具體包含以下子步驟:
S21:收集法律領(lǐng)域的通用語(yǔ)料并進(jìn)行預(yù)處理,去除其中的特殊字符和標(biāo)點(diǎn)符號(hào),形成法律語(yǔ)料庫(kù);
S22:構(gòu)建遮蔽語(yǔ)言模型預(yù)訓(xùn)練任務(wù),即首先對(duì)所述法律語(yǔ)料庫(kù)內(nèi)的通用語(yǔ)料中的每一個(gè)句子S,隨機(jī)遮擋其中部分單詞,并在句子的頭和尾分別添加[CLS]和[SEP]標(biāo)記;然后基于BERT模型,將法律語(yǔ)料庫(kù)中的每個(gè)句子S輸入嵌入層,通過三個(gè)向量層,分別為字向量層,句向量層和位置向量層,一個(gè)長(zhǎng)度為n的輸入序列由3個(gè)向量相加,得到一個(gè)大小為(n,768)的合成向量表示Emb,表示公式如下:
Emb=Etoken+Esegment+Eposition
其中Etoken表示字向量,Esegment表示句向量,Eposition表示位置向量;
再將合成向量表示Emb輸入到12層Transformer構(gòu)成的編碼器結(jié)構(gòu)中,使用Transformer的多頭自注意力機(jī)制計(jì)算Emb的注意力,通過編碼器得到最終表示N;
最后將最終編碼表示N和遮擋單詞的詞元位置輸入到多層感知器中,預(yù)測(cè)遮擋單詞;
在遮蔽語(yǔ)言模型預(yù)訓(xùn)練任務(wù)中,利用法律語(yǔ)料庫(kù)對(duì)模型進(jìn)行訓(xùn)練實(shí)現(xiàn)BERT模型的參數(shù)微調(diào);
S23:加載參數(shù)微調(diào)后的BERT模型并連接Softmax分類器,形成規(guī)則語(yǔ)句分類模型;利用預(yù)先標(biāo)注的規(guī)則語(yǔ)句數(shù)據(jù)集對(duì)規(guī)則語(yǔ)句分類模型進(jìn)行進(jìn)一步微調(diào),通過反向傳播訓(xùn)練不斷調(diào)整原有模型的權(quán)重,獲得一個(gè)微調(diào)后的規(guī)則語(yǔ)句分類模型;規(guī)則語(yǔ)句數(shù)據(jù)集中標(biāo)注的規(guī)則語(yǔ)句分類結(jié)果標(biāo)簽包含強(qiáng)制型、禁止型、允許型和定義型四類;
S24:利用微調(diào)后的規(guī)則語(yǔ)句分類模型,輸入S1中得到的規(guī)則語(yǔ)句sent進(jìn)行分類,得到每條規(guī)則語(yǔ)句sent的分類結(jié)果tr。
3.根據(jù)權(quán)利要求1所述的基于機(jī)器學(xué)習(xí)的規(guī)則信息提取方法,其特征在于,所述S2中的語(yǔ)句類型具體定義如下:
所述強(qiáng)制型表示在法律上被要求強(qiáng)制執(zhí)行某事的情況,如果不滿足此條件,則發(fā)生違規(guī);
所述禁止型表示在法律上被禁止去做某事的情況,如果不滿足此條件,則發(fā)生違規(guī);
所述允許型表示被允許在沒有違反強(qiáng)制型或禁止型的情況下做某事,如果不滿足此條件,可能會(huì)發(fā)生違規(guī);
所述定義型表示定義概念性的法律條款。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于杭州電子科技大學(xué),未經(jīng)杭州電子科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310073783.5/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 根據(jù)用戶學(xué)習(xí)效果動(dòng)態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個(gè)人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動(dòng)學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 游戲?qū)W習(xí)效果評(píng)測(cè)方法及系統(tǒng)
- 規(guī)則發(fā)現(xiàn)程序、規(guī)則發(fā)現(xiàn)處理和規(guī)則發(fā)現(xiàn)裝置
- 不規(guī)則瓶蓋
- 相關(guān)規(guī)則分析裝置以及相關(guān)規(guī)則分析方法
- 分析規(guī)則調(diào)整裝置、分析規(guī)則調(diào)整系統(tǒng)以及分析規(guī)則調(diào)整方法
- 規(guī)則抽取方法和規(guī)則抽取設(shè)備
- 終端規(guī)則引擎裝置、終端規(guī)則運(yùn)行方法
- 布(規(guī)則)
- 規(guī)則呈現(xiàn)方法、存儲(chǔ)介質(zhì)和規(guī)則呈現(xiàn)裝置
- 可編寫規(guī)則配置模塊、規(guī)則生成系統(tǒng)、及規(guī)則管理平臺(tái)
- 不規(guī)則圍棋





