[發明專利]基于BERT預訓練模型的刑事案件要素識別方法在審
| 申請號: | 202010652521.0 | 申請日: | 2020-07-08 |
| 公開(公告)號: | CN111832295A | 公開(公告)日: | 2020-10-27 |
| 發明(設計)人: | 余正濤;李華琴;賴華;郭軍軍;黃于欣;相艷 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F40/205;G06F16/951 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云南省昆明*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 訓練 模型 刑事案件 要素 識別 方法 | ||
1.基于BERT預訓練模型的刑事案件要素識別方法,其特征在于,包括如下步驟:
Step1、爬取涉刑事案件新聞文本語料,并對文本進行去重、去噪和分句語料預處理;
Step2、將經過預處理之后的刑事案件新聞文本語料數據進行語料標記工作,構建針對案件要素識別任務的刑事案件語料庫;
Step3、利用BERT預訓練模型對標記后的刑事案件新聞文本進行語義表征,獲得刑事案件新聞文本的語義表征向量;
Step4、利用BiGRU提取刑事案件新聞文本的上下文語義信息,構建BiGRU層;
Step5、引入注意力機制對高層上下文語義信息進行提取,構建Attention層;
Step6、融合CRF模型實現對刑事案件要素的識別。
2.根據權利要求1所述的基于BERT預訓練模型的刑事案件要素識別方法,其特征在于:所述步驟Step1中,刑事案件新聞文本語料預處理的具體步驟為:
Step1.1、利用爬蟲技術將新聞網站上的非結構涉刑事案件描述文爬取并保存;
Step1.2、對文本進行去重、去噪和分句處理。
3.根據權利要求1所述的基于BERT預訓練模型的刑事案件要素識別方法,其特征在于:所述步驟Step2中,對刑事案件新聞文本語料數據進行語料標記的具體步驟為:
Step2.1、對預處理后的刑事案件新聞文本語料數據進行分字,將分字后的一部分數據作為訓練模型的訓練語料,一部分作為測試模型的測試語料;
Step2.1、對訓練語料采用BIO進行逐字標記。
4.根據權利要求1所述的基于BERT預訓練模型的刑事案件要素識別方法,其特征在于:所述步驟Step3中:使用Google提供的開源簡單版BERT Base進行刑事案件新聞文本的語義向量表征。
5.根據權利要求1所述的基于BERT預訓練模型的刑事案件要素識別方法,其特征在于:所述步驟Step6中,將含有高層上下文語義信息的向量輸入CRF層,輸出擁有最大概率的標簽序列,實現刑事案件要素的識別。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010652521.0/1.html,轉載請聲明來源鉆瓜專利網。





