[發(fā)明專利]基于BERT預訓練模型的刑事案件要素識別方法在審
| 申請?zhí)枺?/td> | 202010652521.0 | 申請日: | 2020-07-08 |
| 公開(公告)號: | CN111832295A | 公開(公告)日: | 2020-10-27 |
| 發(fā)明(設計)人: | 余正濤;李華琴;賴華;郭軍軍;黃于欣;相艷 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/30;G06F40/205;G06F16/951 |
| 代理公司: | 昆明人從眾知識產權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云南省昆明*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 bert 訓練 模型 刑事案件 要素 識別 方法 | ||
本發(fā)明涉及基于BERT預訓練模型的刑事案件要素識別方法。本發(fā)明包括步驟:爬取涉刑事案件新聞文本語料,并對文本進行預處理;構建針對案件要素識別任務的刑事案件語料庫;利用BERT預訓練模型對標記后的刑事案件新聞文本進行語義表征,獲得刑事案件新聞文本的語義表征向量;利用BiGRU提取刑事案件新聞文本的上下文語義信息,構建BiGRU層;引入注意力機制對高層上下文語義信息進行提取,構建Attention層;融合CRF模型實現對刑事案件要素的識別。本發(fā)明的識別結果可以為后續(xù)的案件要素關系抽取提供了強有力的支撐,在刑事案件語料庫上的實驗結果表明,該方法能提升刑事案件要素識別的效果。
技術領域
本發(fā)明涉及基于BERT預訓練模型的刑事案件要素識別方法,屬于自然語言處理技術領域。
背景技術
涉案新聞文本是輿情監(jiān)測的對象,針對互聯網海量輿情新聞的自動檢測需要對新聞文本進行理解,特別是對于刑事特案要案,輿情監(jiān)測工作尤為重要。針對涉刑事案件相關新聞文本理解,需要基于案件相關的案件要素和要素關系輔助進行語義理解,因此,刑事案件要素的識別是基礎。
在刑事案件領域的案件要素識別,其實就是通用領域常說的實體識別,而實體識別是自然語言處理(Natural language processing,NLP)過程中一項重要的任務。對實體識別方法的研究,有基于規(guī)則的方法、基于機器學習的方法和基于深度學習的方法。但刑事案件領域的案件要素識別比較特殊,案件要素識別任務是從刑事案件新聞文本中自動識別出嫌疑人、被害人、法院和案發(fā)地點等案件要素。例如“某網網6月8日電永定公安微信公眾號今日刊發(fā)通報稱,6月8日11時許,某省某市某區(qū)發(fā)生一起持刀傷人事件,致1人受傷,侯某某已被公安機關控制。”就是要識別出案發(fā)地點“某省某市某區(qū)”和嫌疑人“侯某某”。可以看出,刑事案件領域的案件要素比較特殊,有多個實體組合而成,這樣組合成的案件要素除了案發(fā)地點,還有法院“某市某區(qū)人民法院”,這類案件要素類型的識別比單一實體的識別難。
針對這個問題,提出了一種基于BERT預訓練模型的刑事案件要素識別方法,使用BERT預訓練模型對刑事案件新聞文本進行語義表征,是為了提升語義表征的能力,實現更準確的案件要素識別,在刑事案件語料庫上進行了理論與技術的驗證,實驗結果表明該方法能提升刑事案件要素識別的效果。
發(fā)明內容
本發(fā)明提供了基于BERT預訓練模型的刑事案件要素識別方法,該方法使用BERT預訓練模型提升語義表征能力,實現更準確的案件要素識別。
本發(fā)明的技術方案是:基于BERT預訓練模型的刑事案件要素識別方法,包括如下步驟:
Step1、首先從百度新聞、新浪新聞和騰訊新聞等新聞網站上爬取涉刑事案件新聞文本語料,并對文本進行去重、去噪和分句語料預處理;
Step2、將經過預處理之后的刑事案件新聞文本語料數據進行語料標記工作,構建針對案件要素識別任務的刑事案件語料庫;
Step3、利用BERT預訓練模型對標記后的刑事案件新聞文本進行語義表征,獲得刑事案件新聞文本的語義表征向量;
Step4、利用BiGRU提取刑事案件新聞文本的上下文語義信息,構建BiGRU層;
Step5、引入注意力機制對高層上下文語義信息進行提取,構建Attention層;
Step6、融合CRF模型實現對刑事案件要素的識別。
進一步地,所述步驟Step1中,刑事案件新聞文本語料預處理的具體步驟為:
Step1.1、利用爬蟲技術將新聞網站上的非結構涉刑事案件描述文爬取并保存;
Step1.2、對文本進行去重、去噪和分句處理。
進一步地,所述步驟Step2中,對刑事案件新聞文本語料數據進行語料標記的具體步驟為:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010652521.0/2.html,轉載請聲明來源鉆瓜專利網。





