[發(fā)明專利]一種基于預訓練模型的安全事件實體識別方法在審
| 申請?zhí)枺?/td> | 202110482621.8 | 申請日: | 2021-04-30 |
| 公開(公告)號: | CN113312914A | 公開(公告)日: | 2021-08-27 |
| 發(fā)明(設計)人: | 黑新宏;董林靖;朱磊;姬文江;劉雁孝 | 申請(專利權(quán))人: | 西安理工大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 西安弘理專利事務所 61214 | 代理人: | 韓玙 |
| 地址: | 710048 陜*** | 國省代碼: | 陜西;61 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 訓練 模型 安全 事件 實體 識別 方法 | ||
本發(fā)明主要是對公共安全領域進行中文命名實體識別研究,提出了改進的命名實體識別模型PreTrain100K+RoBERTa+?BiLSTM?CRF。在對原始的RoBERTa模型進行任務二次預訓練優(yōu)化過程中,加入公共安全領域詞典的全詞Mask機制,使PreTrain100K+RoBERTa+模型具備更好的中文語言模型能力。然后將生成的預訓練語言模型和擴充領域?qū)嶓w的詞典輸入到BiLSTM?CRF模型中進行實體識別訓練。采用本發(fā)明基于預訓練模型的安全事件實體識別方法將提高公共安全事件實例信息化水平,能夠更好的進行知識表示,存儲文本語料中的語義信息,構(gòu)建公共安全事件領域知識圖譜。該圖譜可以用于事故案例快速檢索,事故關聯(lián)路徑分析及統(tǒng)計分析等,從而提高我國公共事件管理水平,加強公共安全應急管理體系建設。
技術領域
本發(fā)明屬于人工智能自然語言處理技術領域,涉及一種基于預訓 練模型的安全事件實體識別方法。
背景技術
隨著我國在經(jīng)濟快速發(fā)展,城市中各種各樣的安全突發(fā)事件也在 不斷增多,這些公共安全突發(fā)事件給當事人和救援人的生命財產(chǎn)安全 造成嚴重威脅,也對我國經(jīng)濟和民眾生活帶來很大的影響。因此,公 共安全應急管理亟待加強。但是,現(xiàn)階段公共安全事件輿情中的知識 與信息不能有效地抽取和復用,無法為公共安全事件管理提供充分的 協(xié)助和預警。
近幾年,人工智能的發(fā)展成為了行業(yè)重要的發(fā)展方向,其中自然 語言處理作為該領域的重要研究方向,其研究成果已經(jīng)應用于醫(yī)療、 法律、金融等行業(yè)中,大大提高了領域智能化水平。但是,公共安全 事件領域中也存在大量的案例文本信息,在現(xiàn)有的自然語言處理研究 領域,對中文公共安全事件的研究處于起步階段。本發(fā)明借鑒已有行 業(yè)的中文自然語言處理方法分析公共安全事件實例文本信息特征。以 公開的中文突發(fā)事件語料中的實體和關系等信息提取作為研究重點 進行深入研究,目的是為了將公共安全事件實例信息化,能夠更好的 進行知識表示,存儲規(guī)范中的語義信息,構(gòu)建公共安全事件領域知識圖譜。該圖譜可以用于事故案例快速檢索,事故關聯(lián)路徑分析及統(tǒng)計 分析等,從而提高我國公共事件管理水平,加強公共安全應急管理體 系建設。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于預訓練模型的安全事件實體識別 方法,能夠解決現(xiàn)有安全事件領域信息無法有效抽取的問題。
本發(fā)明所采用的技術方案是,基于預訓練模型的安全事件實體識 別方法,首先在對原始的RoBERTa模型進行任務二次預訓練優(yōu)化過 程中,加入公共安全領域詞典的全詞Mask機制,使 PreTrain100K+RoBERTa+模型具備更好的中文語言模型能力;然后將 生成的預訓練語言模型和擴充領域?qū)嶓w的詞典輸入到BiLSTM-CRF 模型中進行實體識別訓練;最后,設置深度學習模型作為服務端測試 實體識別模型效果,將測試數(shù)據(jù)集輸入模型可輸出測試數(shù)據(jù)的實體類 別,并根據(jù)評價指標判斷其效果的好壞。
具體包括以下步驟:
步驟1,從github直接獲取CEC數(shù)據(jù)集及及說明文件;
步驟2,CEC數(shù)據(jù)集共有332條公共安全事件實例,采用了XML 語言作為標注格式對CEC數(shù)據(jù)集進行標注,其中包含了六個最重要 的數(shù)據(jù)標簽:Event、Denoter、Time、Location、Participant和Object; Event用于描述事件;Denoter、Time、Location、Participant和Object 用于描述事件的指示詞和要素,根據(jù)XML標簽的不同利用python語言提取標注的實體,構(gòu)建安全事件實體詞典。
步驟3,針對步驟2數(shù)據(jù)文本中Denoter、Time、Location、 Participant和Object五個標簽進行命名實體識別研究,將標簽分別簡 記為DEN、TIME、LOC、PAR、OBJ,分別表示行為、時間、位置、 參與者和對象。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于西安理工大學,未經(jīng)西安理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110482621.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





