[發(fā)明專利]一種多神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域命名實體識別方法在審
| 申請?zhí)枺?/td> | 202010315730.6 | 申請日: | 2020-04-21 |
| 公開(公告)號: | CN111680511A | 公開(公告)日: | 2020-09-18 |
| 發(fā)明(設(shè)計)人: | 尹學(xué)振;趙慧;陳沁蕙;李欣妍 | 申請(專利權(quán))人: | 華東師范大學(xué) |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 上海德禾翰通律師事務(wù)所 31319 | 代理人: | 陳艷娟 |
| 地址: | 200241 *** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 神經(jīng)網(wǎng)絡(luò) 協(xié)作 軍事 領(lǐng)域 命名 實體 識別 方法 | ||
本發(fā)明提出了一種多神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域命名實體識別方法,包括以下步驟:步驟A:獲取公開的微博數(shù)據(jù),形成原始數(shù)據(jù)集;步驟B:結(jié)合領(lǐng)域知識,提出考慮實體模糊邊界的軍事領(lǐng)域?qū)嶓w標注策略,制定軍事領(lǐng)域命名實體分類標準;步驟C:針對原始數(shù)據(jù)集進行文本預(yù)處理,結(jié)合步驟B實體標注策略及實體分類標準構(gòu)建軍事語料集MilitaryCorpus;步驟D:利用深度學(xué)習(xí)和統(tǒng)計學(xué)習(xí)的框架,訓(xùn)練了基于BERT?BiLSTM?CRF網(wǎng)絡(luò)結(jié)構(gòu)的多神經(jīng)網(wǎng)絡(luò)協(xié)作軍事領(lǐng)域命名實體識別模型,以進行針對微博為代表的中文社交文本的軍事領(lǐng)域命名實體識別任務(wù)。
技術(shù)領(lǐng)域
本發(fā)明屬于軍事技術(shù)領(lǐng)域,涉及一種多神經(jīng)網(wǎng)絡(luò)協(xié)作的命名實體識別方法,特別針對軍事領(lǐng)域?qū)嶓w的命名實體識別方法。
背景技術(shù)
命名實體識別是進行智能問答、知識圖譜等自然語言處理研究的基礎(chǔ)工作,一直受到研究者的關(guān)注。早期的命名實體識別研究大多采用基于規(guī)則和基于字典的方法,依賴于大量手工設(shè)定的識別規(guī)則,很難對語料全面覆蓋,并且規(guī)則的制定往往依賴于數(shù)據(jù)集,當(dāng)數(shù)據(jù)集發(fā)生變化即需要更新規(guī)則。基于統(tǒng)計學(xué)習(xí)的實體識別方法避免了大量規(guī)則的制定,其將命名實體識別問題轉(zhuǎn)化為序列化標注問題,但是,基于統(tǒng)計學(xué)習(xí)的命名實體識別方法依賴于預(yù)先定義的特征,特征工程不僅代價高而且與特定領(lǐng)域相關(guān),導(dǎo)致領(lǐng)域知識提高了模型的識別有效性的同時犧牲了模型的泛化能力和遷移能力。
計算能力的提升以及詞的分布式表示技術(shù)的支持,使得基于深度神經(jīng)網(wǎng)絡(luò)的命名實體識別任務(wù)不再依賴特征工程,并取得了顯著的研究進展。目前已有研究證明在中文命名實體識別中應(yīng)用字向量表征的識別準確度要優(yōu)于應(yīng)用詞向量表征的方式;已有研究者使用卷積神經(jīng)網(wǎng)絡(luò)、BiLSTM、CRF等進行模型網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計,并在生物醫(yī)藥等專有領(lǐng)域的實體識別中取得較好的識別效果;針對軍事領(lǐng)域,有研究者針對作戰(zhàn)文書、想定文書等規(guī)范的文本進行實體識別工作,取得了積極、客觀的研究成果。然而,電子病歷、軍事文本、作戰(zhàn)文書等規(guī)范化文本中實體分布相對密集、具有一定的規(guī)律且實體邊界較為清晰,而微博、Tweets等社交媒體數(shù)據(jù)中實體分布稀疏,實體表達不規(guī)范,實體邊界常常不清晰,因而如何面向微博等含有模糊邊界實體的社交媒體數(shù)據(jù)進行軍事領(lǐng)域的命名實體識別成為一個新的研究問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種軍事領(lǐng)域的命名實體識別方法,其包括:提出針對實體模糊邊界的實體標注機制解決實體識別任務(wù)中實體邊界難以界定以及實體簡化表達的問題;利用多神經(jīng)網(wǎng)絡(luò)協(xié)作的基于Transformer的雙向編碼器(BERT)并結(jié)合雙向長短時記憶神經(jīng)網(wǎng)絡(luò)(BiLSTM)和條件隨機場(CRF)的軍事領(lǐng)域命名實體識別模型(BERT-BiLSTM-CRF)解決基于單CRF模型需要依賴大量人工特征選取工作,基于LSTM模型需要依靠龐大的語料庫構(gòu)建詞向量的問題,提升了實體識別效果。
本發(fā)明提出的多神經(jīng)網(wǎng)絡(luò)協(xié)作的軍事領(lǐng)域命名實體識別方法,包含以下步驟:
步驟A:獲取公開的微博文本數(shù)據(jù),形成原始數(shù)據(jù)集;
步驟B:結(jié)合領(lǐng)域知識,提出考慮實體模糊邊界的軍事領(lǐng)域?qū)嶓w標注策略,制定軍事領(lǐng)域命名實體分類標準;
步驟C:針對所述原始數(shù)據(jù)集進行文本預(yù)處理,結(jié)合步驟B中實體標注策略及實體分類標準構(gòu)建軍事語料集MilitaryCorpus;
步驟D:利用深度學(xué)習(xí)和統(tǒng)計學(xué)習(xí)的框架,訓(xùn)練基于BERT-BiLSTM-CRF網(wǎng)絡(luò)結(jié)構(gòu)的多神經(jīng)網(wǎng)絡(luò)協(xié)作軍事領(lǐng)域命名實體識別模型,以進行針對文本數(shù)據(jù)的軍事領(lǐng)域命名實體識別任務(wù)。
本發(fā)明中,步驟B包括:
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學(xué),未經(jīng)華東師范大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010315730.6/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 一種基于業(yè)務(wù)規(guī)則的跨部門流程協(xié)同方法
- 基站協(xié)作的動態(tài)連接方法、基站和協(xié)作多輸入多輸出系統(tǒng)
- 一種協(xié)作多點傳輸系統(tǒng)的信號發(fā)送方法及其裝置
- 協(xié)作方法、網(wǎng)絡(luò)和用戶終端
- 應(yīng)用程序協(xié)作系統(tǒng)、應(yīng)用程序協(xié)作方法以及應(yīng)用程序協(xié)作程序
- 協(xié)作多點傳輸方法、裝置和系統(tǒng)
- 一種面向智能終端的內(nèi)容下載應(yīng)用激勵方法及其系統(tǒng)
- 一種協(xié)作多點傳輸調(diào)度方法及裝置
- 一種協(xié)作實現(xiàn)方法和裝置
- 一種區(qū)塊鏈及智能合約系統(tǒng)協(xié)作層設(shè)計
- 一種特種燃料發(fā)動機引動力的多功能軍事坦克
- 一種基于大空間虛擬現(xiàn)實的多兵軍事訓(xùn)練考核系統(tǒng)
- 一種基于通用內(nèi)核本體的軍事領(lǐng)域本體構(gòu)建方法
- 一種軍事人員數(shù)據(jù)管理系統(tǒng)和方法
- 一種結(jié)合詞典的軍事想定文書實體信息抽取方法及裝置
- 一種用于軍事態(tài)勢建模的軍事對象表達裝置
- 一種基于多源數(shù)據(jù)融合模型的軍事訓(xùn)練水平綜合評估方法
- 一種軍事案例數(shù)據(jù)管理方法
- 一種軍事知識圖譜構(gòu)建方法及系統(tǒng)
- 多源軍事裝備知識關(guān)聯(lián)組織方法





