[發(fā)明專利]基于多層神經(jīng)網(wǎng)絡(luò)的電力實體識別方法、存儲介質(zhì)和設(shè)備在審
| 申請?zhí)枺?/td> | 202011337566.5 | 申請日: | 2020-11-25 |
| 公開(公告)號: | CN112560486A | 公開(公告)日: | 2021-03-26 |
| 發(fā)明(設(shè)計)人: | 劉子全;李睿凡;王澤元;胡成博;熊永平;朱雪瓊 | 申請(專利權(quán))人: | 國網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國家電網(wǎng)有限公司;北京郵電大學(xué);國網(wǎng)江蘇省電力有限公司;江蘇省電力試驗研究院有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/04 |
| 代理公司: | 南京縱橫知識產(chǎn)權(quán)代理有限公司 32224 | 代理人: | 丁朋華 |
| 地址: | 211103 江*** | 國省代碼: | 江蘇;32 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 多層 神經(jīng)網(wǎng)絡(luò) 電力 實體 識別 方法 存儲 介質(zhì) 設(shè)備 | ||
本發(fā)明公開了一種基于多層神經(jīng)網(wǎng)絡(luò)的電力實體識別方法、存儲介質(zhì)和設(shè)備,將待識別的電力語料輸入至預(yù)先構(gòu)建的BERT電力實體識別模型中,得到電力實體標簽的哈夫曼編碼,通過哈夫曼編碼映射得到實體標簽,進而得到識別出的實體。通過語言模型訓(xùn)練語料對BERT語言模型進行預(yù)訓(xùn)練;對電力語料數(shù)據(jù)標注電力實體標簽,構(gòu)建電力實體識別語料;根據(jù)電力實體標簽在電力實體識別語料中的數(shù)量構(gòu)建電力實體標簽的哈夫曼編碼;在預(yù)訓(xùn)練得到的BERT語言模型后增加分類層構(gòu)成BERT電力實體識別模型,通過電力實體識別語料對BERT電力實體識別模型進行再次訓(xùn)練,得到訓(xùn)練好的BERT電力實體識別模型。提高了電力領(lǐng)域中文命名實體識別的精度。
技術(shù)領(lǐng)域
本發(fā)明涉及電力實體識別技術(shù)領(lǐng)域,具體涉及一種基于多層神經(jīng)網(wǎng)絡(luò)的電力實體識別方法、存儲介質(zhì)和設(shè)備。
背景技術(shù)
命名實體識別(NER)(也稱為實體識別、實體分塊和實體提取)是信息提取的一個子任務(wù),用于識別輸入文本中的人名、地名、組織機構(gòu)名或者根據(jù)特定需求劃分的命名實體,旨在將輸入文本中的命名實體定位并分類為預(yù)先定義的類別。傳統(tǒng)命名實體識別涉及包括3大類(實體、時間和數(shù)字)和7小類(人名、地名、時間、數(shù)值、貨幣和百分比)的識別任務(wù)。傳統(tǒng)的命名實體識別方法可以分為基于詞典的命名實體識別方法,基于規(guī)則的命名實體識別方法以及基于傳統(tǒng)機器學(xué)習(xí)的命名實體識別的方法。
早期的研究基于規(guī)則方法,制定規(guī)則、維護規(guī)則的人力成本很高。基于機器學(xué)方法,其中條件隨機場模型(CRF)通過建立對數(shù)似然模型進行特征學(xué)習(xí),但是訓(xùn)練代價較大,訓(xùn)練速度較慢。基于深度學(xué)習(xí)模型,可以自動學(xué)習(xí)特征,長短期記憶網(wǎng)絡(luò)模型(LSTM)可以通過門控單元學(xué)習(xí)到長距離特征,注意力機制模型(Attention)可以在眾多的輸入信息中聚焦于對NER任務(wù)更為關(guān)鍵的信息。
大多數(shù)現(xiàn)有的NER方法基于數(shù)據(jù)驅(qū)動來實現(xiàn),即數(shù)據(jù)量越大,模型的學(xué)習(xí)效果越好。但在一些特定領(lǐng)域難以建立足夠多的標注語料,模型的效果也會大打折扣。目前構(gòu)建電力領(lǐng)域命名實體識別工具存在標注語料不充足的問題,此外命名實體識別任務(wù)常出現(xiàn)標簽不平衡問題,即不同實體出現(xiàn)的頻次差異較大,基于該數(shù)據(jù)訓(xùn)練的模型會導(dǎo)致模型偏向于預(yù)測成頻次多的標簽,語料不足也加大了不平衡的問題處理難度。而人工標注需要有電力領(lǐng)域?qū)I(yè)知識,普通人難以直接準確識別電力領(lǐng)域?qū)嶓w,會造成成本高昂、標注較為緩慢問題。
發(fā)明內(nèi)容
為解決現(xiàn)有技術(shù)中的不足,本發(fā)明提供一種基于多層神經(jīng)網(wǎng)絡(luò)的電力實體識別方法、存儲介質(zhì)和設(shè)備,解決了電力實體識別標簽不平衡、識別不準確、人工標注慢的問題。
為了實現(xiàn)上述目標,本發(fā)明采用如下技術(shù)方案:一種基于多層神經(jīng)網(wǎng)絡(luò)的電力實體識別方法,包括步驟:將待識別的電力語料輸入至預(yù)先構(gòu)建的BERT電力實體識別模型中,得到電力實體標簽的哈夫曼編碼,通過哈夫曼編碼映射得到實體標簽,進而得到識別出的實體。
進一步的,所述BERT電力實體識別模型的構(gòu)建步驟包括:
提取海量文本語料庫,對海量本文語料庫進行數(shù)據(jù)預(yù)處理,得到語言模型訓(xùn)練語料;
通過語言模型訓(xùn)練語料對BERT語言模型進行預(yù)訓(xùn)練;
對電力語料數(shù)據(jù)標注電力實體標簽,構(gòu)建電力實體識別語料;
根據(jù)電力實體標簽在電力實體識別語料中的數(shù)量構(gòu)建電力實體標簽的哈夫曼編碼;
在預(yù)訓(xùn)練得到的BERT語言模型后增加分類層構(gòu)成BERT電力實體識別模型,通過電力實體識別語料對BERT電力實體識別模型進行再次訓(xùn)練,得到訓(xùn)練好的BERT電力實體識別模型。
進一步的,所述對海量本文語料庫進行數(shù)據(jù)預(yù)處理過程包括:
對文本分句并構(gòu)建句子對,句子對用設(shè)定的連接標簽進行連接,句子對頭部加設(shè)定的頭部標簽,句子對尾加設(shè)定的尾部標簽;其中,原始文本相連的句子構(gòu)成的句子對為正樣本,未連接的句子作為負樣本;構(gòu)建上下句關(guān)系預(yù)測任務(wù)的語料;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于國網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國家電網(wǎng)有限公司;北京郵電大學(xué);國網(wǎng)江蘇省電力有限公司;江蘇省電力試驗研究院有限公司,未經(jīng)國網(wǎng)江蘇省電力有限公司電力科學(xué)研究院;國家電網(wǎng)有限公司;北京郵電大學(xué);國網(wǎng)江蘇省電力有限公司;江蘇省電力試驗研究院有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011337566.5/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種小型倉庫小麥育種材料倉儲裝置
- 下一篇:一種遠紅外陶瓷拋釉磚及其制備方法
- 硬件神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法、計算裝置、軟硬件協(xié)作系統(tǒng)
- 生成較大神經(jīng)網(wǎng)絡(luò)
- 神經(jīng)網(wǎng)絡(luò)的生成方法、生成裝置和電子設(shè)備
- 一種舌診方法、裝置、計算設(shè)備及計算機存儲介質(zhì)
- 學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
- 脈沖神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換方法及相關(guān)轉(zhuǎn)換芯片
- 圖像處理方法、裝置、可讀存儲介質(zhì)和計算機設(shè)備
- 一種適應(yīng)目標數(shù)據(jù)集的網(wǎng)絡(luò)模型微調(diào)方法、系統(tǒng)、終端和存儲介質(zhì)
- 用于重構(gòu)人工神經(jīng)網(wǎng)絡(luò)的處理器及其操作方法、電氣設(shè)備
- 一種圖像神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)化方法及裝置
- 電力控制器、電力生成系統(tǒng)以及電力控制器的控制方法
- 電力供給裝置、電力接收裝置和包括電力接收裝置的車輛以及用于電力供給系統(tǒng)的控制方法
- 電力接收裝置、電力傳送裝置及其控制方法
- 一種智能電力客服系統(tǒng)的構(gòu)建方法及系統(tǒng)
- 無線電力傳輸系統(tǒng)、無線電力發(fā)送裝置和無線電力接收裝置
- 一種電力監(jiān)控平臺數(shù)據(jù)信息映射匹配方法及系統(tǒng)
- 用于電力分配的系統(tǒng)和方法
- 電力傳輸裝置、電力接收裝置和電力傳輸裝置的控制方法
- 一種電力傳輸線圈無線傳輸電力的無線電力傳輸系統(tǒng)
- 一種電力運行數(shù)據(jù)監(jiān)控系統(tǒng)





