[發(fā)明專利]基于改進型Transformer編碼器對電力缺陷文本的實體信息抽取方法在審
| 申請?zhí)枺?/td> | 202211044230.9 | 申請日: | 2022-08-30 |
| 公開(公告)號: | CN115470786A | 公開(公告)日: | 2022-12-13 |
| 發(fā)明(設計)人: | 龍云;盧有飛;劉璐豪;梁雪青;吳任博;張揚;趙宏偉;陳明輝;張少凡;鄒時容;蔡燕春;劉璇 | 申請(專利權)人: | 廣東電網有限責任公司廣州供電局 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/242;G06F16/36;G06N3/04;G06N3/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 楊望仙 |
| 地址: | 510620 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 改進型 transformer 編碼器 電力 缺陷 文本 實體 信息 抽取 方法 | ||
本發(fā)明涉及于人工智能與電力系統(tǒng)交叉領域,為基于改進型Transformer編碼器對電力缺陷文本的實體信息抽取方法。該方法通過引入預訓練語言模型、詞典、微調TENER模型和條件隨機場模型,搭建CWG?TENER模型,利用帶標注的電力系統(tǒng)二次設備缺陷文本,對模型進行優(yōu)化訓練和測試選擇,得到電力設備缺陷文本信息抽取模型,將待抽取信息的電力設備缺陷文本輸入電力設備缺陷文本信息抽取模型,得到所抽取的信息。本發(fā)明可用于對電力系統(tǒng)二次設備缺陷文本中涉及到的實體信息進行抽取,可以在電力系統(tǒng)二次設備出現故障時提供輔助決策作用。
技術領域
本發(fā)明屬于人工智能與電力系統(tǒng)交叉領域,尤其涉及基于改進型Transformer編碼器對電力缺陷文本的實體信息抽取方法。
背景技術
電力領域的信息化建設使關于電力系統(tǒng)的數據呈爆發(fā)式增長,其中電力設備缺陷文本記錄了大量的生產過程信息,啟示我們深入挖掘其中有價值的信息對電力行業(yè)發(fā)展的重要意義。但是,當前的電力缺陷文本缺乏高效的結構化管理,文本填寫不規(guī)范的情況影響信息的利用率。由于對缺陷文本信息的利用不足,常出現同一缺陷在不同地區(qū)反復出現的情況,如果電力設備在運行過程中發(fā)生缺陷,運維人員無法僅憑自身經驗及時判斷設備的準確缺陷原因,會使發(fā)生危及缺陷的設備因未得到及時而妥善的處理引發(fā)一系列級聯故障。與此同時,隨著人工智能(Artificial Intelligence,AI)的不斷發(fā)展,將人工智能技術應用到電力行業(yè)中,是電力行業(yè)發(fā)展的必然要求。其中自然語言處理技術在電力系統(tǒng)已有成功的應用,例如電力物聯網、電力智能搜索引擎等,自然語言處理的基本任務之一命名實體識別技術(Named Entity Recognition,NER)因其強大的信息抽取和分類能力,可讓我們更加高效地利用電力缺陷文本。
近年來,命名實體識別在機器翻譯、問答系統(tǒng)等的應用驗證了它在實體識別上的優(yōu)勢,包括電力系統(tǒng)集中存儲信息的利用問題。許多學者嘗試基于NER去解決電力系統(tǒng)非結構性文本的跨區(qū)域調用、輔助決策、智能診斷平臺搭建,并取得了良好的效果。
但是目前在電力文本數據NER任務中應用廣泛的多種遞歸神經網絡(RNN)對遠程上下文的利用程度和并行能力表現不足,限制了它們在電力系統(tǒng)日漸累積的大數量缺陷文本和高精確度要求的場景中的應用。因此,許多學者嘗試基于自我注意機制和位置嵌入等概念,利用已有的神經網絡模型,建立一個能改善應用于NER的典型遞歸神經網絡——雙向長短時記憶網絡(BiLSTM)存在問題的模型。具體地,國外學者提出了采用完全連接的自注意結構來模擬遠程上下文的Transformer編碼器,它開始應用于多項NLP任務并表現斐然,而它在電力缺陷文本的信息抽取問題的研究和成效還未展開。
發(fā)明內容
為解決現有技術所存在的技術問題,本發(fā)明提供基于改進型Transformer編碼器對電力缺陷文本的實體信息抽取方法,通過在原有的基于Transformer的NER模型的基礎上引入預訓練語言模型將文本數據轉化為字詞語向量,并引入由大量語料分詞得到的詞典,以在字符信息的基礎上融合詞語信息,并以圖的方式更新網絡,以更好地融合字符、詞語和全局信息,可以更加準確地抽取電力缺陷文本實體信息。
本發(fā)明可以通過采取如下技術方案達到:
基于改進型Transformer編碼器對電力缺陷文本的實體信息抽取方法,所述方法包括:
S1、引入電力系統(tǒng)二次設備缺陷記錄數據文本,對數據文本進行標注;
S2、引入預訓練模型、詞典、微調TENER模型和條件隨機場模型,搭建CWG-TENER模型,利用帶標注的數據文本對CWG-TENER模型進行優(yōu)化訓練,得到電力設備缺陷文本信息抽取模型;
S3、將待抽取信息的電力設備缺陷文本輸入電力設備缺陷文本信息抽取模型,得到所抽取的信息。
具體地,所述步驟S2包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司廣州供電局,未經廣東電網有限責任公司廣州供電局許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202211044230.9/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種基于字符串匹配的電力數據融合方法
- 下一篇:一種施肥旋耕播種機
- 基于Transformer+LSTM神經網絡模型的商品銷量預測方法及裝置
- 一種基于Transformer模型自然場景文字識別方法
- 一種深度Transformer級聯神經網絡模型壓縮算法
- 點云分割方法、系統(tǒng)、介質、計算機設備、終端及應用
- 基于Transformer的中文智能對話方法
- 一種基于改進Transformer模型的飛行器故障診斷方法和系統(tǒng)
- 一種基于Transformer模型的機器翻譯模型優(yōu)化方法
- 基于Transformer和增強交互型MPNN神經網絡的小分子表示學習方法
- 基于U-Transformer多層次特征重構的異常檢測方法及系統(tǒng)
- 基于EfficientDet和Transformer的航空圖像中的飛機檢測方法





