[發明專利]一種面向電力的領域實體識別方法、系統及存儲介質在審
| 申請號: | 202010625052.3 | 申請日: | 2020-07-01 |
| 公開(公告)號: | CN111783464A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 季知祥;施貴榮;藍海波;蒲天驕;張銳;王曉輝;閔睿;劉鵬;劉劍青;肖凱;蔡常雨 | 申請(專利權)人: | 中國電力科學研究院有限公司;國網冀北電力有限公司;國家電網有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/211;G06F16/35;G06F16/36;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 北京中巡通大知識產權代理有限公司 11703 | 代理人: | 李宏德 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 電力 領域 實體 識別 方法 系統 存儲 介質 | ||
本發明提供一種面向電力的領域實體識別方法及系統,其通過構建電力領域實體識別算法能夠實現對電力領域文本中電力領域實體進行識別,該方法采用BIE進行訓練數據標注,利用雙向長短時記憶網絡和條件隨機場進行電力領域實體識別算法模型構建,通過F值等進行算法模型評價,評價滿足業務需求即可用于電力實體識別。采用雙向長短時記憶網絡和條件隨機場進行領域實體識別模型的構建,綜合了雙向長短時記憶網絡的序列建模能力,可以捕獲較遠的上下文信息,具備神經網絡擬合非線性的能力,同時采用條件隨機場優化整個序列,有效地解決了傳統的循環神經網絡存在梯度消失或梯度爆炸問題,為構建電力領域的知識圖譜的構建提供了重要基礎。
技術領域
本發明涉及電力人工智能技術領域,特別涉及一種面向電力領域的實體識別方法、系統及存儲介質。
背景技術
近年來,隨著智能電網的發展,傳統電網設施不斷升級改造,各類信息化系統大量應用,智能電網產生和積累了海量多源異構數據。隨著泛在電力物聯網的建設,基于電力海量數據的人工智能在支撐營銷、運檢、物資、調度、安監等專業應用建設過程中將發揮重要作用,人工智能應用建設的深入也將推動新業務與新應用模式的創新不斷涌現。當前電力行業尚未建立完整的領域知識圖譜,尚未實現電力知識支撐的全面智能化。
所謂知識圖譜是以結構化的形式描述客觀世界中概念、實體及其關系,是結構化的語義知識庫,用于以符號形式描述物理世界中的概念及其相互關系。其基本組成單位是“實體-關系-實體”三元組,以及實體及其相關屬性-值對,實體間通過關系相互聯結,構成網狀的知識結構。因此在電力調度領域,知識圖譜可以固化調度規程、調度員經驗知識,輔助支撐電網運行監視、異常處置、方式調整等應用。在電力運檢領域,知識圖譜可以存儲設備、故障、處置方法等知識,可支撐智能設備運維檢修等。
構建領域知識圖譜首先需要抽取電力實體,實體識別是自然語言處理中的一項基礎任務,應用范圍非常廣泛。特定領域的命名實體識別,其目標是識別領域特定實體及其類別,在領域文檔分類、檢索和內容分析中扮演著重要的角色。它是深層次復雜信息提取任務的基礎,是將數據轉換為機器可讀知識的知識計算過程的基石。
因此,研究一種面向電力的領域實體識別方法,用以構建電力領域的知識圖譜,是極為必要的。
發明內容
本發明的目的旨在至少解決所述的技術缺陷之一。
為此,本發明的一個目的在于提出一種面向電力的領域實體識別方法,包括以下步驟,
S1、對獲取的電網數據進行數據抽取形成數據集,并進行訓練數據的語料標注S2、將標注后的語料,劃分出測試集,將測試集輸入構建好的電力領域實體識別模型中進行識別,將識別結果進行反向解碼,得出所識別的領域實體;S3、根據識別的領域實體計算正確率和召回率的加權調和平均值,利用加權調和平均值,對電力領域實體識別算法模型進行評價,當得出的評價得分滿足業務需求時,輸出識別的領域實體;當得出的評價得分不滿足業務需求時,對電力領域實體識別模型進行修正后,重復上述步驟S2-S3。
優選的,在S1中,采用BIE進行訓練數據的語料標注,其中,采用字母B代表電力實體的首位字符,用字母I代表電力實體的內部字符,用字母E代表電力實體的結尾字符,用字母O代表不屬于命名實體的其他字符。
在上述任意一項實施例中優選的,利用雙向長短時記憶網絡與條件隨機場結合的方法構建電力領域實體識別算法模型;在S2中,將標注的語料,劃分為測試集和訓練集,利用訓練集對構建的領域實體識別算法模型,進行訓練。
在上述任意一項實施例中優選的,所述電力領域實體識別算法模型包括第一層,用于將句子中的每個字由one-hot向量映射為低維稠密的字向量;第二層,雙向LSTM層,用于從第一層的字向量中自動提取句子特征;第三層,CRF層,用于將提取出的句子特征,進行句子級的序列標注;將標注形成的句子標簽進行分類。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電力科學研究院有限公司;國網冀北電力有限公司;國家電網有限公司,未經中國電力科學研究院有限公司;國網冀北電力有限公司;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010625052.3/2.html,轉載請聲明來源鉆瓜專利網。





