[發明專利]基于文本分類與語義框架的電力預案信息抽取方法在審
| 申請號: | 202010891712.2 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112036179A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 楊群;郭榕;劉紹翰 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/253;G06K9/62;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 分類 語義 框架 電力 預案 信息 抽取 方法 | ||
本發明公開一種基于文本分類與語義框架的電力預案信息抽取方法。方法包括:獲取電力預案文本并做文本類別標注;針對電力預案文本的預處理;針對電力預案文本的文本分類模型與訓練方法;針對不同類別的電力預案文本,定義不同語義槽;針對不同類別的電力預案文本,構建不同的語義框架進行信息抽取。本發明首先對電力預案文本進行分類,在分類的基礎上為每類文本構建相應語義框架,將信息抽取任務轉化為槽填充任務,解決了從大量半結構化和非結構化的電力預案文本中抽取信息的問題,能有效地提高電力預案文本的信息抽取效率與準確度,可以減少進行信息抽取所需要的人工勞動,對電力事故后電網快速恢復具有重大和迫切的現實意義。
技術領域
本發明涉及自然語言處理以及深度學習領域,特別是涉及一種針對電力預案的信息抽取方法。
背景技術
電力預案的編寫旨在防止和減少電力事故對社會的影響,保證電力事故應急工作高效、有序地進行,提高電力事故應急處理能力,最大限度地減少事故中的人員傷亡和財產損失。在電網發生故障時,電網調度系統運行變得緊張,通過人工查閱的方式從半結構或非結構的電力預案文本獲取處置信息,不僅效率低下而且將使調度員的工作強度變大,容易發出不當調度指令,不利于電力事故應急工作的有效進行。因此,需要事先將電力預案文本中的信息進行抽取并存儲,在電網發生故障時通過信息檢索快速地找到相應的處置動作,這對電力事故后電網快速恢復具有重大和迫切的現實意義。然而,目前電力預案信息的抽取工作往往依靠人工進行,不僅需要投入大量的人力,費時費力,而且對人員的專業知識有很高的要求。此外,由于主觀因素和經驗差異,信息抽取工作的正確性、規范性難以保證。
發明內容
本發明為了解決上述問題,提供一種基于文本分類與語義框架的電力預案信息抽取方法,可以代替人工進行電力預案信息抽取,并提高電力預案文本信息抽取的效率與準確度。所述方法包括:
101.獲取電力預案文本并做文本類別標注。
102.針對電力預案文本的預處理方法;所述的預處理包括:長句切分,分詞與詞性標注。
103.針對電力預案文本的文本分類模型與訓練方法;將已標注類別的電力預案文本作為訓練集微調BERT預訓練模型獲得所述文本的特征向量,利用獲得的特征向量訓練Softmax回歸模型得到電力預案文本分類的模型。
104.針對不同類別的電力預案文本,定義不同的語義槽;把待抽取的信息定義為語義槽,將信息抽取任務轉換為槽填充任務,并根據各類別文本所需抽取的不同信息,定義不同的語義槽sj。
105.針對不同類別的電力預案文本,構建不同的語義框架進行信息抽取;將步驟104中定義的語義槽組成語義框架fi={sj},利用文本搜索和正則匹配的方法,填充框架中的語義槽。
進一步的,所述的基于文本分類與語義框架的電力預案信息抽取方法,其特征在于針對電力預案文本的預處理方法,具體包括:
總結預案文本的句式結構特點并建立長文本切分標志集,據此編寫針對電力預案文本的分句規則將預案文本中的長句切分為多個短句;
從大量電力預案中先以規則總結輔以專家人工校正建立專業詞典,通過導入電力預案專業詞典,進行分詞與詞性標注。
進一步的,所述的基于文本分類與語義框架的電力預案信息抽取方法,其特征在于針對電力預案文本的文本分類模型與訓練方法,具體包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010891712.2/2.html,轉載請聲明來源鉆瓜專利網。





