[發明專利]基于文本分類與語義框架的電力預案信息抽取方法在審
| 申請號: | 202010891712.2 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112036179A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 楊群;郭榕;劉紹翰 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/30;G06F40/253;G06K9/62;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 分類 語義 框架 電力 預案 信息 抽取 方法 | ||
1.基于文本分類與語義框架的電力預案信息抽取方法,其特征在于所述方法包括:
101.獲取電力預案文本并做文本類別標注。
102.針對電力預案文本的預處理;所述的預處理包括:長句切分,分詞與詞性標注。
103.針對電力預案文本的文本分類模型與訓練方法;將已標注類別的電力預案文本作為訓練集微調BERT預訓練模型獲得所述文本的特征向量,利用獲得的特征向量訓練Softmax回歸模型得到電力預案文本分類的模型。
104.針對不同類別的電力預案文本,定義不同的語義槽;把待抽取的信息定義為語義槽,將信息抽取任務轉換為槽填充任務,并根據各類別文本所需抽取的不同信息,定義不同的語義槽sj。
105.針對不同類別的電力預案文本,構建不同的語義框架進行信息抽取;將步驟104中定義的語義槽組成語義框架fi={sj},利用文本搜索和正則匹配的方法,填充框架中的語義槽。
2.根據權利要求1所述的基于文本分類與語義框架的電力預案信息抽取方法,其特征在于針對電力預案文本的預處理方法,具體包括:
總結預案文本的句式結構特點并建立長文本切分標志集,據此編寫針對電力預案文本的分句規則將預案文本中的長句切分為多個短句;
從大量電力預案中先以規則總結輔以專家人工校正建立專業詞典,通過導入電力預案專業詞典,進行分詞與詞性標注。
3.根據權利要求1所述的基于文本分類與語義框架的電力預案信息抽取方法,其特征在于針對電力預案文本的文本分類模型與訓練方法,具體包括:
給出電力預案文本分類訓練集來自于步驟101中已標注類別的電力預案文本數據集,其中xi為每條電力預案文本,yi為文本對應的類別,預案文本類別由電力專家分析共形成八類。通過BERT預處理語言模型在訓練集D上進行微調,得到訓練集D對應的特征表示為V=(v1,v2,...,vN),其中vi是每條短文本xi對應的句子級別的特征向量,i=1,2,...,N;
將得到的特征表示V輸入Softmax回歸模型進行訓練,得到電力預案文本分類的模型M;
訓練方法包括參數設置以及迭代輪數和準確率分析。
4.根據權利要求1所述的基于文本分類與語義框架的電力預案信息抽取方法,其特征在于,針對不同類別的電力預案文本,定義不同語義槽,具體包括:
將預案文本中待抽取的關鍵信息定義為語義槽,把信息抽取任務轉換為槽填充任務,每種類別的預案文本將被抽取出限定的信息用于語義槽的填充。根據每種類別的預案文本所需抽取的信息,定義相應的語義槽組{sj},j=1,2,...,nk,nk為此類別文本對應的語義槽數量。
5.根據權利要求1所述的基于文本分類與語義框架的電力預案信息抽取方法,其特征在于,針對不同類別的電力預案文本,構建不同的語義框架進行信息抽取,具體包括:
通過對不同類別的電力預案文本進行語句模式歸納總結,結合步驟104中定義的語義槽構造出相應的語義框架fi={sj}。考慮到槽缺失的情況,進一步將框架中的語義槽分為必要槽和可選槽。利用構建的語義框架進行信息抽取的過程如下:
a.將待抽取的文本進行文本分類,給定待抽取的電力預案文本集其中xi為每條電力預案文本。待抽取電力預案文本T經過文本分類模型M分類得到分類結果t1,t2,...,tN,其中ti是類別i對應的文本集合,i=1,2,...,N;
b.對分類結果t1,t2,...,tN依據其文本類型調用對應的語義框架f1,f2,...,fN。其中,fi={sj}表示對應于分類結果ti的語義框架,i=1,2,...,N,sj表示語義框架fi包含的語義槽,j=1,2,...,nk;
c.根據調用的語義框架fi={sj},利用文本搜索和正則匹配的方法,填充框架中的語義槽,完成信息的抽取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010891712.2/1.html,轉載請聲明來源鉆瓜專利網。





