[發明專利]電力預案文本序列標注中集外詞處理方法在審
| 申請號: | 202010891713.7 | 申請日: | 2020-08-28 |
| 公開(公告)號: | CN112036163A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 楊群;黃香鴻;劉紹翰 | 申請(專利權)人: | 南京航空航天大學 |
| 主分類號: | G06F40/242 | 分類號: | G06F40/242;G06F40/289;G06N3/04;G06N3/08;G06Q10/06;G06Q50/06 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 211106 江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電力 預案 文本 序列 標注 中集 處理 方法 | ||
本發明公開一種基于電力預案文本序列標注中集外詞處理方法。方法包括:構建電力預案文本中對應詞的詞嵌入;構建電力預案文本中的部首詞典;提取訓練模型所需要的特征;訓練集外詞處理模型;采用集外詞處理模型處理集外詞。使用上述方法構造的集外詞模型可產生處理電力預案序列標注中產生的集外詞的詞嵌入,使用生成的詞嵌入作為電力預案序列標注模型的輸入可以生成正確的標簽,進而提高電力預案序列標注模型的準確度。
技術領域
本發明涉及自然語言處理以及深度學習領域,特別是涉及一種針對電力預案文本的集外詞處理技術。
背景技術
電力調度預案是針對電力調度現象的應對措施,該調度現象和應對預案以文本文件形式存儲。是本電網工作調度的行之有效工作經驗的積累。在面臨電調度現象時候和調度預案由電力系統專業的語法、詞匯描述的。其動詞具有特定的含義,語法和描述方式與自然語言也不同,描述的對象范圍和屬性,范圍更窄,語法更嚴格。由于突發安全事件引發原因、發生時間、影響范圍的不確定性和突發性,尤其在發生大面積停電事件的情況下,負責應急指揮的領導和技術人員需要掌握電網的運行狀況,及時分析事故原因,判斷故障位置,為搶修指揮提供方便支持。這就必須建立一個高效、透明、暢通的信息系統作為支撐。在應急指揮狀態下,需要應急指揮中心能向指揮人員提供電網運行信息、變電站音視頻信息、故障現場音視頻信息、各類應急預案以及各類輔助決策信息,并通過技術支持系統,指揮電網調度,協調應急隊伍,調用各類應急資源參與應急處理全過程。同時,指揮中心還能通過信息發布平臺進行人員召集和事故處理進展狀況等信息的發布。
現有的基于深度學習的電力調度預案模型對電力預案文本序列標注準確率較高,然而,不同地區的電力預案文本所包含的內容差異較大,這就導致原先使用一個地區的預案數據訓練的模型在處理另一個地區的預案數據時會遇到大量的集外詞,這必將導致模型的準確率大幅度下降,如何對集外詞進行處理對于電力預案文本序列標注模型的性能至關重要。
發明內容
本發明的目的是提供一種基于電力預案文本序列標注中集外詞處理方法,提高電力預案文本序列模型對集外詞的標注能力。為實現上述目的,本發明提供了如下方案:
101.構建電力預案文本中對應詞的詞嵌入:生成電力預案文本的嵌入矩陣,用于模型訓練;
102.構建電力預案文本中的部首詞典:部首詞典用于后續進行部首特征提取;
103.提取訓練模型所需要的特征:對訓練模型所需要的部首特征,上下文特征,字符序特征進行提取;
104.訓練集外詞處理模型:以上述提取的特征和S1得到的詞嵌入為輸入,詞嵌入為目標,訓練集外詞處理模型;
105.采用集外詞處理模型處理集外詞:訓練好的集外詞處理模型能夠生成集外詞的詞嵌入,生成的詞嵌入可用于電力預案文本序列標注任務;
可選的,構建電力預案文本中對應詞的詞嵌入,具體包括:
使用Word2vec的模型訓練原始的電力預案文本,對Word2vec中的超參數進行調整以提高模型的訓練速度,并對原始的預案文本抽樣進行測試,使用效果最好的模型作為最終的Word2vec模型,使用訓練好的Word2vec模型產生電力預案文本對應的詞向量。
可選的,構建電力預案文本中的部首詞典,具體包括:
部首詞典是從大量電力預案中先總結出每個漢字對應的部首,然后人工進行校正,為電力預案文本中的每個字與其對應的部首建立一一映射關系,以電力預案文本中的漢字為索引,部首為對應的值建立部首詞典。
可選的,提取訓練模型所需要的特征,具體包括:
使用輸入的電力預案文本序列為索引,找到其中組成漢字的對應的部首作為模型的部首特征,以矩陣的形式進行保存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京航空航天大學,未經南京航空航天大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010891713.7/2.html,轉載請聲明來源鉆瓜專利網。





