[發明專利]基于文本挖掘的精細化擬合識別變壓器故障方法及設備在審
| 申請號: | 202210538012.4 | 申請日: | 2022-05-18 |
| 公開(公告)號: | CN114912460A | 公開(公告)日: | 2022-08-16 |
| 發明(設計)人: | 胡俊華;李晨;王雅雯;藺家駿;王淵;馬國明;鄭一鳴;高山;劉詠飛;楊景剛;趙科 | 申請(專利權)人: | 國網浙江省電力有限公司電力科學研究院;華北電力大學;國網江蘇省電力有限公司電力科學研究院;國網浙江省電力有限公司 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/211;G06K9/62;G06N3/04;G06N3/08;G06Q10/00 |
| 代理公司: | 浙江翔隆專利事務所(普通合伙) 33206 | 代理人: | 許守金;張建青 |
| 地址: | 310014 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 文本 挖掘 精細 擬合 識別 變壓器 故障 方法 設備 | ||
1.基于文本挖掘的精細化擬合識別變壓器故障方法,其特征在于,包括以下步驟:
第一步:對變壓器故障文本數據中超字數的句子文本進行切分,并做增強處理,得到增強文本數據;
第二步:對第一步中的增強文件數據,進行初始向量化處理,得到初始向量化的文本矩陣,
第三步:對第二步中的初始向量化的文本矩陣,利用殘差連接和層歸一化處理進行編碼,得到語句向量;
第四步:構建語言表征模型BERT對第三步中的語句向量進行線性降維處理,得到各類故障標簽的概率;并通過添加權重動態調整語言表征模型BERT識別損失值;
第五步:對第四步中的各類故障標簽的概率,通過Canopy+K-Means模型進行聚類分析;
提取得到變壓器故障文本數據對應的類型標簽;
第六步:根據第五步中的類型標簽,識別出變壓器故障文本數據描述的具體故障部位和故障類型。
2.如權利要求1所述的基于文本挖掘的精細化擬合識別變壓器故障方法,其特征在于,
所述第一步中,變壓器故障文本數據包括故障描述文本和故障類型,其規律性地填寫在同樣的表格位列;
切分的方法,包括以下內容;
每一句子文本長度最長為L字符,最短句子文本長度為M;
當句子長度小于M時,將若干句子拼接;
當句子長度在[M,L]區間內時,句子不做拼接;
拼接后的句子按照長度大小進行排序,長度相近的句子放入同一訓練批次。
3.如權利要求1所述的基于文本挖掘的精細化擬合識別變壓器故障方法,其特征在于,
所述第二步中,向量化處理,包括以下內容:
將變壓器故障文本數據中的單個字符作為最小單位token,然后經過若干嵌入層得到初始文本向量矩陣Xe,0;
若干嵌入層至少包括標記嵌入層、片段嵌入層、位次嵌入層。
4.如權利要求3所述的基于文本挖掘的精細化擬合識別變壓器故障方法,其特征在于,
標記嵌入層包括以下內容:
采用transformer機制對變壓器故障文本數據中的單個字符進行隨機初始化,將各字符轉換為固定維的向量,然后再進行token-id轉換,經id映射得到相應的向量表示,再在各文本的開頭和結尾分別加以向量[CLS]和向量[SEP];
片段嵌入層包括以下內容:
利用向量[SEP]對兩個文本在語義上是否相似進行分類,用至少兩個向量表示,第一個句子向量的索引號為A,屬于這個句子的所有標記的索引都被標記為A;
第二個句子向量的索引號為B,屬于該句子的所有標記的索引均標記為B;
片段嵌入層的向量是通過索引號對照片段嵌入表得到的;
所述位次嵌入層向量對照查詢表其包括以下內容:
當文本字數不足最大文本長度時,需要對其進行長度補齊,補齊位置無意義,不參與后續計算;
初始文本向量矩陣Xe,0通過若干嵌入層的向量表示進行求和得到,并傳遞給語言表征模型BERT。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網浙江省電力有限公司電力科學研究院;華北電力大學;國網江蘇省電力有限公司電力科學研究院;國網浙江省電力有限公司,未經國網浙江省電力有限公司電力科學研究院;華北電力大學;國網江蘇省電力有限公司電力科學研究院;國網浙江省電力有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210538012.4/1.html,轉載請聲明來源鉆瓜專利網。





