[發明專利]一種電力系統二次設備故障短文本數據分類方法在審
| 申請號: | 202010608271.0 | 申請日: | 2020-06-30 |
| 公開(公告)號: | CN111767397A | 公開(公告)日: | 2020-10-13 |
| 發明(設計)人: | 南東亮;張路;于永軍;王曉飛;楊利民;張良武;周杰;王利超;孫永輝;譚金龍;王暢;王斌春;楊延棟;劉威麟 | 申請(專利權)人: | 國網新疆電力有限公司電力科學研究院;國家電網有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/242;G06F40/30;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 南京中律知識產權代理事務所(普通合伙) 32341 | 代理人: | 李建芳 |
| 地址: | 830011 新疆維吾爾自治區烏魯木齊*** | 國省代碼: | 新疆;65 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電力系統 二次 設備 故障 文本 數據 分類 方法 | ||
1.一種電力系統二次設備故障短文本數據分類方法,其特征在于:包括對二次設備短文本數據建立LDA主題模型和基于卷積神經網絡構建二次設備故障短文本信息分類模型,步驟如下:
(1)建立樣本數據集,采集電力系統中二次設備在運行過程中產生的故障短文本數據,所述故障短文本數據按成不同的缺陷等級進行標記,并將故障短文文本數據劃分為訓練集、驗證集和測試集;
(2)文本預處理,構建停用詞詞典和二次設備專業詞典,所述的停用詞詞典用于過濾去除二次設備故障短文本信息中的噪聲,所述的噪聲為二次設備故障短文本信息中無實際物理意義的詞匯和標點符號;所述的二次設備專業詞典用于識別二次設備的屬性數據,所述的屬性數據包括二次設備的名稱、型號、廠站名稱和路線名稱;
(3)對二次設備短文本數據建立LDA主題模型,包括對二次設備短文本數據進行LDA主題模型特征表示,對主體模型參數進行Gibbs采樣估計,輸出語料庫中任意文本的主題-詞語矩陣;
(4)對二次設備短文本數據進行詞向量特征表示,使用Skip-gram模型作為詞向量的訓練器,將二次設備故障短文本信息經過預處理后作為輸入,輸出詞向量,構建詞向量矩陣;
(5)詞向量拼接,根據步驟(3)得到的LDA主題-詞語矩陣和步驟(4)得到的詞向量矩陣,進行向量拼接,歸一化處理得到同時包含潛在詞義特征與主題特征的詞向量,作為卷積神經網絡的輸入;
(6)構建卷積神經網絡二次設備故障短文本信息分類模型,將步驟(5)以主題特征與潛在語義特征相結合得到的新的詞向量作為模型的輸入,采用Softmax分類器對二次設備故障短文本數據的特征向量進行分類,并輸出最終的分類結果。
2.根據權利要求1所述的電力系統二次設備故障短文本數據分類方法,其特征在于:步驟(1)中二次設備故障短文本數據的缺陷等級包括“嚴重缺陷”、“危急缺陷”、“一般缺陷”,按照7:2:1的比例對二次設備故障短文本數據劃分為訓練集、驗證集和測試集。
3.根據權利要求1所述的電力系統二次設備故障短文本數據分類方法,其特征在于:步驟(2)通過構建停用詞詞典過濾對故障描述無實際意義的噪聲,故障短文本的噪聲中無實際意義的詞匯包括介詞、連詞、副詞和形容詞;通過構建二次設備專有詞典,對故障信息中出現的二次設備的名稱、型號、廠站和路線名稱的低頻詞語與專有名詞進行語義識別、劃分。
4.根據權利要求1所述的電力系統二次設備故障短文本數據分類方法,其特征在于:步驟(3)具體如下:
(31)初始化主題模型的參數先驗參數文檔-主題分布參數α與主題-詞分布參數β以及主題數量K;
(32)遍歷任一條二次設備故障短文本數據,按照詞語分類,對于其中每一個詞語wi按照其相鄰詞列表Li,構建θi=Dirichlet(α),其中θi表示文檔-主題分布;
(33)對于每一個潛在的詞語集合Z,假設滿足Dirichlet先驗分布,計算公式為φZ=Dirichlet(β),其中φZ表示詞語屬于主題的概率分布,得到主題-詞分布;
(34)對于Li中的每個詞語wi選擇潛在詞語Zj是服從θi的多項分布,選擇wi是服從的多項分布;得到文檔形式表示的短文本,將二次設備短文本數據進行主題推斷,推斷的計算表達式如下:
其中,fd(wi)為文檔中詞的詞頻,len(d)為短文本d的長度;
(35)將文檔生成詞語的主題分布的期望作為文檔生成主題的分布,計算表達式如下所示:
其中P(z|d)表示文本生成詞語的概率,Wd表示短文本集,P(z|wi)表示詞語生成主題的概率;
(36)完成LDA主題生成模型,對主體模型參數進行Gibbs采樣估計,設置迭代次數,模型訓練結束后,輸出語料庫中任意文本的主題-詞語矩陣。
5.根據權利要求1所述的電力系統二次設備故障短文本數據分類方法,其特征在于:步驟(6)所述的卷積神經網絡二次設備故障短文本信息分類模型包括輸入層、卷積層、池化層和輸出層,具體如下:
第一層為輸入層:選取待分類文本數據、依照步驟(5)完成對文本數據的向量化,輸出矩陣I∈Rm×n,m為文本的詞數即輸入層的行數,n為文本向量的維數即輸入層的列數,按照步驟(5)的劃分,將每個詞數據劃分為維數相等詞向量,從而使輸入層的列數相等,從而形成矩陣I∈Rm×n,在訓練過程中,依靠隨機梯度下降法對詞向量進行調整;
第二層為卷積層:選擇不同尺寸的卷積核,其中每個尺寸的卷積核有多個,分別對輸入層輸入的矩陣I∈Rm×n進行卷積運算從而提取出輸入層的矩陣特征,得到卷積結果向量ri,(i=1,2,3,4,5,6,L),公式如下所示:
ri=W·Ii:i+h-1
其中矩陣W表示權重系數,“·”表示點乘運算;
再將卷積結果通過激活函數ReLU激活,進行非線性處理,得到結果ci,公式如下所示:
ci=ReLU(ri+b)
將ci,依照從左到右,從上到下的順序,得到卷積層向量c∈Rs-h+1,公式如下:
c=[c1,c2,K,cs-h+1]
第三層為池化層:采用最大池化法進行池化,依據卷積層所提取的結果向量c∈Rs-h+1中最大的元素提取出作為特征值pj,(j=1,2,3,4,5,6,L,n)并將所有特征值pj依次拼接為向量p∈Rn×1輸入到第四層輸出層,向量p代表文本數據的全局特征的向量;
第四層為輸出層:將池化層與輸出層進行全連接,以池化層的向量p作為輸入,采用Softmax分類器對向量p進行分類,并輸出最終的分類結果;Softmax分類計算概率如下:
其中函數L(pj)表示屬于二次設備類別的概率,選擇概率最大的結果,輸出二次設備故障的缺陷等級。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網新疆電力有限公司電力科學研究院;國家電網有限公司,未經國網新疆電力有限公司電力科學研究院;國家電網有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010608271.0/1.html,轉載請聲明來源鉆瓜專利網。





