[發(fā)明專利]一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法在審
| 申請(qǐng)?zhí)枺?/td> | 202010733364.6 | 申請(qǐng)日: | 2020-07-27 |
| 公開(kāi)(公告)號(hào): | CN111857097A | 公開(kāi)(公告)日: | 2020-10-30 |
| 發(fā)明(設(shè)計(jì))人: | 李少森;梁鈺華;孫豪;黃劍湘;楊光;李浩;張啟浩;任君;楊鋮;丁丙侯 | 申請(qǐng)(專利權(quán))人: | 中國(guó)南方電網(wǎng)有限責(zé)任公司超高壓輸電公司昆明局 |
| 主分類號(hào): | G05B23/02 | 分類號(hào): | G05B23/02;G06F40/289 |
| 代理公司: | 北京國(guó)昊天誠(chéng)知識(shí)產(chǎn)權(quán)代理有限公司 11315 | 代理人: | 王華強(qiáng) |
| 地址: | 650217 云南省*** | 國(guó)省代碼: | 云南;53 |
| 權(quán)利要求書(shū): | 查看更多 | 說(shuō)明書(shū): | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 詞頻 文檔 頻率 系統(tǒng) 異常 診斷 信息 識(shí)別 方法 | ||
1.一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,包括以下步驟:
步驟1:建立診斷命令的響應(yīng)語(yǔ)料庫(kù):向被測(cè)系統(tǒng)發(fā)送診斷命令N次,將獲得的N份回顯報(bào)文按時(shí)間順序排列,作為診斷命令的響應(yīng)語(yǔ)料庫(kù);
步驟2:再次向被測(cè)系統(tǒng)發(fā)送診斷命令,獲得第N+1份回顯報(bào)文,將所述第N+1份回顯報(bào)文添加至步驟1建立的診斷命令響應(yīng)語(yǔ)料庫(kù)的最后;
步驟3:對(duì)N+1份回顯報(bào)文進(jìn)行過(guò)濾停用詞、分詞處理;
步驟4:利用TF-IDF詞頻與逆文檔頻率算法,計(jì)算N+1份回顯報(bào)文中每組文本列表中每個(gè)詞的逆文檔頻率IDF;
步驟5:設(shè)置最低逆文檔頻率閾值IDFmin,步驟4中計(jì)算的每組文本列表的詞的逆文檔頻率IDF若小于等于IDFmin值,則予以刪除;
步驟6:將步驟5完成過(guò)濾的N+1份回顯報(bào)文的文本列表向量化:提取出N+1組文本列表內(nèi)的所有詞組,去除重復(fù)后獲得長(zhǎng)度為M的詞組表V,其中M等于完成去除重復(fù)過(guò)濾的詞組總數(shù),V代表完成過(guò)濾的N+1組文本列表內(nèi)出現(xiàn)的所有詞組,然后將完成過(guò)濾的N+1組文本列表按V中詞匯的排序?qū)ξ谋玖斜淼脑~重新排序,然后詞組轉(zhuǎn)換為向量,向量大小為該詞在該回顯報(bào)文中出現(xiàn)的次數(shù),并計(jì)算出詞頻值
步驟7:設(shè)置詞頻閾值tfmax,將步驟6計(jì)算出來(lái)的詞頻值值與設(shè)置的詞頻閾值tfmax進(jìn)行比較,若則識(shí)別為異常報(bào)文,并輸出告警信息。
2.根據(jù)權(quán)利要求1所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述步驟1中的診斷命令發(fā)送時(shí)間間隔為T,T的取值范圍根據(jù)診斷命令返回結(jié)果可能發(fā)生變化的時(shí)間范圍而定,在系統(tǒng)資源不會(huì)突變的情況下T的取值范圍為1~30天;在網(wǎng)絡(luò)通道隨時(shí)可能中斷的情況下T的取值范圍為1s~24h。
3.根據(jù)權(quán)利要求1所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述步驟3中停用詞包括日期和時(shí)間。
4.根據(jù)權(quán)利要求3所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述日期格式為yyy-mm-dd,時(shí)間格式為hh:mm:ss、h:mm。
5.根據(jù)權(quán)利要求1所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述步驟3中分詞處理具體為:以空格作為分隔符,將N+1組命令回顯分割成若干詞組,組成N+1組一維文本列表。
6.根據(jù)權(quán)利要求1所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述步驟4中IDF的計(jì)算公式為:
7.根據(jù)權(quán)利要求1所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述步驟5中IDFmin≥1。
8.根據(jù)權(quán)利要求1所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述步驟6中,詞頻值的計(jì)算方法為:N+1組文本列表內(nèi)的所有詞組,去除重復(fù)后獲得長(zhǎng)度為M的詞組表V,其中M等于完成去除重復(fù)過(guò)濾的詞組總數(shù),V代表完成過(guò)濾的N+1組文本列表內(nèi)出現(xiàn)的所有詞組,然后將完成過(guò)濾的N+1組文本列表按V中詞匯的排序?qū)ξ谋玖斜淼脑~重新排序,然后詞組轉(zhuǎn)換為向量,向量大小為該詞在其所在回顯報(bào)文中出現(xiàn)的次數(shù),將獲得(N+1)x(M)矩陣A,設(shè)aij為矩陣A第i行j列的元素,則對(duì)于第N+1組文本列表內(nèi)每個(gè)元素a(N+1)j,其詞頻定義為:
9.根據(jù)權(quán)利要求1所述的一種基于詞頻與逆文檔頻率的工控系統(tǒng)異常診斷信息識(shí)別方法,其特征在于,所述步驟7中的tfmax的取值范圍為0.2~0.5。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)南方電網(wǎng)有限責(zé)任公司超高壓輸電公司昆明局,未經(jīng)中國(guó)南方電網(wǎng)有限責(zé)任公司超高壓輸電公司昆明局許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010733364.6/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 基于互聯(lián)網(wǎng)信息的輸入法詞頻庫(kù)的生成方法和系統(tǒng)
- 基于用戶特性的詞頻庫(kù)的生成方法
- 詞典生成裝置以及信息檢索裝置
- 一種數(shù)字出版物詞匯抽取、顯示方法和系統(tǒng)
- 一種基于互聯(lián)網(wǎng)詞頻的城市認(rèn)知地圖生成方法
- 熱詞詞組提取方法和系統(tǒng)
- 文本相似度確定方法、裝置、設(shè)備和存儲(chǔ)介質(zhì)
- 基于詞頻的文本特征加權(quán)及短文本相似性計(jì)算方法、系統(tǒng)和介質(zhì)
- 一種輸入的方法及相關(guān)裝置
- 自動(dòng)回復(fù)生成方法、裝置及智能設(shè)備
- 一種電子文檔識(shí)別方法及裝置
- 文檔匹配方法和文檔匹配裝置
- 復(fù)雜文檔分離組織方法以及復(fù)雜文檔自動(dòng)生成方法
- 一種文檔流程控制方法及裝置
- 云文檔加密及解密方法、加密及解密裝置、以及處理系統(tǒng)
- 一種將Markdown文檔轉(zhuǎn)換為PDF文檔的方法、裝置
- 文檔類型識(shí)別方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 基于文檔編輯軟件的文檔處理方法、裝置、設(shè)備及介質(zhì)
- 一種引用文檔的更新方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 文檔操作錄制方法、文檔操作動(dòng)畫生成方法、裝置及設(shè)備





