[發(fā)明專利]用于設備缺陷分類的實現(xiàn)方法及系統(tǒng)有效
| 申請?zhí)枺?/td> | 202110988404.6 | 申請日: | 2021-08-26 |
| 公開(公告)號: | CN113704470B | 公開(公告)日: | 2023-08-25 |
| 發(fā)明(設計)人: | 劉建華;孟禹;劉良潔;林濤 | 申請(專利權(quán))人: | 佰聆數(shù)據(jù)股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35 |
| 代理公司: | 廣州市華學知識產(chǎn)權(quán)代理有限公司 44245 | 代理人: | 林梅繁 |
| 地址: | 510663 廣東省廣州市高新技術(shù)產(chǎn)業(yè)開*** | 國省代碼: | 廣東;44 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 用于 設備 缺陷 分類 實現(xiàn) 方法 系統(tǒng) | ||
1.用于設備缺陷分類的實現(xiàn)方法,其特征在于,包括以下步驟:
步驟S1、獲取文本數(shù)據(jù),并對文本數(shù)據(jù)進行預處理,所獲取的文本數(shù)據(jù)包括設備類別、缺陷描述信息和缺陷類型信息;
步驟S2、基于BERT模型對預處理后的文本數(shù)據(jù)進行訓練,得到初始化BERT模型;
步驟S3、通過調(diào)整模型參數(shù)和修改樣本標注數(shù)據(jù)對初始化BERT模型進行優(yōu)化;
步驟S4、利用優(yōu)化后的BERT模型對設備缺陷數(shù)據(jù)進行預測,得到設備缺陷分類結(jié)果;
步驟S5、基于約束規(guī)則對BERT模型預測后的結(jié)果進行二次優(yōu)化,得到最終的分類結(jié)果。
2.根據(jù)權(quán)利要求1所述的實現(xiàn)方法,其特征在于,步驟S1包括:
S11、建立缺陷詞庫;
S12、將文本數(shù)據(jù)的內(nèi)容按分隔符進行切分,切分后得到多個分段文本;
S13、判斷切分后的各分段文本是否為有價值的內(nèi)容描述;假如某分段文本不包含缺陷詞庫的描述,則該分段文本的內(nèi)容被視為無價值的描述,將其舍棄;
S14、將有價值的分段文本重新組合,得到最終預處理后的文本數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的實現(xiàn)方法,其特征在于,步驟S2包括:
S21、獲取預處理后的文本數(shù)據(jù),將缺陷類型信息按預設數(shù)量劃分得到均勻分布的樣本數(shù)據(jù),將樣本數(shù)據(jù)按比例分為訓練集、驗證集和測試集;
S22、將缺陷描述信息轉(zhuǎn)換為BERT模型所需的特征向量,所述特征向量包括詞向量、分段向量和位置向量;
S23、輸入特征向量和相應的模型參數(shù),用BERT模型對文本數(shù)據(jù)進行訓練,得到文本數(shù)據(jù)的標簽得分;
S24、根據(jù)設備類別和標簽得分對分類結(jié)果進行優(yōu)化;
S25、驗證模型的準確率,并保存模型。
4.根據(jù)權(quán)利要求3所述的實現(xiàn)方法,其特征在于,步驟S4包括:
S401、獲取原始數(shù)據(jù),其數(shù)據(jù)字段包含設備類別、缺陷描述信息;
S402、讀取缺陷詞庫,并將缺陷詞庫定義為一個集合P;
S403、讀取缺陷描述信息轉(zhuǎn)換后的特征向量,依據(jù)轉(zhuǎn)換成向量的方法,把集合P的所有缺陷詞庫都轉(zhuǎn)化為向量值;
S404、讀取對文本數(shù)據(jù)預處理后需要預測的詞語,對其進行向量化,定義集合Q;
S405、定義相關(guān)性算法,通過計算角度距離判斷詞語的相關(guān)性;
S406、針對需要預測的詞語和缺陷詞語進行逐個判斷,找出相關(guān)性大的詞語,然后通過反向溯源找到缺陷詞語所在的句子;
S407、定義與出現(xiàn)在句子中的缺陷詞庫里的詞語相關(guān)的詞語作為相關(guān)詞;
S408、根據(jù)相關(guān)詞定義相關(guān)詞的詞庫集合CP,并對詞庫集合CP進行向量化;
S409、針對句子拆分出來的詞集合W,刪除缺陷詞庫的集合P出現(xiàn)的詞,把剩余的詞與詞庫集合CP進行角度距離大小的計算;
S410、對某個句子,根據(jù)角度距離大小判斷相關(guān)性,篩選出有接近相關(guān)性詞語的詞的句子;
S411、對缺陷詞語的頻度進行調(diào)查,統(tǒng)計出含有缺陷詞語和相關(guān)性詞語在一批句子中的頻度。
5.根據(jù)權(quán)利要求4所述的實現(xiàn)方法,其特征在于,步驟S405的相關(guān)性算法計算如下:
式中P代表集合P里某個缺陷詞的向量,Q代表集合Q里某個需要預測的詞語的向量,β為P、Q兩個向量的夾角。
6.根據(jù)權(quán)利要求4所述的實現(xiàn)方法,其特征在于,步驟S411中頻度的統(tǒng)計方法為:
定義一個頻度集合Z(Fi),設出現(xiàn)缺陷詞語的句子條數(shù)為n,這些出現(xiàn)缺陷詞語的句子中含有多個相關(guān)缺陷詞語個數(shù)為L,相關(guān)詞在全文中出現(xiàn)的次數(shù)為num,所統(tǒng)計的句子總條數(shù)為fnum,被標記為告警級別和以上級別的句子條數(shù)為T,定義公式如下:
其中,i=1,2,3,...,n,通過以上公式統(tǒng)計出含有缺陷和相關(guān)詞語在一批句子中的頻度Hertzi。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于佰聆數(shù)據(jù)股份有限公司,未經(jīng)佰聆數(shù)據(jù)股份有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110988404.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





