[發明專利]一種電力設備故障缺陷文本命名實體的抽取方法及裝置有效
| 申請號: | 202110742874.4 | 申請日: | 2021-06-30 |
| 公開(公告)號: | CN113343701B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 陳鵬;金楊;邰彬;楊賢;汪進鋒;黃楊玨;姚瑤 | 申請(專利權)人: | 廣東電網有限責任公司;廣東電網有限責任公司電力科學研究院 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/216;G06N3/04;G06N3/08 |
| 代理公司: | 廣州三環專利商標代理有限公司 44202 | 代理人: | 陳旭紅;鐘文瀚 |
| 地址: | 510000 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電力設備 故障 缺陷 文本 命名 實體 抽取 方法 裝置 | ||
本發明公開了一種電力設備故障缺陷文本命名實體的抽取方法及裝置,包括:獲取電力設備的缺陷文本,并所述缺陷文本進行預處理,得到標準化文本數據;采用詞典的方法,進行I類實體信息抽取,其中,所述I類實體信息包括:設備名、部件名、故障類型、故障等級和電壓等級;采用LTP工具,進行II類實體信息抽取,其中,所述II類實體信息包括:生產時間和投運時間;采用Bert-CRF算法,進行III類實體信息抽取,其中,所述III類實體信息包括:線路名和廠家名;將所述I類實體信息、II類實體信息和III類實體信息輸出,獲得命名實體的抽取結果。本發明能夠提供提高電力設備故障缺陷文本命名實體的抽取的準確率與效率。
技術領域
本發明涉及機器學習技術領域,特別是涉及一種電力設備故障缺陷文本命名實體的抽取方法、裝置、終端和存儲介質。
背景技術
在電力系統的檢修與維護過程中積累了大量的故障案例,是一些與電力設備相關的半結構化和非結構化文本數據,在整個電力領域中占比高達80%以上。電力領域積累的缺陷文本蘊含著與電力設備運行狀態和電網安全高度相關的關鍵信息,但目前只有少量文本數據得以挖掘利用。通過自然語言處理技術,可以對海量電力缺陷文本進行處理,從而挖掘出設備名、故障類型等有效故障信息,為電力系統的故障診斷、運行維護和狀態檢修等提供更為有效的依據和指導。
目前,現有的實體抽取方法都是采用單一的抽取方法,但是,由于電力設備實體類別繁多,特征差異大,尤其部分實體具有可擴展性,現有的方法并不能抽取電力故障缺陷文本中所有的實體。
發明內容
本發明的目的是:提供一種電力設備故障缺陷文本命名實體的抽取方法、裝置、終端和存儲介質,能夠提供提高電力設備故障缺陷文本命名實體的抽取的準確率與效率。
為了實現上述目的,本發明提供了一種電力設備故障缺陷文本命名實體的抽取方法,包括:
S1、獲取電力設備的缺陷文本,并針對所述缺陷文本進行預處理,得到標準化文本數據;
S2、采用詞典的方法,進行I類實體信息抽取,其中,所述I類實體信息包括:設備名、部件名、故障類型、故障等級和電壓等級;
S3、采用LTP工具,進行II類實體信息抽取,其中,所述II類實體信息包括:生產時間和投運時間;
S4、采用Bert-CRF算法,進行III類實體信息抽取,其中,所述III類實體信息包括:線路名和廠家名;
S5、將所述I類實體信息、II類實體信息和III類實體信息輸出,獲得命名實體的抽取結果。
進一步地,所述S1,包括:
S11、根據預設的規則,剔除所述缺陷文本中沒有實際含義的詞;
S12、采用正則表達式,剔除所述缺陷文本中的特殊符號,其中,所述特殊符號包括:標點符號、數字及特殊字符。
進一步地,所述S2,包括:
S21、導入預設的詞典集和所述標準化文本數據;
S22、對所述詞典集中每個詞典指定一類實體標簽;
S23、遍歷所述詞典集中的所有詞典;
S24、遍歷當前詞典中的每一個詞語,并判斷詞語是否出現在所述標準化文本數據;若是,則將所述詞語記為所述標準化文本數據的I類實體,若否,則進入S25;
S25、判斷當前詞典是否遍歷結束,若是,則進入S26,若否,則進入S24;
S26、判斷所述詞典集中的所有詞典是否遍歷結束,若是,則結束I類實體信息抽取,若否,則進入S23。
進一步地,所述S3,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司;廣東電網有限責任公司電力科學研究院,未經廣東電網有限責任公司;廣東電網有限責任公司電力科學研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110742874.4/2.html,轉載請聲明來源鉆瓜專利網。





