[發明專利]一種電力知識庫構建方法及系統有效
| 申請號: | 202010630117.3 | 申請日: | 2020-07-03 |
| 公開(公告)號: | CN111831792B | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 田然;蘇楊;龐淵源;陳軒;顧彬;王磊;吳子辰;李霽軒;陳鑫;朱曉鴻;王鑫;于廣榮 | 申請(專利權)人: | 國網江蘇省電力有限公司信息通信分公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/151;G06F40/289;G06F40/295;G06K9/62 |
| 代理公司: | 南京縱橫知識產權代理有限公司 32224 | 代理人: | 史俊軍 |
| 地址: | 210024 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電力 知識庫 構建 方法 系統 | ||
1.一種電力知識庫構建方法,其特征在于:包括,
對語料進行預處理,獲得語料文本;
響應于語料文本為非結構化文本,將語料文本輸入預先訓練的命名實體識別模型,對語料文本中命名實體進行識別;
將命名實體識別后的語料文本輸入預先訓練的命名實體關系抽取模型,獲得命名實體關系數據;命名實體關系數據包括存在關系的命名實體對、命名實體間的關系詞,命名實體關系抽取模型包括第一抽取模型和第二抽取模型;先通過第一抽取模型從語料文本中抽取命名實體間的關系詞,由關系詞再通過第二抽取模型反向搜索語料文本中對應的命名實體對;
將命名實體關系數據進行存儲,構建電力知識庫。
2.根據權利要求1所述的一種電力知識庫構建方法,其特征在于:響應于語料文本為非結構化文本,將語料文本輸入預先訓練的命名實體識別模型,對語料文本中命名實體進行識別;響應于語料文本為結構化文本,根據結構信息,獲得語料文本中的命名實體關系數據。
3.根據權利要求1所述的一種電力知識庫構建方法,其特征在于:對原始語料進行預處理,獲得語料文本的過程為,
對語料進行編碼轉換;
將編碼轉換后的語料進行繁簡轉換;
響應于繁簡轉換后的語料為結構化數據,繁簡轉換后的語料為語料文本;
響應于繁簡轉換后的語料為非結構化數據,對繁簡轉換后的語料依次進行分句、去重、中文分詞,獲得語料文本。
4.根據權利要求1所述的一種電力知識庫構建方法,其特征在于:將命名實體關系數據進行存儲,構建電力知識庫的過程為,
將命名實體關系數據存儲至圖數據庫;
基于圖的機器學習方法對存儲的圖譜進行補全,得到電力知識庫。
5.一種電力知識庫構建系統,其特征在于:包括,
預處理模塊:對語料進行預處理,獲得語料文本;
實體識別模塊:響應于語料文本為非結構化文本,將語料文本輸入預先訓練的命名實體識別模型,對語料文本中命名實體進行識別;
實體關系抽取模塊:將命名實體識別后的語料文本輸入預先訓練的命名實體關系抽取模型,獲得命名實體關系數據;命名實體關系數據包括存在關系的命名實體對、命名實體間的關系詞,命名實體關系抽取模型包括第一抽取模型和第二抽取模型,先通過第一抽取模型從語料文本中抽取命名實體間的關系詞,由關系詞再通過第二抽取模型反向搜索語料文本中對應的命名實體對;
存儲模塊:將命名實體關系數據進行存儲,構建電力知識庫。
6.一種存儲一個或多個程序的計算機可讀存儲介質,其特征在于:所述一個或多個程序包括指令,所述指令當由計算設備執行時,使得所述計算設備執行根據權利要求1至4所述的方法中的任一方法。
7.一種計算設備,其特征在于:包括,
一個或多個處理器、存儲器以及一個或多個程序,其中一個或多個程序存儲在所述存儲器中并被配置為由所述一個或多個處理器執行,所述一個或多個程序包括用于執行根據權利要求1至4所述的方法中的任一方法的指令。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網江蘇省電力有限公司信息通信分公司,未經國網江蘇省電力有限公司信息通信分公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010630117.3/1.html,轉載請聲明來源鉆瓜專利網。





