[發明專利]一種基于知識圖譜的電力資產異構數據融合方法在審
| 申請號: | 201910835205.4 | 申請日: | 2019-09-05 |
| 公開(公告)號: | CN110674311A | 公開(公告)日: | 2020-01-10 |
| 發明(設計)人: | 楊勇;歐陽俊;杜治;鄢晶;陳竹;鄭旭;鄭云飛;熊志;張籍;張俊;袁紅霞;涂雅麗 | 申請(專利權)人: | 國家電網有限公司;國網湖北省電力有限公司經濟技術研究院;武漢大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06Q50/06 |
| 代理公司: | 42229 武漢市首臻知識產權代理有限公司 | 代理人: | 高琴 |
| 地址: | 100031 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 電力資產 結構化數據 圖譜模型 融合 抽取 比較法 多源異構數據 非結構化數據 多數據源 可擴展性 可維護性 命名實體 屬性關系 數據包括 算法計算 異構數據 知識融合 知識實體 對齊 構建 圖譜 采集 | ||
1.一種基于知識圖譜的電力資產異構數據融合方法,其特征在于:
所述方法依次包括以下步驟:
步驟A、構建電力資產知識圖譜模型;
步驟B、先采集各類電力資產數據,再通過電力資產知識圖譜模型抽取電力資產數據中的知識,實現數據的融合規范,其中,所述電力資產數據包括結構化數據、半結構化數據以及非結構化數據;
步驟C、采用基于命名實體屬性關系的相似性比較法和實體對齊算法計算所抽取的知識實體之間的關系,并進行多數據源知識融合。
2.根據權利要求1所述的一種基于知識圖譜的電力資產異構數據融合方法,其特征在于:
所述步驟B中,
對于結構化數據,采用MPP采集模型進行數據采集并構建正則表達式進行知識抽取,其中,所述結構化數據包括電力公司相關部門的運檢、營銷、物資數據;
對于半結構化數據,先采用Hadoop大數據技術進行數據采集,然后通過正則表達式和數據指標抽取實體,其中,所述半結構化數據為電網監測數據;
對于非結構化數據,先采用Hadoop大數據技術進行數據采集,然后利用基于語義標注的POS-CBOW關聯模型算法抽取其知識實體、關系和屬性,其中,所述非結構化數據為電力資產和設備的文本圖像數據。
3.根據權利要求2所述的一種基于知識圖譜的電力資產異構數據融合方法,其特征在于:
對于結構化數據,所述構建正則表達式進行知識抽取是指:先從采集的結構化數據中提取有用信息,再將這些信息轉換成XML文件,然后根據電力資產知識圖譜模型、通過遞歸算法將XML文件轉換成RDF文件;
對于非結構化數據,利用基于語義標注的POS-CBOW關聯模型算法抽取其知識實體、關系和屬性依次包括以下步驟:
步驟B1、結合電力資產領域知識和模式設定非結構化短語的模式以對非結構化數據進行分詞;
步驟B2、采用POS-CBOW關聯模型算法對分割的詞匯進行去除冗余,以獲取相應的實體、關系和屬性:
上式中,Sim(Vi,Vj)為兩個不同的實體Vi和Vj的余弦相似度,Set(Vi,Vj)為Vi和Vj的詞性相似度,depthVi為實體Vi的等級,Dist(Vi,Vj)為Vi和Vj二者在等級樹中的距離。
4.根據權利要求1-3中任一項所述的一種基于知識圖譜的電力資產異構數據融合方法,其特征在于:
所述步驟C依次包括以下步驟:
步驟C1、對抽取的知識實體進行分組;
步驟C2、先選取各組對象的屬性,再通過動態規劃算法計算同組中兩實體各屬性的編輯距離,以獲取屬性相似度:
上式中,D(i,j)為屬性i變換到屬性j的最小編輯距離,M為屬性j的字符個數,N為屬性i的字符個數,+1表示插入、刪除、替換操作的代價;
步驟C3、先根據步驟C2得到的屬性相似度設定來自同組不同數據源的同類別命名實體str和str1的各屬性權重,然后計算實體str和str1所有屬性的加權值,并通過加權值判定實體str和str1是否為相似實體對,若是,則將str1的全部關系替換為str的關系后去掉str1,再對str的全部關系進行去重操作,以完成實體對齊以及關系的融合,其中,所述關系包括層次關系、屬性關系和語義關系。
5.根據權利要求1-3中任一項所述的一種基于知識圖譜的電力資產異構數據融合方法,其特征在于:
所述步驟A采用自頂向下的方式構建電力資產知識圖譜模型,具體為:
采用Protégé本體構建工具,首先定義電力資產領域的知識、概念定義和概念之間的關系,再定義各個基本類,通過父類和子類來定義類層次,并將所有的細化類進行合并,然后分別對對象屬性和數據類型屬性進行定義和約束。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國家電網有限公司;國網湖北省電力有限公司經濟技術研究院;武漢大學,未經國家電網有限公司;國網湖北省電力有限公司經濟技術研究院;武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910835205.4/1.html,轉載請聲明來源鉆瓜專利網。





