[發明專利]基于電力專業詞庫的企業級知識圖譜搜索引擎的實現方法在審
| 申請號: | 201711131304.1 | 申請日: | 2017-11-15 |
| 公開(公告)號: | CN107908738A | 公開(公告)日: | 2018-04-13 |
| 發明(設計)人: | 胡勇;陳達;吳延慶 | 申請(專利權)人: | 昆明能訊科技有限責任公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27;G06Q50/06 |
| 代理公司: | 昆明大百科專利事務所53106 | 代理人: | 何健 |
| 地址: | 650206 云南省昆明市經濟技術開發區云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 電力 專業 詞庫 企業級 知識 圖譜 搜索引擎 實現 方法 | ||
1.基于電力專業詞庫的企業級知識圖譜搜索引擎的實現方法,其特征在于,具體實現流程如下:
1)電網主題域建模,即完成電網設備運行相關的資產域業務數據包括:缺陷、巡視、試驗、狀態評價、大修技改數據;調度scada數據,計量自動化數據,GIS拓撲數據即電氣連接關系數據,氣象監測數據,變電包括油色譜、局放、容性的監測數據,人資系統數據包括供電局、部門、班組、人員、財務系統數據建模;將所述數據源根據類型進行數據整合,得到集合S={S1,S2,……,Sn},其中n屬于正整數,n為確定的主題域個數,構成知識圖譜的內容;Si根據相關主題域的數據,i屬于正整數,且i∈[1,n],得到Et1∈Si,Et2∈Si,……Etm∈Si,其中Et為Si主題域的實體E在t時刻產生的數據,m屬于正整數,t屬于正數,且t>0;
2)電網主題域實體識別,對電網設備的關聯關系信息梳理,按照不同的主題,分別構建實例集合E={E1,E2,…Ee},其中e屬于正整數,且e∈[1,n],比如S4代表人資主題域,E1組織機構實體,E2部門實體,E3班組實體,E4人員實體;
3)電網主題域實體屬性識別,對實體對象的屬性進行整合,構建實體的屬性集合P={P1,P2,…Px},其中x屬性正整數,且x∈[1,n],比如人員實體時,P={P1(身份證號)、P2(崗位)、P3(郵箱)、P4(電話)、P5(專業技能水平)}等集合信息;
4)電網主題域實體關系識別,構建電網主題域的所有實體對象之間的關系集合R={R1,R2,…Ry},其中y屬性正整數,且y∈[1,n],比如Si代表電網生產主題域時,R1(設備消缺關系)=(E1(人員),E2(設備實體)),其中R1的關系方向為E1->E2,代表業務信息為人員對設備開展消缺操作;
5)電網實體關系屬性識別,構建實體關系的屬性集合Rp={Rp1,Rp2,…Rpz},其中z屬性正整數,且z∈[1,n],及針對R1(設備消缺關系)的屬性結合Rp={Rp1(缺陷表象),Rp2(缺陷部位),Rp3(缺陷原因),Rp2(缺陷處理措施),Rpz},代表該關系對應的屬性信息;
6)電網全業務域知識圖譜化;基于上述1、2、3、4、5步驟的梳理,通過圖數據庫,實現實例、關系、屬性的固化存儲,構架電網域的網絡知識圖譜,實現電網全業務域知識的圖譜化管理;
7)采用IK分詞器構建搜索引擎的中文分詞器,IK分詞器,分為ik_max_word、ik_smart分詞器ik_max_word:會將文本做最細粒度的拆分Eq:“XX,供電局,供電,局”ik_smart:會做最粗粒度的拆分Eq:“XX,供電局”;
8)構建電力專業詞庫,梳理和固化電力行業的專業詞庫,輔助搜索引擎的分析和NLP自然語言處理;
9)實現基于電力專業詞庫,集合IK分詞器的決策樹隨機森林算法,實現知識圖譜數據的搜索匹配,主要包含NLP自然語言處理,實例的識別、關系關鍵之識別,屬性識別,最終返回相關對象的知識圖譜;比如XX供電局管轄的XX變電站所屬的XX變壓器的消缺信息==》XX供電局(實體)管轄(關系)的XX變電站(實體)所屬(關系)的XX變壓器(實體)的消缺信息(關系)。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明能訊科技有限責任公司,未經昆明能訊科技有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711131304.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:文件拆分控制方法和裝置
- 下一篇:交感神經心肺神經調節系統和方法





