[發明專利]一種基于電力本體知識庫的電力信息檢索方法有效
| 申請號: | 202011637617.6 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112765314B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 彭澤武;萬嬋;楊秋勇;梁盈威;吳金銘;王海明;王柳佳 | 申請(專利權)人: | 廣東電網有限責任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295;G06N3/044;G06N3/049;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 賈小慧 |
| 地址: | 510600 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 電力 本體 知識庫 信息 檢索 方法 | ||
本發明提供了一種基于電力本體知識庫的電力信息檢索方法。將電力文本信息按照預設比例分為訓練樣本、驗證樣本和測試樣本,電力本體知識庫采用特定的關聯匹配度算法實現電力文本的電力信息檢索。本發明針對性的給出不同實體之間的聯系與知識庫檢索結果,對于實體識別任務,具有較強的魯棒性和較高的準確率;對于關系抽取任務,其抽取過程具有很強的適普性;對于知識庫的檢索任務,具有較高的準確率。
技術領域
本發明涉及,具體涉及一種基于電力本體知識庫的電力信息檢索方法。
背景技術
大數據時代帶來的科技創新對于電力公司這種產生數據量大,數據內涵豐富的企業帶來了很大的發展機遇。電力系統領域的非結構數據占比高,這類數據的價值常常不能被顯式地表達出來,但是卻具有巨大的潛在價值。此外,傳統固化的業務查詢方式難以響應靈活的數據查詢需求。常出現一個急需的業務數據查詢,因為系統有的查詢不能支持,所以必須等待應用升級或功能完善的情況,影響了決策的及時性,也嚴重束縛了業務人員對信息的主動查詢的需求,影響了業務人員主動靈活分析數據獲取價值信息的工作。因此,科學合理地抽取電力非結構化的文本數據信息和挖掘其中深層次的抽象內涵,構建電力本體知識庫,對于輔助電力科學研究和指導生產實踐具有巨大的實際意義。
針對電力領域的文本挖掘與信息抽取,準確識別電力文本中的電力實體,對完成進一步的電力文本任務,比如構建電力專業領域字典、建設電力知識庫、挖掘文本信息等,具有基礎性的作用。在早期的實體識別研究中,其主要任務是旨在從文本中識別命名實體如人名、地名和組織機構名等。但對于不同專業領域,實體識別技術可以應用于識別文本中具有特定意義的領域實體。早期的命名實體識別任務主要是基于規則和基于統計的識別方法。得益于近些年計算機算力的發展,深度學習在命名實體識別領域效果遠優于上述兩種方法,所以成為了實體識別的主流研究方法。研究者們常常把命名實體識別任務規約為一種序列標注任務,對于每一個輸入的字,判斷其標簽類別,根據類別標簽判定命名實體的邊界和類型。在傳統機器學習方法中,條件隨機場模型在序列標注上效果更好,常常與深度學習方法相結合來解決命名實體識別任務,比如Bi-LSTM-CRF、CNN-Bi-LSTM-CRF等。
在人工智能領域,本體知識庫既要描述知識的特點、位置、說明等信息,最重要的是要記錄本體間的關系。在電力知識領域歸納分析知識本體,需要對電網數據進行抽象分析,這部分數據除了包括傳統意義上的電網調度運行、管理等結構化數據外,也包括各類非結構化數據。電網數據存在結構復雜、存儲分散、多類型異構的特點,傳統的關鍵詞搜索、模糊匹配的方法已經很難滿足現在電網對數據深層次分析的需求通過人工智能技術,將電網專業知識、設備信息、運行數據、管理信息進行本體建模,基于電網本體知識庫運用解析結構化與非結構化數據,實現智能化的信息快速檢索,是目前信息搜索領域的發展方向。
發明內容
為解決現有技術存在的問題,本發明提供了一種基于電力本體知識庫的電力信息檢索方法。為實現本發明的目的,本發明的技術方案如下。
一種基于電力本體知識庫的電力信息檢索方法,包括:
獲取電力文本信息,建立電力實體的分類類別,所述分類類別用于描述電力作業的目標;
將電力文本信息按照預設比例分為訓練樣本、驗證樣本和測試樣本;
將訓練樣本輸入Bi-LSTM-CRF模型,對Bi-LSTM-CRF模型進行訓練;所述Bi-LSTM-CRF模型包括嵌入層、雙向長短時記憶網絡層(Bi-LSTM)和條件隨機場層(CRF);其中,嵌入層對中文字符進行編碼,將文本向量化表示;向長短時記憶網絡層(Bi-LSTM)用于提取文本序列的抽象特征;條件隨機場層(CRF)對雙向長短時記憶網絡層層的輸出進行處理;
采用訓練后的Bi-LSTM-CRF模型對驗證樣本進行測試,識別電力文本的電力實體;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司,未經廣東電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011637617.6/2.html,轉載請聲明來源鉆瓜專利網。





