[發明專利]一種基于電力本體知識庫的電力信息檢索方法有效
| 申請號: | 202011637617.6 | 申請日: | 2020-12-31 |
| 公開(公告)號: | CN112765314B | 公開(公告)日: | 2023-08-18 |
| 發明(設計)人: | 彭澤武;萬嬋;楊秋勇;梁盈威;吳金銘;王海明;王柳佳 | 申請(專利權)人: | 廣東電網有限責任公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/295;G06N3/044;G06N3/049;G06N3/08 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 賈小慧 |
| 地址: | 510600 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 電力 本體 知識庫 信息 檢索 方法 | ||
1.一種基于電力本體知識庫的電力信息檢索方法,其特征在于,包括:
獲取電力文本信息,建立電力實體的分類類別,所述分類類別用于描述電力作業的目標;
所述電力文本信息包括變電站基礎知識、技術規范和標準、運維方案三類的文本信息;
將電力文本信息按照預設比例分為訓練樣本、驗證樣本和測試樣本;
將訓練樣本輸入Bi-LSTM-CRF模型,對Bi-LSTM-CRF模型進行訓練;所述Bi-LSTM-CRF模型包括嵌入層、雙向長短時記憶網絡層(Bi-LSTM)和條件隨機場層(CRF);其中,嵌入層對中文字符進行編碼,將文本向量化表示;雙向長短時記憶網絡層(Bi-LSTM)用于提取文本序列的抽象語言特征,包括文本的順序時序特征、逆序時序特征;條件隨機場層(CRF)對雙向長短時記憶網絡層的輸出進行處理;
采用訓練后的Bi-LSTM-CRF模型對驗證樣本進行測試,識別電力文本的電力實體;
將電力文本的電力實體識別結果送入電力本體知識庫;所述電力本體知識庫包括原始語料、本體、本體關聯向量;其中,原始語料表示輸入的文本,原始語料經過基于Bi-LSTM-CRF模型識別形成本體,本體關聯向量表示原始語料與本體之間的關聯關系;
輸入檢索語句,利用本體最大關聯匹配度算法,計算檢索語句與本體知識庫中知識的相似度;
返回根據檢索語句所檢索到的實體,以及檢索到的原始語料;
所述最大關聯匹配度算法包括:
輸入的檢索語句作為問詢語料輸入至電力實體識別模型中去,得到本體及本體關聯向量;
計算本體關聯向量與本體知識庫中的每一個本體關聯向量的Jaccard系數,所述Jaccard系數用于計算符號度量或布爾值度量的個體間的相似度;
采用如下公式計算原始語料本體關聯向量的Jaccard系數:
;
式中,表示問詢語料的本體關聯向量,表示知識庫中第條知識語料對應的本體關聯向量,表示取交集運算,表示取并集運算;
依照系數從大到小對本體知識庫進行排序。
2.根據權利要求1所述的基于電力本體知識庫的電力信息檢索方法,其特征在于,若原始語料中存在實體時,則本體關聯向量的值為1,否則為0。
3.根據權利要求2所述的基于電力本體知識庫的電力信息檢索方法,其特征在于,雙向長短時記憶網絡層(Bi-LSTM)包括前向長短時記憶網絡層和后向長短時記憶網絡層,前向長短時記憶網絡層用于融合順序的上下文信息,后向長短時記憶網絡層用于融合逆序的上下文信息,最后綜合前向長短時記憶網絡層和后向長短時記憶網絡層的輸出;前向長短時記憶網絡層和后向長短時記憶網絡層均包括:輸入門、遺忘門、記憶門和輸出門。
4.根據權利要求1所述的基于電力本體知識庫的電力信息檢索方法,其特征在于,當Jaccard系數大于預設閾值時,返回相對應的本體和原始語料;動態調整返回閾值,對排序好的原始語料進行抽取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于廣東電網有限責任公司,未經廣東電網有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011637617.6/1.html,轉載請聲明來源鉆瓜專利網。





