[發(fā)明專利]一種電力標準知識抽取系統(tǒng)在審
| 申請?zhí)枺?/td> | 202111116935.2 | 申請日: | 2021-09-23 |
| 公開(公告)號: | CN113836315A | 公開(公告)日: | 2021-12-24 |
| 發(fā)明(設計)人: | 趙常威;錢宇騁;李堅林;潘超;甄超;朱太云;李森林;胡嘯宇;吳正陽;吳杰;吳海峰;黃文禮;溫招洋 | 申請(專利權)人: | 國網(wǎng)安徽省電力有限公司電力科學研究院;國網(wǎng)安徽省電力有限公司;安徽南瑞繼遠電網(wǎng)技術有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/31;G06F16/35;G06F40/30;G06K9/20;G06N3/04;G06N3/08;G06Q50/06 |
| 代理公司: | 合肥正則元起專利代理事務所(普通合伙) 34160 | 代理人: | 韓立峰 |
| 地址: | 230000 安徽省*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 電力 標準 知識 抽取 系統(tǒng) | ||
1.一種電力標準知識抽取系統(tǒng),其特征在于,包括特征標注模塊以及模型訓練模塊;所述特征標注模塊用于接收單位文本數(shù)據(jù),并通過顯隱識別單元識別單位文本數(shù)據(jù)的顯隱性,根據(jù)顯隱性進行不同方式的標注得到知識元組;
所述模型訓練模塊用于從電力標準領域數(shù)據(jù)庫內獲取電力標準領域數(shù)據(jù),并經(jīng)過預訓練得到BERT預訓練模型,進而獲取知識元組的文本嵌入式表示;
利用改進的Transformer對單位文本數(shù)據(jù)的文本嵌入式表示進行編碼,并通過Attention機制計算結果,將結果輸入到片段指針網(wǎng)絡繼續(xù)進行計算;
在對每一個中文字符進行編碼時,利用滑窗的方法進行局部建模,對于每一個中文字符,對相鄰的m個中文字符計算Attention,計算復雜度與文本序列長度n成線性關系,獲取相鄰中文字符之間存在的寬度w,當片段指針網(wǎng)絡的層數(shù)為L時,則視野范圍為L*m*w。
2.根據(jù)權利要求1所述的一種電力標準知識抽取系統(tǒng),其特征在于,所述單位文本數(shù)據(jù)為規(guī)則分割模塊對處理文本文件進行規(guī)則分割的結果。
3.根據(jù)權利要求2所述的一種電力標準知識抽取系統(tǒng),其特征在于,還包括文本格式識別模塊以及文本轉化模塊,所述文本格式識別模塊用于識別電力標準文本,當文本格式識別模塊識別出電力標準文本的格式為PDF數(shù)據(jù)格式時,文本格式識別模塊連接文本轉化模塊,所述文本轉化模塊采取文本轉化的方式將PDF數(shù)據(jù)格式轉化為文本格式,并將轉化后的文本格式文件標記為處理文本文件。
4.根據(jù)權利要求1所述的一種電力標準知識抽取系統(tǒng),其特征在于,所述特征標注模塊包括顯式標注單元、隱式標注單元以及顯隱識別單元。
5.根據(jù)權利要求1所述的一種電力標準知識抽取系統(tǒng),其特征在于,利用改進的Transformer對單位文本數(shù)據(jù)的文本嵌入式表示進行編碼的過程包括以下步驟:
對原始的文本通過不同的線性變換對原文的文本進行編碼,然后通過Attention機制計算結果:
headi=Attetion(QWiQ,KWiK,VWiV)
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
其中,headi表示模型包含的一個頭實體的計算方法,i代表頭實體的索引編號,i為正整數(shù),且i=1,2……h(huán);其中WiQ、WiK、WiV表示原始序列特征維度為dmodel的序列Q、K、V映射為head的三個輸入;MultiHead表示將所有頭實體的計算結果進行拼接操作,再乘以一個WO的矩陣,最終作為當前層的最終輸出結果,再輸入到片段指針網(wǎng)絡繼續(xù)進行計算。
6.根據(jù)權利要求2所述的一種電力標準知識抽取系統(tǒng),其特征在于,當文本格式識別模塊識別出電力標準文本為非PDF的文本格式時,文本格式識別模塊會連接能對該數(shù)據(jù)格式的電力標準文本進行轉化的轉化工具,將非PDF的文本格式的電力標準文本轉化為文本格式;文本轉化模塊將轉化后的文本格式進行專家審核,將轉化后的文本進行整理,最終輸出整潔文本,將整潔文本標記為處理文本文件。
7.根據(jù)權利要求1所述的一種電力標準知識抽取系統(tǒng),其特征在于,所述知識元組為單位文本數(shù)據(jù)通過特征標注模塊進行標注后的數(shù)據(jù)組。
8.根據(jù)權利要求1所述的一種電力標準知識抽取系統(tǒng),其特征在于,還包括參數(shù)修改模塊,所述參數(shù)修改模塊用于修改BERT預訓練模型中的下一個句子預測任務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于國網(wǎng)安徽省電力有限公司電力科學研究院;國網(wǎng)安徽省電力有限公司;安徽南瑞繼遠電網(wǎng)技術有限公司,未經(jīng)國網(wǎng)安徽省電力有限公司電力科學研究院;國網(wǎng)安徽省電力有限公司;安徽南瑞繼遠電網(wǎng)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111116935.2/1.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 電力控制器、電力生成系統(tǒng)以及電力控制器的控制方法
- 電力供給裝置、電力接收裝置和包括電力接收裝置的車輛以及用于電力供給系統(tǒng)的控制方法
- 電力接收裝置、電力傳送裝置及其控制方法
- 一種智能電力客服系統(tǒng)的構建方法及系統(tǒng)
- 無線電力傳輸系統(tǒng)、無線電力發(fā)送裝置和無線電力接收裝置
- 一種電力監(jiān)控平臺數(shù)據(jù)信息映射匹配方法及系統(tǒng)
- 用于電力分配的系統(tǒng)和方法
- 電力傳輸裝置、電力接收裝置和電力傳輸裝置的控制方法
- 一種電力傳輸線圈無線傳輸電力的無線電力傳輸系統(tǒng)
- 一種電力運行數(shù)據(jù)監(jiān)控系統(tǒng)





