[發明專利]基于知識圖譜的安全知識自助查詢系統的構建方法及裝置在審
| 申請號: | 202110725884.7 | 申請日: | 2021-06-29 |
| 公開(公告)號: | CN113312501A | 公開(公告)日: | 2021-08-27 |
| 發明(設計)人: | 蘇成;宋建煒;鄧逸川 | 申請(專利權)人: | 中新國際聯合研究院 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F40/295;G06F40/30;G06N3/04;G06Q50/08 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 李盛洪 |
| 地址: | 510000 廣東省廣州市*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 知識 圖譜 安全 自助 查詢 系統 構建 方法 裝置 | ||
1.一種基于知識圖譜的安全知識自助查詢系統的構建方法,應用于配置智能移動終端,其特征在于,所述自助查詢系統的構建方法包括以下步驟:
S1、收集施工安全知識資料,基于安全知識資料應用數據標注軟件構建用于實體抽取和關系抽取的語料庫;
S2、調用BERT-BiLSTM-CRF算法進行施工安全知識實體抽取;
S3、調用BERT-CNN算法進行施工安全知識關系抽取;
S4、將實體和關系數據處理為“實體→關系→實體”類型的三元組數據,并將三元組存貯進圖數據庫;
S5、重復步驟S2至S4,完成知識圖譜的構建;
S6、基于自然語言處理與樸素貝葉斯分類算法生成Cypher查詢語句,構建安全知識自助查詢端;
S7、將安全知識圖譜及自助查詢端配置到移動智能終端構建自助查詢系統。
2.根據權利要求1所述的基于知識圖譜的安全知識自助查詢系統的構建方法,其特征在于,所述步驟S2中BERT-BiLSTM-CRF算法包括BERT模型、BiLSTM模型和CRF模型,待處理文本依次通過上述三個模型,實現實體的抽取,所述待處理文本來自語料庫,實體抽取過程如下:
S21、待處理文本通過BERT模型輸出對應的動態字向量:
其中,BERT模型是基于Transform編碼器的預訓練語言模型,Transform編碼器由自注意力機制部分、求和與歸一化部分和前饋神經網絡部分構成,Transform編碼器最核心的自注意力機制可表示為:
其中,矩陣Q、K和V為輸入字向量;dk為輸入向量維度,QKT表示計算輸入字向量之間的語義關系,softmax(·)表示歸一化函數;
S2.2、所述動態字向量通過BiLSTM模型輸出對應的字標簽得分向量:
其中,BiLSTM模型由兩個LSTM模型組成,LSTM模型的計算過程如下:
其中,σ為sigmoid激活函數,x是詞嵌入向量,i、f、o分別表示輸入門、遺忘門和輸出門;ω為不同狀態時各控制門的權重矩陣,表示輸入門的權重矩陣,表示遺忘門的權重矩陣,表示輸出門的權重矩陣,表示備選值層的權重矩陣;b為不同狀態時各控制門的偏值向量,表示輸入門的偏置向量,表示遺忘門的偏置向量,表示輸出門的偏置向量,是備選值層的偏置向量;h是輸出,ht是t時刻的輸出,ht-1是t-1時刻的輸出;表示舊時刻狀態到新時刻狀態的轉移矩陣,ct表示t時刻的記憶單元的狀態;tanh(·)為調值函數,其輸出值位于區間(-1,1)內;
S2.3、所述字標簽得分向量通過CRF模型輸出最優標簽序列:
其中,CRF模型是馬爾可夫隨機場,CRF模型表示為:
其中,z和y分別表示輸入句子和輸出標簽序列;表示第j個字被判別為標簽yj的概率,表示所有可能轉換為標簽yj的概率,n為序列長度;
對于每一種可能的標簽組合情況,經過歸一化處理后得到所求的條件概率,計算過程如下式所示:
其中,ytrue表示真實標簽值,P(y|x)表示x的預測標簽為y的概率;
對P(y|x)取對數似然函數,似然函數計算過程如下式所示:
將概率最大的一組序列作為最優標簽序列輸出,可表示為:
對最優標簽序列中的各個實體進行提取分類,從而完成實體抽取。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中新國際聯合研究院,未經中新國際聯合研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110725884.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:配備常壓刀盤的泥水敞開式雙模盾構機
- 下一篇:加熱烘烤器階梯性加熱控制方法





