[發明專利]一種應急預案應急響應等級、行政單位職責自動抽取方法有效
| 申請號: | 202011498662.8 | 申請日: | 2020-12-18 |
| 公開(公告)號: | CN112527961B | 公開(公告)日: | 2022-05-13 |
| 發明(設計)人: | 朱安安;邱彥林;陳尚武 | 申請(專利權)人: | 杭州敘簡科技股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州浙言專利代理事務所(普通合伙) 33370 | 代理人: | 易朝暉 |
| 地址: | 311121 浙江省杭州市余杭區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 應急 預案 響應 等級 行政單位 職責 自動 抽取 方法 | ||
1.一種應急預案應急響應等級、行政單位職責自動抽取方法,其特征在于,包括以下步驟:
S1:對應急預案進行預處理,按照目錄標題對應急預案的文本內容進行拆分,并按照目錄標題等級存儲至數據庫;
S2:針步驟S1中處理好的目錄標題進行分類類別的標注,形成帶標注的數據集;對標注的數據集進行訓練,進行分詞、量化、分類處理;
S3:關鍵信息的抽取:對所有目錄標題下的文本內容進行行政單位名稱及職責范圍抽取;并根據步驟S2所得到的分類結果,對分類結果為描述“應急響應等級、預警等級、事件分級”內容的文本進行響應等級與對應觸發條件的抽取;所述關鍵信息的抽取利用實體識別與實體類型分類相結合的方式進行;
S4:對抽取出的行政單位名稱進行去重拼接處理并輸出行政單位的職責,對抽取出的與觸發條件有關的實體進行標準化處理;
S5:按照目錄標題等級獲取每一級目錄標題下的行政單位名稱及職責,獲取響應等級與對應觸發條件,并輸出分析結果;
所述步驟S1的具體過程為:根據預案的目錄標題將內容進行拆分,每一節文本存儲文本內容的同時保存其目錄標題以及該目錄標題的父節點,一級目錄標題的父節點規定為’root’,將標準化后的應急預案文本入數據庫待下一步處理;
步驟S2中所述分類標注采用有監督的二分類模型,數據集的標注需標注每一個目錄標題中的內容是否為應急響應”類內容,是則標注為’1’,不是則標注為’0’;
步驟S2中所述訓練的過程為:首先對目錄標題進行采用jieba進行分詞,然后通過TF-IDF計算詞頻,并進行向量化處理,最后采用多項式樸素貝葉斯分類器進行分類;
步驟S3中所述的實體識別與實體類型分類的步驟如下:
S3.1:文本數據處理:在訓練階段,對每個目錄標題以及目錄標題下的全部文本進行實體識別時,進行識別的實體的類型為:數量名詞、應急響應等級、條件觸發詞、數詞邊界的關鍵詞、數量單位、行政單位名稱;
S3.2:實體識別與觸發詞類別分類模型建立:采用one-hot對每個目錄標題以及目錄標題下的全部文本按字進行編碼,編碼后向量即為模型的輸入向量;將向量輸入Bi-LSTM模型,經過模型編碼得到輸入的每個字的最終狀態向量,暫時保存最終狀態向量;將最終狀態向量輸出CRF模型進行解碼,得到最終的序列標注結果,若序列標注結果中含有Trigger實體,則找到每個Trigger實體中每個字對應的最終狀態向量,采用向量算數平均作為該Trigger實體的詞向量,輸入Softmax分類;
所述訓練過程的Loss采用實體識別模型Loss與Trigger分類Loss相加產生整個模型的損失,經訓練得到最終的實體識別與觸發詞分類模型;
步驟S4的所述去重處理及拼接的方法如下:利用步驟S3.2輸出的每個字的最終狀態向量,將識別結果為ORG的詞的每個字向量進行平均作為實體詞的向量,并以此來提取該目錄下所有文本實體識別為ORG的每個詞的詞向量,兩兩計算余弦相似度,取每個詞與其他詞相似度最高的詞,當兩詞之間的余弦相似度大于0.9時即判定為描述的是同一個行政單位,將兩個實體劃為一組,通過相似度的比較將實體劃分為不同組,若無相似度大于0.9的則各自成為一組;并選擇每組中字符長度最長的作為行政單位的名稱,將包含該組中任一實體的句子按照順序進行拼接,作為該行政單位的職責輸出;
所述標準化針對抽取出來的觸發詞實體、數詞實體、量詞實體以及關鍵詞實體來進行,每個所述的觸發條件的提取必須同時包括觸發詞、數詞實體以及量詞實體。
2.根據權利要求1所述的應急預案應急響應等級、行政單位職責自動抽取方法,其特征在于,當一個句子中出現多個觸發詞實體時,則按照標點符號對句子再次進行斷句,使得最終每一子句中只出現一組觸發條件。
3.根據權利要求1所述的應急預案應急響應等級、行政單位職責自動抽取方法,其特征在于,所述與觸發詞對應的量詞需進行限制,通過觸發詞與量詞的二次匹配來篩選觸發條件。
4.根據權利要求1所述的應急預案應急響應等級、行政單位職責自動抽取方法,其特征在于,對觸發條件進行標準化時,當一組觸發條件中抽取到兩個數詞實體,則判定這兩個數詞實體為觸發條件的數量邊界。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州敘簡科技股份有限公司,未經杭州敘簡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011498662.8/1.html,轉載請聲明來源鉆瓜專利網。





