[發明專利]一種自學習的事故文字標簽與摘要生成系統及其方法有效
| 申請號: | 201910154828.5 | 申請日: | 2019-03-01 |
| 公開(公告)號: | CN109961091B | 公開(公告)日: | 2021-04-20 |
| 發明(設計)人: | 魯立虹;陳尚武;盧錫芹;胡松濤;倪仰;張慧娟;趙伯亮;鄔奇龍 | 申請(專利權)人: | 杭州敘簡科技股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F16/33;G06F40/284 |
| 代理公司: | 北京科億知識產權代理事務所(普通合伙) 11350 | 代理人: | 湯東鳳 |
| 地址: | 310012 浙江省杭州市余杭區*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自學習 事故 文字 標簽 摘要 生成 系統 及其 方法 | ||
1.一種自學習的事故文字標簽與摘要生成系統,其特征在于,包括分詞模塊(1),詞向量訓練模塊(2)、詞向量模型模塊(3)、關鍵詞生成模塊(4)、關鍵詞庫模塊(5)、文字標簽生成模塊(6),文字標簽庫模塊(7)、文字標簽分類模塊(8)、事故摘要生成模塊(9)、事故庫模塊(12);
事故信息(0):是指預先輸入并存儲大量事故信息文檔;
分詞模塊(1):用于把輸入事故信息(0)內的故事信息文檔進行中文分詞,去除間隔詞、時間與地點無效詞;這樣事故信息(0)中的事故信息文檔在經過分詞模塊(1)的分詞處理后得到分詞數據輸送到詞向量訓練模塊(2)與關鍵詞生成模塊(4);
詞向量訓練模塊(2):根據對已接收到所有的分詞數據使用訓練成事故信息的詞向量模型,用于事故信息中分詞相似度的判斷,并將詞向量模型輸出給詞向量模型模塊(3);
關鍵詞生成模塊(4):對輸入事故信息(0)的分詞數據清理,只保留名詞與動詞,把清理后數據采用提取關鍵字,并把關鍵詞進行按照事故個數匯總統計,使用詞向量模型模塊(3)合并相似度高的關鍵詞,合并后關鍵詞發送給關鍵詞庫模塊(5);
詞向量模型模塊(3):保存已輸入事故信息的詞向量模型;詞向量模型模塊(3)接收詞向量訓練模塊(2)生成的模型,并提供給關鍵詞生成模塊(4)與文字標簽生成模塊(6)使用;
關鍵詞庫模塊(5):保存已輸入事故信息的關鍵詞,以及關鍵詞的檢索詞;關鍵詞庫模塊(5)接收關鍵詞生成模塊(4)生成詞向量模型,并提供文字標簽生成模塊(6)與文字標簽分類模塊(8)使用;
文字標簽生成模塊(6):使用關鍵詞庫模塊(5)的關鍵字查詢在事故庫模塊(12)中按照語法關系尋找的上下文并統計事故個數;使用詞向量模型模塊(3)使用相似度高的上下文;把關鍵詞加上下文合成文字標簽,把事故個數大于閥值的文字標簽輸出給文字標簽庫模塊(7);
文字標簽庫模塊(7):保存已輸入事故信息的文字標簽,以及文字標簽的事故個數、檢索詞和關鍵詞;文字標簽庫模塊(7)接收文字標簽生成模塊(6)生成文字標簽,用于文字標簽分類模塊(8)對事故信息進行歸類;
文字標簽分類模塊(8):對事故信息(0)進行文字標簽分類;優先使用關鍵詞庫模塊(5)的關鍵詞以及關鍵詞的檢索詞對事故信息(0)進行檢索,找到包含該關鍵詞的事故信息(0)的句子,使用該關鍵詞相關文字標簽的上下文在該句子中查找,該句子包含該上下文則該文字標簽作為給事故信息(0)的文字標簽;
文字標簽分類模塊(8)輸出該事故的標準化事故文字標簽(11),文字標簽分類模塊(8)同時把文字標簽發給摘要生成模塊(9);
摘要生成模塊(9):接收文字標簽分類模塊(8),在事故信息(9)組合判斷主謂、動賓語法關系,如果存在則文字標簽進行組合生成標準化的摘要;
事故庫模塊(12):保存所有輸入事故信息(0),為事故標簽生成模塊(6)提供查詢服務;
事故文字標簽(11):對事故信息(0)進行標準化單維度描述,用于事故信息標準化檢索與歸類統計;
事故摘要信息(10):對事故信息(0)進行標準化簡單描述;用于事故信息歸一簡要查看,以及是否為類似事故分析。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州敘簡科技股份有限公司,未經杭州敘簡科技股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910154828.5/1.html,轉載請聲明來源鉆瓜專利網。





