[發明專利]一種面向航天情報的自動信息提取方法及系統在審
| 申請號: | 202110291047.8 | 申請日: | 2021-03-18 |
| 公開(公告)號: | CN113127503A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 魏明飛;陳志敏;高翔;姚秀娟 | 申請(專利權)人: | 中國科學院國家空間科學中心 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/951;G06N3/04 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 航天 情報 自動 信息 提取 方法 系統 | ||
1.一種面向航天情報的自動信息提取方法,所述方法包括:
對接收的航天情報進行預處理;
將預處理后的文本數據輸入預先訓練好的信息提取模型,得到符合預設的情報信息類型的關鍵信息;所述信息提取模型為BiLSTM-CRF模型。
2.根據權利要求1所述的面向航天情報的自動信息提取方法,其特征在于,所述對接收的航天情報進行預處理;具體為:對航天情報進行數據清洗,去除特殊符號、圖片、視頻和url鏈接,得到文本格式數據。
3.根據權利要求2所述的面向航天情報的自動信息提取方法,其特征在于,所述信息提取模型的輸入為預處理后的文本格式數據,輸出為符合預設的情報信息類型的關鍵信息,所述情報信息類型包括發射地點或地面觀測點、發射工具的名稱型號信息、航天器名稱、主管或關聯單位信息和其他技術信息,其中,所述其他技術信息包括重要攜帶設備、關鍵技術和技術參數;所述BiLSTM-CRF模型包括嵌入層、BiLSTM層和CRF層,其中嵌入層的詞向量維數為256,BiLSTM層的隱向量維數為256。
4.根據權利要求3所述的面向航天情報的自動信息提取方法,其特征在于,所述方法還包括基于監督學習對信息提取模型進行訓練的步驟;具體包括:
獲取知識信息,進行知識結構化,建立知識庫;
獲取原始語料,進行預處理得到文本格式數據;
對預處理后的一部分文本格式數據基于知識庫進行自動標注,對預處理后的另一部分文本格式數據進行人工標注,自動標注和人工標注后的數據格式均為BIO格式;
從BIO格式數據中選取部分組成訓練集;
將訓練集輸入信息提取模型進行訓練,學習率為0.001,訓練次數為30,調整模型參數,直至得到訓練好的信息提取模型。
5.根據權利要求4所述的面向航天情報的自動信息提取方法,其特征在于,所述獲取知識信息,進行知識結構化,建立知識庫;具體為:
從現有的衛星數據庫和發射數據庫獲取知識信息;
從網絡獲取火箭發射記錄和衛星發射記錄;
從網絡獲取航天相關的百科信息;
從知識信息、發射記錄和百科信息中提取情報信息,并將情報信息結構化為Json格式,建立知識庫。
6.根據權利要求5所述的面向航天情報的自動信息提取方法,其特征在于,所述獲取原始語料,進行預處理得到文本格式數據;具體為:
獲取航天類網站的文章作為原始語料;
對原始語料進行數據清洗,去除特殊符號、圖片、視頻和url鏈接,得到文本格式數據。
7.根據權利要求6所述的面向航天情報的自動信息提取方法,其特征在于,所述對預處理后的一部分文本格式數據基于知識庫進行自動標注,具體為:
將文本格式數據以句子為最小單位進行切分;
以知識庫為標注指導,由前向匹配、后向匹配或雙向匹配算法對單個句子進行匹配,選取最優結果,完成自動標注;所述最優結果為將句子切分的子單位數量最少并且標注的實體的總長度最長。
8.一種面向航天情報的自動信息提取系統,所述系統包括:預先訓練好的信息提取模型、預處理模塊和提取輸出模塊;
所述預處理模塊,用于對接收的航天情報進行預處理;
所述提取輸出模塊,用于將預處理后的文本數據輸入預先訓練好的信息提取模型,得到符合預設的情報信息類型的關鍵信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院國家空間科學中心,未經中國科學院國家空間科學中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110291047.8/1.html,轉載請聲明來源鉆瓜專利網。





