[發明專利]一種面向航天情報的自動信息提取方法及系統在審
| 申請號: | 202110291047.8 | 申請日: | 2021-03-18 |
| 公開(公告)號: | CN113127503A | 公開(公告)日: | 2021-07-16 |
| 發明(設計)人: | 魏明飛;陳志敏;高翔;姚秀娟 | 申請(專利權)人: | 中國科學院國家空間科學中心 |
| 主分類號: | G06F16/242 | 分類號: | G06F16/242;G06F16/951;G06N3/04 |
| 代理公司: | 北京方安思達知識產權代理有限公司 11472 | 代理人: | 陳琳琳;楊青 |
| 地址: | 100190 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 航天 情報 自動 信息 提取 方法 系統 | ||
本發明涉及航天情報獲取技術領域,尤其涉及一種面向航天情報的自動信息提取方法及系統,所述方法包括:對接收的航天情報進行預處理;將預處理后的文本數據輸入預先訓練好的信息提取模型,得到符合預設的情報信息類型的關鍵信息;所述信息提取模型為BiLSTM?CRF模型。本發明通過融合多源異構的知識資源構建自動標注工具,并構建了獨有的中文航天文本專業語料庫;自動標注航天情報文本,提高研究人員標注航天情報文檔的效率;本發明提供的面向航天情報的自動信息提取方法,從標注到訓練的一體式方法,在處理航天情報或者航天文檔時,無需人工審閱總結,提高效率,并具有很高的準確率。
技術領域
本發明涉及航天情報獲取、航天文檔管理、衛星網絡資料申報、衛星網絡頻率和軌位資源態勢分析技術領域,尤其涉及一種面向航天情報的自動信息提取方法及系統。
背景技術
當前航天情報資料的處理基本依賴主管部門或領域專家的人工操作的判斷,且包含大量的重復性工作。隨著商業航天的井噴式發展,積累的航天情報資料和航天技術文檔在數量上呈指數級增長。此時傳統的依賴人工的信息處理方式已經不足以應對實際的需要。
此外,由于航天領域的特殊性,往往領先者可以占據絕大部分優質的諸如頻道、軌道的空間資源。鑒于這一特性,航天情報信息處理對時間效率具有極高的要求。
標注是信息提取的第一步,也是信息提取中工作量最大的一步。
發明內容
本發明的目的在于克服現有技術缺陷,提出了面向航天情報的自動信息提取方法及系統。
為了實現上述目的,本發明提出了一種面向航天情報的自動信息提取方法,所述方法包括:
對接收的航天情報進行預處理;
將預處理后的文本數據輸入預先訓練好的信息提取模型,得到符合預設的情報信息類型的關鍵信息;所述信息提取模型為BiLSTM-CRF模型。
作為上述方法的一種改進,所述對接收的航天情報進行預處理;具體為:對航天情報進行數據清洗,去除特殊符號、圖片、視頻和url鏈接,得到文本格式數據。
作為上述方法的一種改進,所述信息提取模型的輸入為預處理后的文本格式數據,輸出為符合預設的情報信息類型的關鍵信息,所述情報信息類型包括發射地點或地面觀測點、發射工具的名稱型號信息、航天器名稱、主管或關聯單位信息和其他技術信息,其中,所述其他技術信息包括重要攜帶設備、關鍵技術和技術參數;所述BiLSTM-CRF模型包括嵌入層、BiLSTM層和CRF層,其中嵌入層的詞向量維數為256,BiLSTM層的隱向量維數為256。
作為上述方法的一種改進,所述方法還包括基于監督學習對信息提取模型進行訓練的步驟;具體包括:
獲取知識信息,進行知識結構化,建立知識庫;
獲取原始語料,進行預處理得到文本格式數據;
對預處理后的一部分文本格式數據基于知識庫進行自動標注,對預處理后的另一部分文本格式數據進行人工標注,自動標注和人工標注后的數據格式均為BIO格式;
從BIO格式數據中選取部分組成訓練集;
將訓練集輸入信息提取模型進行訓練,學習率為0.001,訓練次數為30,調整模型參數,直至得到訓練好的信息提取模型。
作為上述方法的一種改進,所述獲取知識信息,進行知識結構化,建立知識庫;具體為:
從現有的衛星數據庫和發射數據庫獲取知識信息;
從網絡獲取火箭發射記錄和衛星發射記錄;
從網絡獲取航天相關的百科信息;
從知識信息、發射記錄和百科信息中提取情報信息,并將情報信息結構化為Json格式,建立知識庫。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院國家空間科學中心,未經中國科學院國家空間科學中心許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110291047.8/2.html,轉載請聲明來源鉆瓜專利網。





