[發明專利]一種面向軍事語料的命名實體標注方法在審
| 申請號: | 202010102664.4 | 申請日: | 2020-02-19 |
| 公開(公告)號: | CN111428502A | 公開(公告)日: | 2020-07-17 |
| 發明(設計)人: | 黃宇;馮洋 | 申請(專利權)人: | 中科世通亨奇(北京)科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/169;G06N3/04 |
| 代理公司: | 北京華際知識產權代理有限公司 11676 | 代理人: | 葉宇 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 面向 軍事 語料 命名 實體 標注 方法 | ||
1.一種面向軍事語料的命名實體標注方法,其特征在于,所述方法包括以下步驟:
S1,分別使用基于雙向LSTM與CRF結合的神經網絡模型、基于Lattice LSTM神經網絡模型和基于BERT預訓練神經網絡模型三種深度神經網絡來進行機器命名實體識別自動標注;
S2,使用XGBoost方法將S1的三種算法獲取的結果進行集成學習,獲取標注成功的樣本和標注失敗的樣本,其中成功樣本的定義是三種機器實體識別中任意兩種識別結果一致的樣本,失敗樣本的定義三種機器實體識別結果都不一致的樣本;
S3,使用人工標注的方式標注失敗的樣本;
S4,將所有樣本標注結果以json的方式存入數據庫管理。
2.根據權利要求1所述的一種面向軍事語料的命名實體標注方法,其特征在于:將軍事實體標注分為7種類型,包括人名實體、時間實體、地名實體、人員軍職軍銜實體、軍事裝備實體、軍事設施實體、軍事機構實體,分別記為person_entity、time_entity、location_entity、position_entity、weapon_entity、facility_entity、military_org_entity,將每個元素標注為“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段屬于X類型并且此元素在此片段的開頭,“I-X”表示此元素所在的片段屬于X類型并且此元素在此片段的中間位置,“O”表示不屬于任何類型。
3.根據權利要求1所述的一種面向軍事語料的命名實體標注方法,其特征在于:LSTM模型中長短時記憶模塊計算過程如下:
(1)輸入詞Xt在t時刻通過輸入門(Input Gate)進入網絡,包含t時刻的輸入以及與之相連的t-1時刻隱含層與細胞更新(cell)的輸出,激活函數計算;
(2)通過遺忘門(Forget Gate)實現信息遺忘,與(1)相同,得到激活函數:
(3)細胞單元(cell)激活函數包括t時刻的輸入與t-1時刻隱含層的輸出;
(4)最終信息單元輸出包括通過輸出門Ot的向量輸出及細胞單元輸出,即前向推算的結果。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中科世通亨奇(北京)科技有限公司,未經中科世通亨奇(北京)科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010102664.4/1.html,轉載請聲明來源鉆瓜專利網。





