[發明專利]一種結合句法分析的軍事想定實體關系抽取方法及裝置在審
| 申請號: | 201910653287.0 | 申請日: | 2019-07-19 |
| 公開(公告)號: | CN110597998A | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 楊若鵬;盧穩新;魯義威;劉乾;蔣序平;張建軍;溫鴻鵬 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F17/27;G06N3/04 |
| 代理公司: | 11768 北京興智翔達知識產權代理有限公司 | 代理人: | 蔣常雪 |
| 地址: | 430000 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 抽取 句法分析 句法解析 向量化 軍事 嵌入 矩陣 測試數據集 訓練數據集 計算效率 目標關系 訓練數據 預定義 構建 濾除 語料 文本 轉換 保留 | ||
1.一種結合句法分析的軍事想定實體關系抽取方法,其特征在于,所述方法包括以下步驟:
S1、語料庫構建:預定義實體關系抽取目標關系類型,對軍事想定原始文本進行標注,構建實體關系抽取模型訓練數據集和測試數據集,具體包括:
S1.1、實體關系預定義:采用Semantic Evaluation會議關于實體關系類型定義的原則和方法,預定義待抽取實體關系類型;
S1.2、實體關系語料構建:根據預定義實體關系類型,采用手工方法對軍事想定原始文本進行標注,生成實體關系抽取語料庫,語料庫中每一條語料的存儲形式為(e1,e2,r,s),其中e1、e2分別表示頭部實體和尾部實體,r表示兩個實體之間的語義關系,s表示描述實體e1、e2具有語義關系r的句子;
S1.3、數據集劃分:劃分訓練數據集與測試數據集,按照特定比例將步驟S1.2獲得的語料庫劃分為訓練數據集和測試數據集;
S2、句法解析:對語料庫中每一條語料中的句子s進行句法解析,濾除對實體關系抽取無貢獻的句子成分,具體包括:
S2.1、句法樹生成:利用句法解析開源工具對語料庫中每一條語料中的句子s進行解析,生成句法樹;
S2.2、解析樹剪枝:剪除句法樹中與實體關系三元組(e1,e2,r)無關的句子成分,生成句法解析子樹;
S2.3、子樹重組:將句法解析子樹重組為文本序列,重組過程中不改變詞語原始的先后次序;
S3、數據向量化,將步驟S2.3生成的重組序列轉換為以分布式向量形式表達的詞嵌入集合,具體包括:
S3.1、訓練原始文本向量化:結合領域內權威詞典將當前輸入的重組序列si以詞為單位轉換為one-hot向量,si表示輸入的第i條語料中的句子;
S3.2、詞嵌入生成:利用詞向量轉化開源工具將步驟S3.1獲得的one-hot向量集合逐詞轉換為低維實值詞嵌入:
S4、模型訓練:利用數據化的實體關系抽取訓練數據集訓練基于深度神經網絡的實體關系抽取模型,具體包括:
S4.1、語義特征抽取:選用特定神經網絡作為基礎關系抽取器,從步驟S3.4輸出的向量集合中提取出當前語句的高級語義特征,模型采用雙向神經網絡以同時抽取實體對e1、e2的上、下文語義信息,以提升實體關系的識別精度,第i個語料的第j個詞的特征表達式如下式所示:
式中,表示前向通道輸出和反向通道輸出的組合,[]表示括號中為一向量,表示前向通道輸出的第i個語料中第j個詞的語義特征,表示反向通道輸出的第i個語料中第j個詞的語義特征;
S4.2、實體關系預測:利用分類器對步驟S4.1輸出的特征向量進行處理,計算當前語料(e1,e2,r,s)中關系r為預定義實體關系類型集合Y=[y1,y2,…,y8]中關系yn(n∈[1,8])的估計概率
式中,softmax(·)表示softmax分類器運算,W表示分類器網絡的權值矩陣,si表示第i個語料中的句子,表示第i個語料中句子的所有詞匯的特征向量的組合,b表示分類器網絡的偏置;
估計概率中,最大值所對應的關系類型即為對當前語料中關系r的預測結果,用標簽來表示:
式中,表示取最大值運算,表示第i個語料中的句子si所描述的實體關系類型為yn的條件概率,yn表示第n種預定義實體關系類型,si表示第i個語料中的句子;
S4.3、代價函數優化:通過計算真實標簽y的負似然函數的對數,得到深度神經網絡的代價函數如下:
式中,tn表示one-hot向量,表示步驟S4.2中softamx分類器輸出的每個預定義關系類型的估計概率,m表示預定義關系類型的數量(此處取值為8),λ表示L2正則化的超參數,θ表示實體關系抽取模型中的獨立參數,||·||表示取范數,通過最小化代價函數J(θ),不斷調整模型超參數,完成模型訓練;
S5、實體關系抽取:利用訓練完成的模型對待處理的軍事想定文本進行實體關系抽取,具體包括:
S5.1、測試文本向量化:使用步驟S3中的處理過程,將待處理軍事想定原始文本逐句進行向量化;
S5.2、實體關系預測:使用步驟S4訓練完成的模型對步驟S5.1輸出的向量化軍事想定逐句進行語義關系預測,并將結果保存。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910653287.0/1.html,轉載請聲明來源鉆瓜專利網。





