[發明專利]一種結合句法分析的軍事想定實體關系抽取方法及裝置在審
| 申請號: | 201910653287.0 | 申請日: | 2019-07-19 |
| 公開(公告)號: | CN110597998A | 公開(公告)日: | 2019-12-20 |
| 發明(設計)人: | 楊若鵬;盧穩新;魯義威;劉乾;蔣序平;張建軍;溫鴻鵬 | 申請(專利權)人: | 中國人民解放軍國防科技大學 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36;G06F16/35;G06F17/27;G06N3/04 |
| 代理公司: | 11768 北京興智翔達知識產權代理有限公司 | 代理人: | 蔣常雪 |
| 地址: | 430000 *** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體關系 抽取 句法分析 句法解析 向量化 軍事 嵌入 矩陣 測試數據集 訓練數據集 計算效率 目標關系 訓練數據 預定義 構建 濾除 語料 文本 轉換 保留 | ||
本發明公開一種結合句法分析的軍事想定實體關系抽取方法及裝置,所述方法包括以下步驟:1、預定義軍事想定實體關系抽取任務的目標關系類型;2、構建實體關系抽取模型的訓練數據集和測試數據集;3、對語料逐條進行句法解析,濾除對實體關系抽取無貢獻的句子成分;4、利用預訓練的詞嵌入矩陣將句法解析后保留的句子成分轉換為向量化的詞嵌入;5、使用向量化的訓練數據對實體關系抽取模型進行訓練;6、對待處理的軍事想定文本進行實體關系抽取。本發明提出的結合句法分析的軍事想定實體關系抽取方法,能夠有效提升實體關系抽取的計算效率和精度。
技術領域
本發明屬于自然語言處理技術領域,特別涉及一種面向軍事想定的實體關系抽取方法及裝置。
背景技術
軍事想定,分為基本想定和補充想定,是按照訓練課題對作戰雙方的企圖、態勢及作戰發展情況進行設想和假定的演習文書,是組織、誘導軍事演習和作業的基本文書。軍事想定實體關系是軍事想定數據的基本信息元素,是對軍事想定數據進行抽取、處理、分析的基礎,抽取軍事想定實體關系的目的,是發現隱含在軍事想定非結構化文本中的實體關系,并采取一定的手段將其抽取出來。
目前,開放領域的實體關系抽取方法主要包括基于規則的方法、基于核函數的方法和基于深度學習的方法。其中,基于規則的方法需要根據待處理語料涉及的領域知識,嚴重依賴于專家知識和人工歸納,因而代價較高、移植性差,難以得到廣泛使用;基于核函數的方法通過計算語法結構樹的相似度來進行實體關系抽取,因而訓練和測試速度太慢,不適合處理大規模數據;基于深度學習的方法通過利用深度神經網絡可以自動抽取句子中的高級特征,移植性強、抽取精度高,但對于軍事想定這一封閉領域的文本,由于缺少大規模人工標注語料,使得其效能的發揮受到了制約。
發明內容
本發明的目的在于克服現有技術的缺陷,實現了一種結合句法分析的軍事想定實體關系抽取方法及裝置。
為實現上述目的,本發明采用了如下技術方案:
一種基于句法分析和深度神經網絡的軍事想定實體關系抽取方法,所述方法包括以下步驟:
S1、語料庫構建,用于預定義實體關系抽取目標關系類型,對軍事想定原始文本進行標注,構建實體關系抽取模型訓練數據集和測試數據集,具體包括:
S1.1、實體關系預定義,用于分析領域內權威詞典中的軍事概念,參考SemanticEvaluation會議關于實體關系類型定義的原則和方法,預定義待抽取實體關系類型;
所述領域內權威詞典包括但不限于《中國軍事百科全書》、《軍事大辭典》、《簡明軍事詞典》等詞典;
S1.2、實體關系語料構建,根據預定義實體關系類型,采用手工方法對軍事想定原始文本進行標注,生成實體關系抽取語料庫,語料庫中每一條語料的存儲形式為(e1,e2,r,s),其中e1、e2分別表示頭部實體和尾部實體,r表示兩個實體之間的語義關系,s表示描述實體e1、e2具有語義關系r的句子;
S1.3、數據集劃分,用于劃分訓練數據集與測試數據集,按照特定比例將步驟S1.2獲得的語料庫劃分為訓練數據集和測試數據集;
所述訓練數據集與測試數據集的劃分比例為2∶1。
S2、句法解析,用于對語料庫中每一條語料中的句子s進行句法解析,濾除對實體關系抽取無貢獻的句子成分,具體包括:
S2.1、句法樹生成,利用句法解析開源工具對語料庫中每一條語料中的句子s進行解析,生成句法樹;
所述句法解析開源工具包括但不限于Stanford parser等;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民解放軍國防科技大學,未經中國人民解放軍國防科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910653287.0/2.html,轉載請聲明來源鉆瓜專利網。





