[發明專利]一種基于自然語言處理的結構化管制指令提取方法有效
| 申請號: | 201811094551.3 | 申請日: | 2018-09-19 |
| 公開(公告)號: | CN109460547B | 公開(公告)日: | 2023-03-28 |
| 發明(設計)人: | 王煊;盛寅;丁輝;陳平;嚴勇杰;王冠;徐秋程;才智 | 申請(專利權)人: | 中國電子科技集團公司第二十八研究所 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/211;G06F40/253;G06F40/30 |
| 代理公司: | 江蘇圣典律師事務所 32237 | 代理人: | 胡建華 |
| 地址: | 210007 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自然語言 處理 結構 管制 指令 提取 方法 | ||
1.一種基于自然語言處理的結構化管制指令提取方法,其特征在于,包括如下步驟:
步驟1,提取經過語音識別后的管制指令,即文本格式的管制指令,對文本格式的管制指令進行中文分詞操作,得到詞序列,對詞序列中的每個詞按對應的詞性進行自動標注;
步驟2,根據自動標注的結果獲取管制指令中的特殊詞和特殊詞組;
步驟3,以特殊詞組、特殊詞為基本單位構建新的詞序列;
步驟4,進行句法分析,形成以動詞為支配詞的依存句法樹;
步驟5,對特殊詞組的用途分類,保留與動詞存在依存關系的特殊詞組;
步驟6,判斷特殊詞組中動詞數量,針對動詞數量只有1個和大于1個的兩種情況,分別進行處理;
步驟7,構建語義網;
步驟8,確定謂詞和論元關系:謂詞和論元之間的關系是由論元所在格的種類確定的,通過語義網找出謂詞、論元和關系組成的三元組結構;
步驟9,判斷空范疇:在謂詞和論元關系確定后,還需要判斷是否會存在未被填入論元的范疇,即空范疇,若空范疇的存在影響了完整語義的理解,則需要對其進行填充,跳轉步驟10;若不存在空范疇,則直接跳轉步驟11;
步驟10,提取出謂詞的空范疇,使用貝葉斯算法進行論元推理并填補空范疇;
步驟11,構建計算機可讀的結構化模板;
步驟2包括:根據自動標注的結果判斷管制指令中是否存在特殊詞,若存在特殊詞則搜尋其前后出現的詞是否具有數字或英文字母的詞性,若具有則與特殊詞形成特殊詞組,詞性標記為名詞;若詞語不是特殊詞,則保持其詞形和詞性不變;
步驟5包括:在管制指令中包含兩種成分的特殊詞,一種直接參與描述航空器的動作,另一種只用來描述外部信息,區分這兩類特殊詞,根據依存句法樹找出與動詞存在直接依存關系的特殊詞,如果特殊詞組與動詞不存在依存關系,則將其提取出來,以列表形式進行匯聚,用以描述外部信息;如果特殊詞組與動詞存在依存關系,則保留;
步驟6中,如果動詞數量只有1個,執行如下步驟:
步驟A-1,由于動詞數量只有一個,因此該動詞必然是謂詞,提取該謂詞;
步驟A-2,提取謂詞論元:將依存句法樹中與謂詞直接相連的詞語提取出來,這些詞語將組成謂詞的論元;
步驟6中,如果動詞數量大于1個,執行如下步驟:
步驟B-1,管制指令中的動詞類別分為兩類:表動作動詞和表狀態動詞,表動作動詞描述了飛行器的運動動作,表狀態動詞描述飛行器的狀態,提取表狀態動詞:表狀態的動詞表現了兩個狀態:實施動作和不實施動作;
步驟B-2,表動作提取動詞:表動作的動詞能夠作為句子的謂詞;
步驟B-3,判斷謂詞數量:若謂詞數量只有1個,則跳轉步驟A-2,若謂詞數量大于1個,則跳轉步驟B-4;
步驟B-4,判斷謂詞間關系:根據管制指令中先出現的動作先發生,后出現的動作后發生的原則判斷謂詞間關系;
步驟B-5,提取謂詞論元:將在依存語法中與謂詞有直接關系的詞語提取出來,這些詞語將組成謂詞的論元;
步驟7包括:對管制指令中出現的動詞進行分析,提取出表達航空器動作的動詞,結合實際的應用領域定義動詞的價位、語義格、和論元詞語,以實體、屬性、實體的三元組方式編寫進語義網之中,三元組各部分內容是動詞、語義格、論元;
步驟10中,使用貝葉斯網絡模型的方法進行空范疇填補,遵循如下貝葉斯公式:
P(B)=P(B|A)·P(A),
其中P(A)是先驗概率,表示在句子中出現的信息的概率,P(B|A)是條件概率,表示由句子中出現的信息所推導出語義網中的空范疇填補信息的概率,P(B)是后驗概率,表示得出的填補空范疇的論元信息的概率;若需要對空范疇進行填補,根據句子中出現的信息確定先驗概率,將該信息的先驗概率定義為1,根據空范疇所屬謂語動詞和格的種類在語義網中找出所有的屬于該種類的格的論元,將這些論元定義為候選論元,同時從提前給出的其他不同信息與候選論元間的條件概率表中提取條件概率,使用貝葉斯公式計算得到每個候選論元出現的后驗概率,通過比較后選擇最大后驗概率的論元進行空范疇的填補;
步驟11包括:構建的結構化模板是以謂詞為中心,謂詞和論元關系所構成的三元組,作為計算機可讀的模板。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國電子科技集團公司第二十八研究所,未經中國電子科技集團公司第二十八研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811094551.3/1.html,轉載請聲明來源鉆瓜專利網。





