[發明專利]一種基于語義與句法依存信息的命名體識別方法在審
| 申請號: | 202210645695.3 | 申請日: | 2022-06-08 |
| 公開(公告)號: | CN114997170A | 公開(公告)日: | 2022-09-02 |
| 發明(設計)人: | 周仁杰;謝忠毅;馬浩男;萬健;張紀林;殷昱煜;蔣從鋒 | 申請(專利權)人: | 杭州電子科技大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/30;G06F40/211;G06F40/216;G06F40/268;G06N3/04 |
| 代理公司: | 杭州君度專利代理事務所(特殊普通合伙) 33240 | 代理人: | 朱亞冠 |
| 地址: | 310018 浙*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 語義 句法 依存 信息 命名 識別 方法 | ||
本發明公開了一種基于語義與句法依存信息的命名體識別方法。本發明首先對文本進行文本分析;對詞性信息和句法依存信息進行預處理,將所有詞性信息和句法依存關系類型轉化成one?hot向量,并根據不同單詞之間的依存關系方向構建鄰接矩陣;構造命名體識別模型BiLSTM?AELGCN?CRF;利用訓練好的命名體識別模型BiLSTM?AELGCN?CRF實現實體預測。本發明有效地使用了額外的句法依存信息,有效解決現有命名體識別模型存在的句法信息缺失以及其利用率不足的問題,同時能夠在一定程度上避免了語義信息缺失以及錯誤的句法信息傳播,以提升命名體識別的準確性。
技術領域
本發明屬于自然語言處理中的信息抽取領域,涉及一種基于語義與句法依存信息的命名體識別方法,是一種彌補語義信息不足的命名體識別方法。
背景技術
隨著計算機科學技術的發展,自然語言處理領域在深度學習方面也得到了具有現實意義和應用前景的進展,而對于自然語言處理,要做到精細深度的語義理解,單純的依靠人工的方法進行數據標注和算力投入無法解決本質的問題。
命名體識別是一項識別非結構化文本中的實體的任務,比如任務、地點和組織等,在非結構化文本的實體識別中起著舉足輕重的作用。根據以前的研究者的研究,命名實體識別已在關系抽取、問答、事件抽取、信息檢索和知識圖構建等多個場景上得到了廣泛的應用。
對于現有的命名體識別模型,大部分都是研究如何充分利用語義信息來提升命名體識別的準確度,并在基于深度學習的方法中取得了先進的結果。但是有研究表明,句法依存信息在一定程度上能夠進一步提升命名體識別的準確度,能夠彌補語義信息不足。并且現有的技術普遍認為每個句法依存信息的權重是相同的,這種會導致使用了錯誤的句法信息依賴傳播,造成錯誤的實體識別。同時現有的方法忽略了句法依存標簽的信息使用,例如名詞性主語,介詞本身所表達的信息利用。
發明內容
本發明的第一個目的是針對現有技術的不足,提出了一種基于語義與句法依存信息的命名體識別方法,在BiLSTM-CRF模型基礎上融合基于注意力與句法鄰接邊的圖卷積網絡(Attention and Edge-Label based Graph Convolutional Network,AELGCN)模型,稱為BiLSTM-AELGCN-CRF,其充分有效地提取句法依存信息,引入句法依存關系類型以及注意力機制,其能有效解決現有命名體識別模型存在的句法信息缺失以及其利用率不足的問題,同時能夠在一定程度上避免了語義信息缺失以及錯誤的句法信息傳播,導致部分實體識別錯誤的問題,以提升命名體識別的準確性。
本發明采用的技術方案步驟如下:
步驟(1)、對文本進行文本分析,其中文本分析包括詞性分析和句法依存分析;
步驟(2)、對詞性信息和句法依存信息進行預處理,將所有詞性信息和句法依存關系類型轉化成one-hot(獨熱編碼)向量,并根據不同單詞之間的依存關系方向構建鄰接矩陣;
步驟(3)、構造命名體識別模型BiLSTM-AELGCN-CRF并進行訓練,模型參數收斂后得到最佳參數模型;
步驟(4)、利用訓練好的命名體識別模型BiLSTM-AELGCN-CRF實現實體預測。
本發明的第二個目的是提供一種基于語義與句法依存信息的命名體識別設備,其特征在于包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的一種基于語義與句法依存信息的命名體識別方法的程序,所述一種基于語義與句法依存信息的命名體識別方法的程序被所述處理器執行時實現所述的一種基于語義與句法依存信息的命名體識別方法的步驟.
本發明的第三個目的是提供一種存儲介質,其特征在于存儲有一種基于語義與句法依存信息的命名體識別方法的程序,所述一種基于語義與句法依存信息的命名體識別方法的程序被處理器執行時實現所述的一種基于語義與句法依存信息的命名體識別方法的步驟;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于杭州電子科技大學,未經杭州電子科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210645695.3/2.html,轉載請聲明來源鉆瓜專利網。





