[發明專利]一種基于句法依存關系的命名實體識別方法在審
| 申請號: | 202010556881.0 | 申請日: | 2020-06-16 |
| 公開(公告)號: | CN111783461A | 公開(公告)日: | 2020-10-16 |
| 發明(設計)人: | 李建強;劉雅琦;白駿 | 申請(專利權)人: | 北京工業大學 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京思海天達知識產權代理有限公司 11203 | 代理人: | 劉萍 |
| 地址: | 100124 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 句法 依存 關系 命名 實體 識別 方法 | ||
本發明涉及一種基于句法依存關系的命名實體識別方法。在命名實體識別中,只有當模型所識別到的實體邊界和類型都與標注實體的邊界和類型相匹配,才算是真陽例(TP)。在大多數測試樣本中,假陽例(FP)和假陰例(FN)往往都是由于實體的邊界判斷不正確造成的,也就是說邊界識別比類型識別困難得多。本發明提出使用自注意力機制來削弱實體與實體以外單詞的聯系,并加強實體內部單詞之間的關系。具體的是在雙向長短期記憶網絡(Bi?LSTM)網絡之后,添加自注意力機制,把句法依存樹中單詞之間的依存關系編碼進上下文信息,最后根據Bi?LSTM網絡提供的全局特征以及句法依存樹提供的局部特征,共同來判斷實體邊界。本發明提高了命名實體識別的準確率。
技術領域:
本發明涉及深度學習領域,涉及文本中命名實體識別技術。
背景技術
傳統的命名實體識別方法依賴大量的人為定義的特征,然而這類手工定義特征的方法不僅耗時耗力,還需要有領域以及語言方面知識的專業人員。近年來,深度學習依靠其強大的數據挖掘能力,最大化的減少了手工構建特征的成本,并在圖像分類、語音識別以及自然語言處理等領域取得了令人矚目的成就。因此,利用深度學習方法進行命名實體識別具有重大的研究意義。
在文本中,準確的識別命名實體類型及其實體邊界對開發復雜的自然語言系統,如信息提取、問題回答、文本摘要等具有極大的影響。在命名實體識別中,只有當模型所識別到的實體邊界和類型都與標注實體的邊界和類型相匹配,才算是真陽例(TP)。在大多數測試樣本中,假陽例(FP)和假陰例(FN)往往都是由于實體的邊界判斷不正確造成的,也就是說邊界識別比類型識別困難得多。而大多深度網絡模型中并沒有針對邊界識別的特定功能,使得模型往往在類型判斷上準確率較高,而在邊界判斷上準確率較低。
發明內容:
本發明的目的是提供一種在文本中能更加準確識別命名實體邊界以及類型的方法。
為解決上述技術問題,本發明提供了一種基于句法依存關系的命名實體識別方法,包括如下步驟:
步驟S1,在模型訓練階段,首先用預訓練過的Word2vec把one-hot單詞向量映射到定義好的低維空間,得到每個單詞的詞向量;
步驟S2,使用雙向長短期記憶網絡(Bi-LSTM)對句子中每個時間步的詞向量分別進行前向和后向的編碼,并拼接得到擁有上下文信息的全局特征;
步驟S3,用句法分析技術得到每個句子的句法依存樹,計算樹上兩兩單詞之間的最短依賴路徑;
步驟S4,根據最短依賴路徑得到每個單詞的自頂向下以及自底向上的特征序列并輸入LSTM網絡,計算得到單詞局部特征;
步驟S5,通過局部特征點積來計算兩兩單詞之間的關系權重并進行歸一化;
步驟S6,使用自注意力機制以歸一化的關系權重將單詞之間的局部關系特征融入全局特征中,得到融合特征;
步驟S7,根據融合特征初步預測序列標簽,使用CRF對預測序列進行精修,得到最終標簽序列;
步驟S8,在模型測試階段,使用上述步驟訓練好的網絡來進行命名實體識別。
進一步,步驟S1中在模型訓練階段,首先用預訓練過的Word2vec把one-hot單詞向量映射到定義好的低維空間,得到每個單詞的詞向量包括:
記詞典大小為V,采用預訓練過的Word2vec把維度為V的one-hot單詞向量映射到定義好的低維空間,輸出的詞向量維度記為d。對于長度為T的輸入樣本序列{w1,w2,...wT},嵌入層的輸出記為{x1,x2,...xT},其中xt∈R1×d;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京工業大學,未經北京工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010556881.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種建筑用桁架木模裝配機
- 下一篇:一種電動牙刷及其刷牙啟動方法





