[發(fā)明專利]命名實體識別方法及裝置有效
| 申請?zhí)枺?/td> | 201811526902.3 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN110162772B | 公開(公告)日: | 2020-06-26 |
| 發(fā)明(設計)人: | 李克南;曾軻;李容 | 申請(專利權)人: | 北京三快在線科技有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/08 |
| 代理公司: | 北京潤澤恒知識產權代理有限公司 11319 | 代理人: | 莎日娜 |
| 地址: | 100083 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 命名 實體 識別 方法 裝置 | ||
本發(fā)明提供了一種命名實體識別方法及裝置,所述方法包括:將待識別語料進行詞向量轉換,生成預設維度的第一詞向量;將所述待識別語料進行多特征向量轉換,生成第一多特征向量;將所述預設維度的第一詞向量與所述第一多特征向量拼接,生成第一多特征拼接向量;根據(jù)所述多特征拼接向量以及預置多特征命名實體識別模型確定所述待識別語料的至少一個命名實體的標簽。提高命名實體的識別準確度。
技術領域
本發(fā)明實施例涉及信息技術領域,尤其涉及一種命名實體識別方法及裝置。
背景技術
在信息技術領域,命名實體識別(Named Entity Recognition,簡稱 NER)指的是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。
現(xiàn)有技術中,如在餐飲領域中,需要對用戶評價和用戶查詢中的實體進行識別。實際環(huán)境中會不斷的有新菜品出現(xiàn),并且文本口語化的現(xiàn)象也會導致許多菜品的縮寫(如麻小)出現(xiàn),識別新實體的能力應該作為模型重要的指標之一。而現(xiàn)在主流的神經(jīng)網(wǎng)絡模型(如CNN+CRF,Bi-LSTM+CRF 等)對于新實體的邊界的標簽不準確,對新實體的識別效果有待提高。
發(fā)明內容
本發(fā)明提供一種命名實體識別方法及裝置,以解決現(xiàn)有技術中的上述問題。
根據(jù)本發(fā)明的第一方面,提供了一種命名實體識別方法,所述方法包括:
將待識別語料進行詞向量轉換,生成預設維度的第一詞向量;
將所述待識別語料進行多特征向量轉換,生成第一多特征向量;
將所述預設維度的第一詞向量與所述第一多特征向量拼接,生成第一多特征拼接向量;
根據(jù)所述多特征拼接向量以及預置多特征命名實體識別模型確定所述待識別語料的至少一個命名實體的標簽。
根據(jù)本發(fā)明的第一方面,提供了一種多特征命名實體識別模型訓練方法,所述方法包括:
通過預置的命名實體訓練語料獲得實體標注語料;
將所述實體標注語料進行詞向量轉換,生成預設維度的第二詞向量;
將所述實體標注語料進行多特征向量轉換,生成第二多特征向量;
將所述第二多特征向量與所述預設維度的第二詞向量拼接,生成第二多特征拼接向量;
基于所述第二多特征拼接向量對預設神經(jīng)網(wǎng)絡算法進行訓練,得到多特征命名實體識別模型,用于標注待識別語料中的命名實體。
根據(jù)本發(fā)明的第三方面,提供了一種命名實體識別裝置,所述裝置包括:
第一詞向量生成模塊,用于將待識別語料進行詞向量轉換,生成預設維度的第一詞向量;
第一多特征向量生成模塊,用于將所述待識別語料進行多特征向量轉換,生成第一多特征向量;
第一多特征拼接向量生成模塊,用于將所述預設維度的第一詞向量與所述第一多特征向量拼接,生成第一多特征拼接向量;
命名實體標簽獲得模塊,用于根據(jù)所述多特征拼接向量以及預置多特征命名實體識別模型確定所述待識別語料的至少一個命名實體的標簽。
根據(jù)本發(fā)明的第四方面,提供了一種多特征命名實體識別模型訓練裝置,所述裝置包括:
實體標注語料獲得模塊,用于通過預置的命名實體訓練語料獲得實體標注語料;
第二詞向量生成模塊,用于將所述實體標注語料進行詞向量轉換,生成預設維度的第二詞向量;
第二多特征向量生成模塊,用于將所述實體標注語料進行多特征向量轉換,生成第二多特征向量;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京三快在線科技有限公司,未經(jīng)北京三快在線科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811526902.3/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:事件觸發(fā)詞的識別方法、裝置、電子設備
- 下一篇:標題推斷器





