[發明專利]一種基于神經網絡的中文命名實體識別方法、裝置、設備以及存儲介質有效
| 申請號: | 201911000998.4 | 申請日: | 2019-10-21 |
| 公開(公告)號: | CN110717331B | 公開(公告)日: | 2023-10-24 |
| 發明(設計)人: | 黃浩 | 申請(專利權)人: | 北京愛醫博通信息技術有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06N3/08 |
| 代理公司: | 成都頂峰專利事務所(普通合伙) 51224 | 代理人: | 楊軍 |
| 地址: | 100000 北京市北京經濟*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 神經網絡 中文 命名 實體 識別 方法 裝置 設備 以及 存儲 介質 | ||
1.一種基于神經網絡的中文命名實體識別方法,其特征在于,包括如下步驟:
S101.對待訓練數據進行預處理,得到各個句子的字符特征標識向量和字符位置標識向量,其中,所述字符特征標識向量包含有在對應句子中各個字的字符特征唯一ID號,所述字符位置標識向量包含有在對應句子中各個字的字符位置唯一ID號;
S102.將各個句子的所述字符特征標識向量和所述字符位置標識向量作為訓練樣本,導入多層神經網絡模型進行訓練,得到中文命名實體識別模型;
S103.應用所述中文命名實體識別模型對目標文本進行中文命名實體識別,獲取實體標注結果。
2.如權利要求1所述的一種基于神經網絡的中文命名實體識別方法,其特征在于,在所述步驟S101中,按照如下步驟得到各個句子的字符特征標識向量:
S1011及S1021.對所述待訓練數據進行分句處理,得到若干句子;
S1012.對各個句子進行文字分割處理,使字與字之間分開;
S1013.統計所有字,并為每個字分配字符特征唯一ID號;
S1014.針對各個句子,根據在對應句子中每個字的對應字符特征唯一ID號,生成所述字符特征標識向量。
3.如權利要求1所述的一種基于神經網絡的中文命名實體識別方法,其特征在于,在所述步驟S101中,按照如下步驟得到各個句子的字符位置標識向量:
S1021.對所述待訓練數據進行分句處理,得到若干句子;
S1022.對各個句子進行基于分詞工具的全模式分詞處理,得到若干詞語;
S1023.針對各個句子,標記每個字在所屬詞語中的位置,然后根據所屬詞語在對應句子中的先后順序,將位置標記信息拼接組成對應字的字符位置標簽;
S1024.統計所有字符位置標簽,并為每個字符位置標簽分配字符位置唯一ID號;
S1025.針對各個句子,根據在對應句子中每個字的對應字符位置唯一ID號,生成所述字符位置標識向量。
4.如權利要求3所述的一種基于神經網絡的中文命名實體識別方法,其特征在于,在所述步驟S1023中,按照如下方式標記每個字在所屬詞語中的位置:采用詞首符號、詞中符號、詞尾符號或非詞符號以及詞語長度和字位序號拼接構成字在所屬詞語中的位置標記信息,其中,所述字位序號是指字在所屬詞語中先后順序的序列號。
5.如權利要求1所述的一種基于神經網絡的中文命名實體識別方法,其特征在于,在所述步驟S102中包括有如下步驟:
S201.在將所述字符特征標識向量和所述字符位置標識向量進行拼接后,導入所述多層神經網絡模型進行訓練,然后輸出包含隱藏層向量的識別模型;
S202.利用條件隨機場對每個字符進行實體標注,標記出語句序列中的實體信息;
S203.通過反復訓練獲得一組最優數據權重,得到識別精度最高的中文命名實體識別模型。
6.如權利要求1所述的一種基于神經網絡的中文命名實體識別方法,其特征在于,在所述步驟S103中包括有如下步驟:
S301.應用所述中文命名實體識別模型對目標文本進行按字地序列化標注,然后把成塊的字符串轉化為實體,獲取實體標注結果。
7.如權利要求1所述的一種基于神經網絡的中文命名實體識別方法,其特征在于,所述多層神經網絡模型為CNN神經網絡模型、GRU神經網絡模型、雙向LSTM神經網絡模型、Transformer神經網絡模型或BERT神經網絡模型。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京愛醫博通信息技術有限公司,未經北京愛醫博通信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911000998.4/1.html,轉載請聲明來源鉆瓜專利網。





