[發明專利]一種實體識別模型的訓練方法及裝置在審
| 申請號: | 202010016766.4 | 申請日: | 2020-01-08 |
| 公開(公告)號: | CN111222337A | 公開(公告)日: | 2020-06-02 |
| 發明(設計)人: | 于文才;杜志誠;杜明本;鐘琴隆;崇學偉;于雪磊;閆晗;楊紅超 | 申請(專利權)人: | 山東旗幟信息有限公司 |
| 主分類號: | G06F40/295 | 分類號: | G06F40/295;G06F40/126;G06N3/08 |
| 代理公司: | 濟南千慧專利事務所(普通合伙企業) 37232 | 代理人: | 趙長林 |
| 地址: | 250000 山東省濟南市高新*** | 國省代碼: | 山東;37 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體 識別 模型 訓練 方法 裝置 | ||
1.一種實體識別模型的訓練方法,其特征在于:包括如下步驟:
獲取用于實體識別的語料;
將語料進行標注;
將標注之后的語料進行編碼;
將編碼之后的語料用作深度學習網絡的材料以訓練得到實體識別模型;
所述語料進行編碼時采用BERT-WWM模型進行編碼處理。
2.根據權利要求1所述的一種實體識別模型的訓練方法,其特征在于:所述語料按照字符進行標注,并將各個實體的開始和結束進行區分性標注。
3.根據權利要求2所述的一種實體識別模型的訓練方法,其特征在于:所述語料標注完畢之后,先進行人工檢查再進行編碼。
4.根據權利要求2所述的一種實體識別模型的訓練方法,其特征在于:所述BERT-WWM模型將編碼得到的單詞進行切片處理,進行切片處理之后,相鄰的字符組成詞組進行標注。
5.根據權利要求4所述的一種實體識別模型的訓練方法,其特征在于:將詞組進行標注之后,采用遮蔽語言模型進行詞組的完整遮蔽,然后將遮蔽以及未遮蔽的語料共同作為深度學習網絡的材料。
6.根據權利要求5所述的一種實體識別模型的訓練方法,其特征在于:所述完整遮蔽包括如下形式:將詞組利用等量的代碼替代或將詞組利用等量的其他詞組替代。
7.根據權利要求1所述的一種實體識別模型的訓練方法,其特征在于:所述深度學習網絡采用BiLSTM+CRF模型。
8.根據權利要求1所述的一種實體識別模型的訓練方法,其特征在于:所述語料標注按照如下方式進行:
語料的每個字符依次進行標注;
語料的句首添加[CLS]標簽,句末添加[SEP]標簽;
語料的中間材料采用BIO的標注方式,B代表實體的開始標簽,I代表實體的非開始標簽,O代表非實體標簽;
對標注完成的語料,進行人工審核。
9.根據權利要求8所述的一種實體識別模型的訓練方法,其特征在于:所述BIO標注方式中,不同的類型實體進行標明。
10.一種實體識別模型的訓練裝置,其特征在于:包括如下模塊:
語料庫模塊,用于提供語料;
標注模塊,用于將語料進行標注;
編碼模塊,將標注之后的語料進行編碼;
訓練模塊,用于將編碼之后的語料用作深度學習網絡的材料以訓練得到實體識別模型;
所述語料進行編碼時采用BERT-WWM模型進行編碼處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于山東旗幟信息有限公司,未經山東旗幟信息有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010016766.4/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種終端及通信方法
- 下一篇:一種納米線的處理方法及納米線





