[發明專利]實體標注模型的訓練方法、實體標注方法以及裝置有效
| 申請號: | 201811314682.8 | 申請日: | 2018-11-06 |
| 公開(公告)號: | CN111143571B | 公開(公告)日: | 2020-12-25 |
| 發明(設計)人: | 李寬;楊春勇;權圣 | 申請(專利權)人: | 馬上消費金融股份有限公司 |
| 主分類號: | G06F16/36 | 分類號: | G06F16/36 |
| 代理公司: | 深圳市威世博知識產權代理事務所(普通合伙) 44280 | 代理人: | 何倚雯 |
| 地址: | 401120 重慶市渝北區*** | 國省代碼: | 重慶;50 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 實體 標注 模型 訓練 方法 以及 裝置 | ||
1.一種實體標注模型的訓練方法,其特征在于,所述訓練方法包括:
將已標注語料以及目標領域的未標注語料輸入到深度序列模型;
通過所述深度序列模型根據所述已標注語料的實體類型對所述目標領域的未標注語料進行實體類型的標注,得到所述目標領域的未標注語料的標注實體類型;
通過所述深度序列模型對所述目標領域的未標注語料進行實體類型預測,得到所述目標領域的未標注語料的預測實體類型;
將所述標注實體類型與所述預測實體類型進行比對,根據比對結果對所述深度序列模型進行優化訓練,得到所述深度序列模型的當前優化模型參數;
基于所述當前優化模型參數對所述深度序列模型進行迭代訓練;
根據迭代次數是否達到設定數量或迭代訓練后的深度序列模型的輸出正確率是否高于設定概率確定對所述深度序列模型是否進行再訓練,并得到所述實體標注模型,所述實體標注模型為訓練完成的所述深度序列模型;
所述通過所述深度序列模型根據所述已標注語料的實體類型對所述目標領域的未標注語料進行實體類型的標注,得到所述目標領域的未標注語料的標注實體類型的步驟具體包括:
基于所述目標領域的未標注語料的上下文信息或/和在設定數據庫中的概率確定所述目標領域的未標注語料的實體邊界;
利用所述實體邊界對所述目標領域的未標注語料的實體進行抽取;
基于所述已標注語料的實體類型,將所述目標領域的未標注語料中的與所述已標注語料的類型相同的實體進行聚類,得到所述目標領域的未標注語料的所述標注實體類型。
2.根據權利要求1所述的訓練方法,其特征在于,所述基于所述當前優化模型參數對所述深度序列模型進行迭代訓練的步驟具體包括:
基于所述目標領域的無標注語料以及所述已標注語料基于所述當前優化模型參數對所述深度序列模型進行迭代訓練。
3.根據權利要求1所述的訓練方法,其特征在于,所述根據迭代次數是否達到設定數量或迭代訓練后的深度序列模型的輸出正確率是否高于設定概率確定對所述深度序列模型是否進行再訓練,并得到所述實體標注模型,所述實體標注模型為訓練完成的所述深度序列模型的步驟具體包括:
當迭代次數達到設定數量或迭代訓練后的深度序列模型的輸出正確率高于設定概率時,將經所述迭代訓練后的深度序列模型確定為所述實體標注模型。
4.根據權利要求1-3任一項所述的訓練方法,其特征在于,所述通過所述深度序列模型根據所述已標注語料的實體類型對所述目標領域的未標注語料進行實體類型的標注,得到所述目標領域的未標注語料的標注實體類型的步驟包括:
通過所述已標注語料對所述深度序列模型進行訓練,得到訓練后的深度序列模型;
通過所述訓練后的深度序列模型根據所述已標注語料的實體類型對所述目標領域的未標注語料進行實體類型的標注,得到所述目標領域的未標注語料的所述標注實體類型。
5.一種實體標注方法,其特征在于,所述實體標注方法基于實體標注模型,所述實體標注模型是通過權利要求1-4任一項訓練方法訓練得到的,包括:
接收到待標注的語料;
通過所述實體標注模型對所述待標注的語料進行實體抽取,并對所述實體的類型進行標注;
輸出所述待標注的語料的實體類型標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于馬上消費金融股份有限公司,未經馬上消費金融股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811314682.8/1.html,轉載請聲明來源鉆瓜專利網。





