[發明專利]在線序列標注模型的訓練方法、在線標注方法及相關設備有效
| 申請號: | 202011052029.6 | 申請日: | 2020-09-29 |
| 公開(公告)號: | CN112182157B | 公開(公告)日: | 2023-09-22 |
| 發明(設計)人: | 張濤;黃少波;曾增烽 | 申請(專利權)人: | 中國平安人壽保險股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F40/295;G06F18/214 |
| 代理公司: | 深圳市世聯合知識產權代理有限公司 44385 | 代理人: | 汪琳琳 |
| 地址: | 518000 廣東省深圳市福田區益田路5033號*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 在線 序列 標注 模型 訓練 方法 相關 設備 | ||
1.一種基于CRF++工具的在線序列標注模型的訓練方法,其特征在于,包括下述步驟:
獲取預先標記的第一數據集,根據所述第一數據集對預設的序列標注模型進行離線訓練,得到模型輸出結果滿足預設要求的離線標注模型,其中所述第一數據集的數據量不大于預先設定的第一閾值;
從至少一個數據源中獲取未標記的數據,將所述未標記的數據輸入至所述離線標注模型中,以對所述未標記的數據進行離線標注,得到第二數據集,其中所述第二數據集的數據量大于所述第一數據集的數據量,且所述第二數據集的數據量不低于預先設定的第二閾值;
獲取CRF++工具訓練指令,根據所述CRF++工具訓練指令獲取CRF++工具序列標注模板;
根據所述CRF++工具訓練指令,使所述CRF++工具通過所述第二數據集中的標記數據和所述CRF++工具序列標注模板進行模型訓練,得到標注速度大于所述離線標注模型的標注速度的在線序列標注模型;
在將所述在線序列標注模型進行上線之前,對所述在線序列標注模型進行驗證,當驗證合格時保留所述在線序列標注模型,否則對所述在線序列標注模型重新進行訓練,直到訓練的所述在線序列標注模型驗證合格時停止訓練,輸出最終的在線序列標注模型;
其中,所述對所述在線序列標注模型進行驗證包括:
將驗證集輸入所述在線序列標注模型得到預測結果,將所述預測結果與預先標注的結果進行對比,根據所述預測結果與所述預先標注的結果的差異大小判斷預測準確率,當所述預測準確率達到預設閾值時驗證合格。
2.根據權利要求1所述的基于CRF++工具的在線序列標注模型的訓練方法,其特征在于,所述預設的序列標注模型采用BERT-Bi-LSTM-CRF的模型框架。
3.一種基于CRF++工具的在線序列標注模型的訓練裝置,所述裝置用于實現權利要求1或2所述的基于CRF++工具的在線序列標注模型的訓練方法,其特征在于,所述裝置包括:
第一模型訓練模塊,用于獲取預先標記的第一數據集,根據所述第一數據集對預設的序列標注模型進行離線訓練,得到模型輸出結果滿足預設要求的離線標注模型,其中所述第一數據集的數據量不大于預先設定的第一閾值;
離線標注模塊,用于從至少一個數據源中獲取未標記的數據,將所述未標記的數據輸入至所述離線標注模型中,以對所述未標記的數據進行離線標注,得到第二數據集,其中所述第二數據集的數據量大于所述第一數據集的數據量,且所述第二數據集的數據量不低于預先設定的第二閾值;
第二模型訓練模塊,用于將所述第二數據集中的標記數據輸入至CRF++工具中進行模型訓練,得到標注速度大于所述離線標注模型的標注速度的在線序列標注模型。
4.一種在線文本標注方法,其特征在于,包括下述步驟:
接收用戶終端發送的在線文本標注指令,根據所述在線文本標注指令獲取待標注的文本;
將所述待標注的文本輸入預設的在線序列標注模型中,輸出文本的序列,其中,所述預設的在線序列標注模型根據權利要求1或2所述的基于CRF++工具的在線序列標注模型的訓練方法獲得;
將所述文本的序列反饋至用戶終端。
5.一種在線文本標注系統,其特征在于,包括:
數據獲取模塊,用于接收用戶終端發送的在線文本標注指令,根據所述在線文本標注指令獲取待標注的文本;
在線標注模塊,用于將所述待標注的文本輸入預設的在線序列標注模型中,輸出文本的序列,其中,所述預設的在線序列標注模型根據權利要求1或2所述的基于CRF++工具的在線序列標注模型的訓練方法獲得;
發送模塊,用于將所述文本的序列反饋至用戶終端。
6.一種計算機設備,其特征在于,包括存儲器和處理器,所述存儲器中存儲有計算機可讀指令,所述處理器執行所述計算機可讀指令時實現如權利要求1或2所述的基于CRF++工具的在線序列標注模型的訓練方法的步驟,或者實現如權利要求4所述的在線文本標注方法的步驟。
7.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質上存儲有計算機可讀指令,所述計算機可讀指令被處理器執行時實現如權利要求1或2所述的基于CRF++工具的在線序列標注模型的訓練方法的步驟,或者實現如權利要求4所述的在線文本標注方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國平安人壽保險股份有限公司,未經中國平安人壽保險股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011052029.6/1.html,轉載請聲明來源鉆瓜專利網。





