[發(fā)明專利]基于弱監(jiān)督技術主動學習的智能標注方法、裝置及平臺在審
| 申請?zhí)枺?/td> | 201911127625.3 | 申請日: | 2019-11-18 |
| 公開(公告)號: | CN110968695A | 公開(公告)日: | 2020-04-07 |
| 發(fā)明(設計)人: | 羅彤;孫靜靜;陳國旗;王希治 | 申請(專利權(quán))人: | 羅彤;北京融匯金信信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N20/00 |
| 代理公司: | 北京路浩知識產(chǎn)權(quán)代理有限公司 11002 | 代理人: | 苗曉靜 |
| 地址: | 100036 北京*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監(jiān)督 技術 主動 學習 智能 標注 方法 裝置 平臺 | ||
1.一種基于弱監(jiān)督技術主動學習的智能標注方法,其特征在于,包括:
獲取待標注數(shù)據(jù)的標注方式,并根據(jù)所述標注方式對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注,得到標注數(shù)據(jù);
選擇機器學習模型和對應的模型參數(shù)配置,根據(jù)所述模型參數(shù)配置和所述標注數(shù)據(jù)對所述機器學習模型進行訓練;
若判斷訓練結(jié)果滿足驗證條件,則完成所述機器學習模型的訓練;
其中,所述標注方法包括以下至少一種:標簽分類方式、粗細粒度的情感識別方式、序列識別方式、結(jié)構(gòu)化信息方式和序列生成方式;
所述序列識別方式包括以下至少一種:實體識別方式、分詞識別方式和詞性識別方式;
所述結(jié)構(gòu)化信息方式包括以下至少一種:關系識別方式、句法分析方式、語義分析方式、事件抽取方式和多輪對話方式,所述多輪對話方式是具有上下文的結(jié)構(gòu)化信息方式;
所述序列生成方式包括以下至少一種:機器翻譯方式、文本摘要方式和文本生成方式。
2.根據(jù)權(quán)利要求1所述的基于弱監(jiān)督技術主動學習的智能標注方法,其特征在于,所述獲取待標注數(shù)據(jù)的標注方式,并根據(jù)所述標注方式對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注,得到標注數(shù)據(jù),具體包括:
若根據(jù)所述標注方式無法對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注,則生成待標注提示信息,接收輸入設備輸入的標注信息,并根據(jù)所述標注信息得到標注數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的基于弱監(jiān)督技術主動學習的智能標注方法,其特征在于,所述根據(jù)所述結(jié)構(gòu)化信息方式對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注,具體包括:
根據(jù)所述標注方式進入語料集逐條對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注;或,
根據(jù)所述標注方式選擇遠程監(jiān)督和人工規(guī)則的弱監(jiān)督學習方法對所述待標注數(shù)據(jù)進行非精確標注;或,
根據(jù)所述標注方式通過語料搜索對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注。
4.根據(jù)權(quán)利要求1所述的基于弱監(jiān)督技術主動學習的智能標注方法,其特征在于,所述獲取待標注數(shù)據(jù)的標注方式,并根據(jù)所述標注方式對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注,得到標注數(shù)據(jù)之前,還包括:
根據(jù)主動學習方法或者弱監(jiān)督學習方法生成所述待標注數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的基于弱監(jiān)督技術主動學習的智能標注方法,其特征在于,所述若判斷訓練結(jié)果滿足驗證條件,則完成所述機器學習模型的訓練之后,還包括:
根據(jù)所述訓練結(jié)果和驗證結(jié)果評估訓練完成的機器學習模型的性能指標:
其中,所述性能指標包括:準確率和/或召回率。
6.一種基于弱監(jiān)督技術主動學習的智能標注裝置,其特征在于,包括:
數(shù)據(jù)標注模塊,用于獲取待標注數(shù)據(jù)的標注方式,并根據(jù)所述標注方式對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注,得到標注數(shù)據(jù);
模型訓練模塊,用于選擇機器學習模型和對應的模型參數(shù)配置,根據(jù)所述模型參數(shù)配置和所述標注數(shù)據(jù)對所述機器學習模型進行訓練;
結(jié)果驗證模塊,用于若判斷訓練結(jié)果滿足驗證條件,則完成所述機器學習模型的訓練;
其中,所述標注方法包括以下至少一種:標簽分類方式、粗細粒度的情感識別方式、序列識別方式、結(jié)構(gòu)化信息方式和序列生成方式;
所述序列識別方式包括以下至少一種:實體識別方式、分詞識別方式和詞性識別方式;
所述結(jié)構(gòu)化信息方式包括以下至少一種:關系識別方式、句法分析方式、語義分析方式、事件抽取方式和多輪對話方式,所述多輪對話方式是具有上下文的結(jié)構(gòu)化信息方式;
所述序列生成方式包括以下至少一種:機器翻譯方式、文本摘要方式和文本生成方式。
7.根據(jù)權(quán)利要求6所述的基于弱監(jiān)督技術主動學習的智能標注裝置,其特征在于,所述數(shù)據(jù)標注模塊具體用于:
若根據(jù)所述標注方式無法對所述待標注數(shù)據(jù)進行數(shù)據(jù)標注,則生成待標注提示信息,接收輸入設備輸入的標注信息,并根據(jù)所述標注信息得到標注數(shù)據(jù)。
8.一種基于弱監(jiān)督技術主動學習的智能標注平臺,其特征在于,包括如權(quán)利要求6或7所述的基于弱監(jiān)督技術主動學習的智能標注裝置。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于羅彤;北京融匯金信信息技術有限公司,未經(jīng)羅彤;北京融匯金信信息技術有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911127625.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





