[發明專利]基于弱監督技術主動學習的智能標注方法、裝置及平臺在審
| 申請號: | 201911127625.3 | 申請日: | 2019-11-18 |
| 公開(公告)號: | CN110968695A | 公開(公告)日: | 2020-04-07 |
| 發明(設計)人: | 羅彤;孫靜靜;陳國旗;王希治 | 申請(專利權)人: | 羅彤;北京融匯金信信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62;G06N20/00 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 苗曉靜 |
| 地址: | 100036 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 技術 主動 學習 智能 標注 方法 裝置 平臺 | ||
本發明實施例公開了一種基于弱監督技術主動學習的智能標注方法、裝置及平臺,方法包括:獲取待標注數據的標注方式,并根據所述標注方式對所述待標注數據進行數據標注,得到標注數據;選擇機器學習模型和對應的模型參數配置,根據所述模型參數配置和所述標注數據對所述機器學習模型進行訓練;若判斷訓練結果滿足驗證條件,則完成所述機器學習模型的訓練;通過特定的標注方式對待標注數據進行數據標注,并根據選擇的模型參數配置和標注數據對選擇的機器學習模型進行訓練,用戶無需手工逐條標注數據,可通過弱監督方式生成大量標注數據,同時主動學習使用戶盡可能用最小量標注的代價,達到優秀的模型效果。
技術領域
本發明涉及計算機技術領域,具體涉及一種基于弱監督技術主動學習的智能標注方法、裝置及平臺。
背景技術
隨著數據量的急劇增多,AI技術發展迅速,而機器學習是AI發展到一定階段的必然產物。機器學習是通過計算的手段,從大量數據中挖掘有價值的潛在信息。在機器學習領域,往往通過將經驗數據提供給機器學習算法來訓練機器學習模型以確定構成機器學習模型的理想參數,而訓練好的機器學習模型可被應用于在面對新的預測數據時提供相應的預測結果。
近年來,由于數據爆炸式增長以及計算力的提升,深度學習技術已經成為當前人工智能領域的一個研究熱點,其已在圖像識別、語音識別、自然語言處理等領域展現出了巨大的優勢,并且仍在繼續發展變化。
雖然深度學習使得諸多領域取得突破性進展,但是仍然存在一些局限。目前,依賴大規模標注數據的有監督的深度學習仍然占據主導地位。一方面,大規模標注數據的獲取受到人工成本與時間成本的限制:真實世界存在著海量未標注數據,將這些數據逐一添加人工標簽,顯然是不現實的。另一方面,很多機器學習任務需要相關專業人士參與才能完成,單純業務人員無法獨立完成機器學習任務。
雖然機器學習模型的應用越來越廣泛,但是由于機器學習模型的實現比較復雜,需要開發人員根據概率統計、機器算法等進行編碼,然后,對編寫的代碼進行反復訓練,才能得到機器學習模型。
發明內容
由于現有方法存在上述問題,本發明實施例提出一種基于弱監督技術主動學習的智能標注方法、裝置及平臺。
第一方面,本發明實施例提出一種基于弱監督技術主動學習的智能標注方法,包括:
獲取待標注數據的標注方式,并根據所述標注方式對所述待標注數據進行數據標注,得到標注數據;
選擇機器學習模型和對應的模型參數配置,根據所述模型參數配置和所述標注數據對所述機器學習模型進行訓練;
若判斷訓練結果滿足驗證條件,則完成所述機器學習模型的訓練;
其中,所述標注方法包括以下至少一種:標簽分類方式、粗細粒度的情感識別方式、序列識別方式、結構化信息方式和序列生成方式;
所述序列識別方式包括以下至少一種:實體識別方式、分詞識別方式和詞性識別方式;
所述結構化信息方式包括以下至少一種:關系識別方式、句法分析方式、語義分析方式、事件抽取方式和多輪對話方式,所述多輪對話方式是具有上下文的結構化信息方式;
所述序列生成方式包括以下至少一種:機器翻譯方式、文本摘要方式和文本生成方式。
可選地,所述獲取待標注數據的標注方式,并根據所述標注方式對所述待標注數據進行數據標注,得到標注數據,具體包括:
若根據所述標注方式無法對所述待標注數據進行數據標注,則生成待標注提示信息,接收輸入設備輸入的標注信息,并根據所述標注信息得到標注數據。
可選地,所述根據所述標注方式對所述待標注數據進行數據標注,具體包括:
根據所述標注方式進入語料集逐條對所述待標注數據進行數據標注;或,
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于羅彤;北京融匯金信信息技術有限公司,未經羅彤;北京融匯金信信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911127625.3/2.html,轉載請聲明來源鉆瓜專利網。





