[發(fā)明專利]一種基于文本描述的主動數(shù)據(jù)采集方法在審
| 申請?zhí)枺?/td> | 202110797843.9 | 申請日: | 2021-07-14 |
| 公開(公告)號: | CN113486966A | 公開(公告)日: | 2021-10-08 |
| 發(fā)明(設計)人: | 唐英鵬;黃圣君 | 申請(專利權)人: | 南京市九一數(shù)據(jù)技術有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62;G06F40/289 |
| 代理公司: | 北京華沛德權律師事務所 11302 | 代理人: | 馬苗苗 |
| 地址: | 211100 江蘇省南京市鋪崗街5*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 文本 描述 主動 數(shù)據(jù) 采集 方法 | ||
本發(fā)明面向自動標注技術領域公開了一種基于文本描述的主動數(shù)據(jù)采集方法。標記數(shù)據(jù)是主流機器學習模型訓練的基礎,其獲取通常包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、人工審查幾個關鍵步驟?,F(xiàn)有主動學習方法往往認為數(shù)據(jù)采集代價低廉,僅在數(shù)據(jù)標注階段進行數(shù)據(jù)選擇,這使得大量采集數(shù)據(jù)沒有得到利用,造成資源浪費。本發(fā)明提出了一種基于文本描述的主動數(shù)據(jù)采集方法,在數(shù)據(jù)采集階段進行主動選擇。方法基于代表性與信息量刻畫出最有價值的數(shù)據(jù)畫像,并利用自然語言處理模型將機器學習模型對數(shù)據(jù)的需求以文本形式反饋給工作人員,從而令采集的數(shù)據(jù)能夠滿足模型當前的偏好。發(fā)明充分考慮了實際任務場景的挑戰(zhàn),能夠提高采集數(shù)據(jù)的利用率。
技術領域
本發(fā)明屬于自動標注技術領域,具體涉及一種基于文本描述的主動數(shù)據(jù)采集方法。
背景技術
機器學習是推進國計民生各領域智能化的關鍵技術。標記數(shù)據(jù)是主流機器學習模型訓練的基礎。然而標記數(shù)據(jù)獲取通常耗時耗力,目前訓練數(shù)據(jù)獲取成本已成為制約機器學習技術實際應用的一個重要瓶頸。標記數(shù)據(jù)獲取通常包括數(shù)據(jù)采集、數(shù)據(jù)清洗、數(shù)據(jù)標注、人工審查幾個關鍵步驟。一般認為,數(shù)據(jù)標注的開銷占了訓練數(shù)據(jù)獲取流程中的大部分。為降低標注開銷,主動標注技術往往被廣泛應用以降低標注代價。它通過主動選擇最有價值的樣本向?qū)<也樵儤擞?,從而顯著降低模型提升性能所需要的樣本數(shù)。然而在部分領域中,數(shù)據(jù)采集需要運行昂貴設備,從而產(chǎn)生一筆不可忽視的開銷?,F(xiàn)有主動標注方法往往對數(shù)據(jù)采集階段不施加偏好,到數(shù)據(jù)標注階段再進行數(shù)據(jù)選擇[Settles,Burr.Activelearning literature survey.(2009).],這將導致采集的數(shù)據(jù)無法完全被利用,造成大量成本浪費。少數(shù)主動類別選擇方法提出采集特定類別的樣本,例如[Lomasky,Rachel,etal.Active class selection.European Conference on Machine Learning.(2007).]方法,但該方法沒有考慮樣本本身的信息量,所采集的樣本對模型提升效果無法達到最優(yōu),仍然存在開銷浪費的風險。部分基于樣本生成的方法[Zhu,Jia-Jie,and José Bento.Generative adversarial active learning.arXiv preprint arXiv:1702.07956(2017).][Ducoffe,Melanie,and Frederic Precioso.Adversarial active learningfor deep networks:a margin based approach.arXiv preprint arXiv:1802.09841(2018).],面臨著所生成樣本不具備語義信息的風險,在實際任務中難以應用。綜上所述,現(xiàn)有技術手段沒有充分考慮數(shù)據(jù)采集階段所產(chǎn)生的開銷,將造成大量成本的浪費;部分數(shù)據(jù)采集方法難以滿足實際任務場景的需求,從而無法完全發(fā)揮主動數(shù)據(jù)采集技術的潛能。
發(fā)明內(nèi)容
發(fā)明目的:為了提高采集數(shù)據(jù)的利用率,克服現(xiàn)有技術的不足,本發(fā)明提供一種基于文本描述的主動數(shù)據(jù)采集方法。
技術方案:為實現(xiàn)上述目的,本發(fā)明采用的技術方案為:
一種基于文本描述的主動數(shù)據(jù)采集方法,包括以下步驟:
步驟1),給定一個帶有n個樣本的小型標記數(shù)據(jù)集合其中,xi為樣本,yi為標記;目標模型f;以及預訓練好的數(shù)據(jù)描述生成模型g。利用f在標記集合上進行留一法驗證,并利用g對所有標記數(shù)據(jù)生成文本描述。根據(jù)每個樣本的預測情況與文本生成情況,選出信息量最高的模式;
步驟2),根據(jù)選出的模式,生成對應的查詢文本,并向數(shù)據(jù)采集人員查詢;工作人員根據(jù)文本描述,主動采集符合特征的數(shù)據(jù)并進行標注,并將數(shù)據(jù)加入標記集合中;
步驟3),基于標注數(shù)據(jù)更新目標模型f,以及數(shù)據(jù)描述生成模型g;
步驟4),返回步驟1)或結束并輸出預測模型f*;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京市九一數(shù)據(jù)技術有限公司,未經(jīng)南京市九一數(shù)據(jù)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110797843.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





