[發(fā)明專利]一種基于主動學(xué)習(xí)的文本數(shù)據(jù)自動標(biāo)注方法有效
| 申請?zhí)枺?/td> | 201710081921.9 | 申請日: | 2017-02-15 |
| 公開(公告)號: | CN107067025B | 公開(公告)日: | 2020-12-22 |
| 發(fā)明(設(shè)計(jì))人: | 王進(jìn);張登峰;卜亞楠;李穎;范磊;李智星;歐陽衛(wèi)華;孫開偉;陳喬松;鄧欣;胡峰;雷大江 | 申請(專利權(quán))人: | 重慶郵電大學(xué) |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 重慶市恒信知識產(chǎn)權(quán)代理有限公司 50102 | 代理人: | 劉小紅 |
| 地址: | 400065 重*** | 國省代碼: | 重慶;50 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 主動 學(xué)習(xí) 文本 數(shù)據(jù) 自動 標(biāo)注 方法 | ||
本發(fā)明請求保護(hù)一種基于主動學(xué)習(xí)的文本數(shù)據(jù)自動標(biāo)注方法,屬于主動學(xué)習(xí)領(lǐng)域,包括以下步驟:101對已標(biāo)記和未標(biāo)記數(shù)據(jù)進(jìn)行處理;102利用多個不同分類器對未標(biāo)記數(shù)據(jù)進(jìn)行分類;103選出分歧熵低的數(shù)據(jù);104對分歧熵低的數(shù)據(jù)進(jìn)行人工標(biāo)記;105對人工標(biāo)記結(jié)果進(jìn)行自檢。本發(fā)明針對如何在減少人工標(biāo)注數(shù)據(jù)的數(shù)量的同時,盡量保證人工標(biāo)注數(shù)據(jù)的準(zhǔn)確性問題,通過結(jié)合主動學(xué)習(xí)方法發(fā)明一個附帶自檢功能的數(shù)據(jù)自動標(biāo)注系統(tǒng),達(dá)到縮減工作量且提高人工標(biāo)注數(shù)據(jù)準(zhǔn)確性的目的。
技術(shù)領(lǐng)域
本發(fā)明涉及主動學(xué)習(xí)領(lǐng)域,尤其涉及一種基于主動學(xué)習(xí)的數(shù)據(jù)自動標(biāo)注方法。
背景技術(shù)
隨著大數(shù)據(jù)時代的到來,互聯(lián)網(wǎng)上出現(xiàn)了一種新型職業(yè)—數(shù)據(jù)標(biāo)注員。數(shù)據(jù)標(biāo)注員的工作是使用自動化的工具從互聯(lián)網(wǎng)上抓取、收集數(shù)據(jù),包括文本、圖片、語音等等,然后對抓取的數(shù)據(jù)進(jìn)行整理與標(biāo)注。具體的工作流程:首先,標(biāo)注人員經(jīng)過培訓(xùn),確定需要標(biāo)注的樣本數(shù)據(jù)以及標(biāo)注規(guī)則;然后,根據(jù)事先安排好的規(guī)則對樣本數(shù)據(jù)進(jìn)行打標(biāo);最后,對標(biāo)注完以后的結(jié)果進(jìn)行合并。但是,這種打標(biāo)過程存在以下問題:1、整個標(biāo)注過程非常復(fù)雜,數(shù)據(jù)量特別多的時候,需要人工勞動力會特別大;2、在數(shù)據(jù)標(biāo)注過程中,由于標(biāo)注人員的精力有限或者標(biāo)注人員的主觀性等因素,導(dǎo)致無法保證標(biāo)注數(shù)據(jù)的百分百準(zhǔn)確性,即無法判斷標(biāo)注的質(zhì)量。因此,大量數(shù)據(jù)的標(biāo)注過程是一個非常耗時且難以保證準(zhǔn)確率的任務(wù)。
在真實(shí)的應(yīng)用中,實(shí)驗(yàn)數(shù)據(jù)容易獲得,數(shù)據(jù)規(guī)模也是非常大的,由于數(shù)據(jù)需要處理成有標(biāo)簽樣本,因而,需要大量的人員耗時耗力來處理。在大數(shù)據(jù)發(fā)展的今天,通過已標(biāo)記樣本來標(biāo)記未標(biāo)記的樣本數(shù)據(jù)是非常常見的一種方法。由于人工標(biāo)記樣本是有限的,而且不能保證所有的人工標(biāo)記的數(shù)據(jù)樣本都是正確的。而且,在實(shí)際問題中,某些樣本數(shù)據(jù),如基因分析所用的基因組成數(shù)據(jù),標(biāo)記代價很高,所以通常來說,未標(biāo)記樣本數(shù)量會遠(yuǎn)遠(yuǎn)超過已標(biāo)記樣本的數(shù)據(jù)。因此,怎樣減少人工標(biāo)注數(shù)據(jù)的數(shù)量,并盡量保證人工標(biāo)注數(shù)據(jù)的準(zhǔn)確性的此類主動學(xué)習(xí)方法,成為了近年來的研究熱點(diǎn)之一。
因此,本文針對在大數(shù)據(jù)背景下,基于傳統(tǒng)主動學(xué)習(xí)方法,提出一種基于主動學(xué)習(xí)的數(shù)據(jù)自動標(biāo)注系統(tǒng),解決人工標(biāo)注數(shù)據(jù)的可靠性問題,對于機(jī)器學(xué)習(xí)算法不能正確標(biāo)注的數(shù)據(jù)樣本進(jìn)行人工標(biāo)注,之后,對人工標(biāo)注的結(jié)果利用一種自檢機(jī)制,對人工標(biāo)注結(jié)果進(jìn)行反饋,以確保數(shù)據(jù)標(biāo)注的正確性。
發(fā)明內(nèi)容
本發(fā)明旨在解決以上現(xiàn)有技術(shù)的問題。提出了一種縮減工作量且提高人工標(biāo)注數(shù)據(jù)準(zhǔn)確性的基于主動學(xué)習(xí)的文本數(shù)據(jù)自動標(biāo)注方法。本發(fā)明的技術(shù)方案如下:
一種基于主動學(xué)習(xí)的文本數(shù)據(jù)自動標(biāo)注方法,其包括以下步驟:101、對已標(biāo)記文本數(shù)據(jù)和未標(biāo)記文本數(shù)據(jù)進(jìn)行處理:首先分別對已人工標(biāo)記樣本文本數(shù)據(jù)和未標(biāo)記樣本文本數(shù)據(jù)做聚類處理,保存聚類后所得的k個聚簇中心點(diǎn) (C1,C2,C3,…,Ck)和每個聚簇內(nèi)點(diǎn)到聚類中心的距離d,以及每個聚簇的聚類半徑(r1,r2,…,rk);
102、利用多個不同的基分類器對未標(biāo)記文本數(shù)據(jù)進(jìn)行分類:根據(jù)步驟101 中經(jīng)過聚類處理的部分已標(biāo)記文本數(shù)據(jù)訓(xùn)練M個不同的分類器 (M1,M2,…,MM),并根據(jù)另外一部分文本數(shù)據(jù)使用線性回歸模型對M個不同基分類器的分類結(jié)果做模型融合,得到每個基分類器的權(quán)重(i1,i2,…,iM),使用這 M個分類器結(jié)合各自權(quán)重對未標(biāo)記文本數(shù)據(jù)進(jìn)行分類并根據(jù)標(biāo)記結(jié)果,將已確定標(biāo)記無誤的樣本加入已標(biāo)記樣本并不斷定時重新訓(xùn)練當(dāng)前各分類器模型,未標(biāo)記文本數(shù)據(jù)確認(rèn)類別后加入到已標(biāo)記文本數(shù)據(jù)中,隨著已標(biāo)記文本數(shù)據(jù)量的增加,分類器模型應(yīng)不斷重新訓(xùn)練更新;
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于重慶郵電大學(xué),未經(jīng)重慶郵電大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710081921.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 同類專利
- 專利分類
G06K 數(shù)據(jù)識別;數(shù)據(jù)表示;記錄載體;記錄載體的處理
G06K9-00 用于閱讀或識別印刷或書寫字符或者用于識別圖形,例如,指紋的方法或裝置
G06K9-03 .錯誤的檢測或校正,例如,用重復(fù)掃描圖形的方法
G06K9-18 .應(yīng)用具有附加代碼標(biāo)記或含有代碼標(biāo)記的打印字符的,例如,由不同形狀的各個筆畫組成的,而且每個筆畫表示不同的代碼值的字符
G06K9-20 .圖像捕獲
G06K9-36 .圖像預(yù)處理,即無須判定關(guān)于圖像的同一性而進(jìn)行的圖像信息處理
G06K9-60 .圖像捕獲和多種預(yù)處理作用的組合
- 根據(jù)用戶學(xué)習(xí)效果動態(tài)變化下載學(xué)習(xí)數(shù)據(jù)的系統(tǒng)及方法
- 用于智能個人化學(xué)習(xí)服務(wù)的方法
- 漸進(jìn)式學(xué)習(xí)管理方法及漸進(jìn)式學(xué)習(xí)系統(tǒng)
- 輔助學(xué)習(xí)的方法及裝置
- 基于人工智能的課程推薦方法、裝置、設(shè)備及存儲介質(zhì)
- 基于強(qiáng)化學(xué)習(xí)的自適應(yīng)移動學(xué)習(xí)路徑生成方法
- 一種線上視頻學(xué)習(xí)系統(tǒng)
- 一種基于校園大數(shù)據(jù)的自適應(yīng)學(xué)習(xí)方法、裝置及設(shè)備
- 一種學(xué)習(xí)方案推薦方法、裝置、設(shè)備和存儲介質(zhì)
- 游戲?qū)W習(xí)效果評測方法及系統(tǒng)
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲介質(zhì)
- 文本生成方法、裝置和電子設(shè)備





