[發(fā)明專利]一種數(shù)據(jù)標(biāo)注方法在審
| 申請?zhí)枺?/td> | 201710828902.8 | 申請日: | 2017-09-14 |
| 公開(公告)號: | CN107729378A | 公開(公告)日: | 2018-02-23 |
| 發(fā)明(設(shè)計)人: | 陳吉紅;陳崢;周源;楊建中;劉宇飛;張凱;林亨;董放 | 申請(專利權(quán))人: | 華中科技大學(xué);清華大學(xué) |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京市漢坤律師事務(wù)所11602 | 代理人: | 段志超 |
| 地址: | 430070 湖北*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 標(biāo)注 方法 | ||
技術(shù)領(lǐng)域:
本發(fā)明涉及技術(shù)預(yù)見領(lǐng)域,特別涉及基于群體智能的多源異構(gòu)數(shù)據(jù)標(biāo)注系統(tǒng)。
技術(shù)背景:
近年來,隨著計算機(jī)技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,出現(xiàn)了各種形式的大數(shù)據(jù),然而數(shù)據(jù)量的增大使人工標(biāo)注語料變得異常困難,而且代價高昂,因而給大數(shù)據(jù)的資料庫的過濾、標(biāo)注和運(yùn)用挑戰(zhàn),由此技術(shù)眾包平臺應(yīng)運(yùn)而生。然而,眾包平臺存在投入大、效率低、數(shù)據(jù)處理量小,以及標(biāo)注質(zhì)量得不到保證等缺點。
對于上述技術(shù)問題,公布號為CN106489149A的中國專利申請公開了一種基于數(shù)據(jù)挖掘和眾包的數(shù)據(jù)標(biāo)注方法及系統(tǒng)。該專利提出一種獨(dú)特的方法對標(biāo)注過程中標(biāo)注結(jié)果進(jìn)行標(biāo)記,便于改進(jìn)標(biāo)注結(jié)果準(zhǔn)確度,可以有效提高標(biāo)注質(zhì)量,降低標(biāo)注成本。在CN106489149A的中國專利申請中,通過獲取眾包標(biāo)注結(jié)果,使用整合的算法,對眾包標(biāo)注結(jié)果進(jìn)行自動化審核,篩選出問題標(biāo)注結(jié)果,并對問題標(biāo)注結(jié)果進(jìn)行標(biāo)記,輸出經(jīng)過自動化審核的眾包標(biāo)注結(jié)果,上述眾包標(biāo)注結(jié)果中包括問題標(biāo)注結(jié)果。
但是,在技術(shù)預(yù)見領(lǐng)域,待標(biāo)注數(shù)據(jù)是廣義概念上的數(shù)據(jù),數(shù)據(jù)標(biāo)注的范圍即包括對論文、專利、新聞以及其它網(wǎng)絡(luò)文本數(shù)據(jù)進(jìn)行所屬技術(shù)領(lǐng)域的標(biāo)注,又包括技術(shù)預(yù)見領(lǐng)域特有的數(shù)據(jù)標(biāo)注需求,如對某一技術(shù)發(fā)展階段、技術(shù)類型、期刊重要度、研究機(jī)構(gòu)影響力等進(jìn)行標(biāo)注,形式十分靈活,數(shù)據(jù)標(biāo)注任務(wù)本身也有一定的難度。因此,在技術(shù)預(yù)見領(lǐng)域,對于不同的領(lǐng)域不同的數(shù)據(jù)類型需要具有相應(yīng)標(biāo)注能力的標(biāo)注者來完成相應(yīng)的數(shù)據(jù)標(biāo)注任務(wù)。基于上述原因技術(shù)預(yù)見的數(shù)據(jù)標(biāo)注任務(wù)對標(biāo)注者具有較高的領(lǐng)域知識要求,上述公布號為CN106489149A的中國專利申請所公開的技術(shù)無法勝任技術(shù)預(yù)見領(lǐng)域的數(shù)據(jù)標(biāo)注工作。目前需要有一個標(biāo)注系統(tǒng)能滿足在技術(shù)預(yù)見領(lǐng)域的標(biāo)注需求,為技術(shù)預(yù)見領(lǐng)域提供數(shù)據(jù)標(biāo)注技術(shù)支持。
發(fā)明內(nèi)容:
本發(fā)明的范圍只由后附權(quán)利要求書所規(guī)定,在任何程度上都不受這一節(jié)發(fā)明內(nèi)容的陳述所限。
為了克服上述技術(shù)問題,本發(fā)明提供一種數(shù)據(jù)標(biāo)注方法,包括:數(shù)據(jù)標(biāo)注任務(wù)分配步驟,根據(jù)待標(biāo)注數(shù)據(jù)的數(shù)據(jù)標(biāo)識碼和標(biāo)注者標(biāo)識碼,將待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)與標(biāo)注者進(jìn)行匹配,并依據(jù)匹配結(jié)果將所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)分配給所述標(biāo)注者;數(shù)據(jù)標(biāo)注步驟,依據(jù)所要求的標(biāo)注形式對所述待標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注;結(jié)果收集和整合步驟,在所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)的標(biāo)注結(jié)果都提交之后,根據(jù)所述標(biāo)注者的標(biāo)注積分以及所述標(biāo)注結(jié)果,整合所述標(biāo)注結(jié)果,推測出正確標(biāo)簽。本發(fā)明的上述技術(shù)方案通過將待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)與標(biāo)注者進(jìn)行匹配,選擇具有一定領(lǐng)域知識背景的標(biāo)注者進(jìn)行標(biāo)注,使得標(biāo)注精度較高,極大降低了技術(shù)預(yù)見成本,提高了進(jìn)行技術(shù)預(yù)見的能力。
優(yōu)選地,所述的數(shù)據(jù)標(biāo)注方法還包括:標(biāo)注進(jìn)度監(jiān)控步驟,監(jiān)視所述待標(biāo)注數(shù)據(jù)的標(biāo)注進(jìn)度;其中,在指定時間內(nèi)沒有開始所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)時,對所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)重新進(jìn)行分配,將所述待標(biāo)注數(shù)據(jù)分配給所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)的任務(wù)類別標(biāo)注積分較高的其他標(biāo)注者繼續(xù)標(biāo)注。本發(fā)明采用上述技術(shù)方案使得數(shù)據(jù)標(biāo)注任務(wù)能夠及時順利地進(jìn)行,提高了對大數(shù)據(jù)的分析效率和技術(shù)預(yù)見的準(zhǔn)確度。
優(yōu)選地,所述的數(shù)據(jù)標(biāo)注方法還包括:積分更新步驟,根據(jù)所述標(biāo)注者標(biāo)注的質(zhì)量更新所述標(biāo)注者在對應(yīng)數(shù)據(jù)標(biāo)注任務(wù)中的積分。本發(fā)明采用上述技術(shù)方案使得數(shù)據(jù)標(biāo)注任務(wù)能夠準(zhǔn)確有效地分配正確的標(biāo)注者,提高了對大數(shù)據(jù)的分析效率和技術(shù)預(yù)見的準(zhǔn)確度。
優(yōu)選地,所述的數(shù)據(jù)標(biāo)注方法還包括:數(shù)據(jù)標(biāo)注任務(wù)類別定義步驟,將所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)劃分為不同類別,并為每個所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)類別提供唯一的任務(wù)標(biāo)識碼。本發(fā)明采用上述技術(shù)方案使得數(shù)據(jù)標(biāo)注任務(wù)能夠準(zhǔn)確有效地分配正確的標(biāo)注者,提高了對大數(shù)據(jù)的分析效率和技術(shù)預(yù)見的準(zhǔn)確度。
優(yōu)選地,在所述的數(shù)據(jù)標(biāo)注方法中,基于所述任務(wù)標(biāo)識碼獲取所述待標(biāo)注的數(shù)據(jù)標(biāo)注任務(wù)類別,并基于所獲取的數(shù)據(jù)標(biāo)注任務(wù)類別對每一個所述待標(biāo)注數(shù)據(jù)生成所述標(biāo)注數(shù)據(jù)標(biāo)識碼。本發(fā)明采用上述技術(shù)方案使得數(shù)據(jù)標(biāo)注任務(wù)能夠準(zhǔn)確有效地分配正確的標(biāo)注者,提高了對大數(shù)據(jù)的分析效率和技術(shù)預(yù)見的準(zhǔn)確度。
優(yōu)選地,所述的數(shù)據(jù)標(biāo)注方法還包括:預(yù)處理步驟,從標(biāo)注任務(wù)發(fā)布者上傳的所述待標(biāo)注數(shù)據(jù)的原始數(shù)據(jù)中抽取所述待標(biāo)注數(shù)據(jù)信息。
優(yōu)選地,在所述預(yù)處理步驟中,從所述待標(biāo)注數(shù)據(jù)中提取相應(yīng)的字段。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華中科技大學(xué);清華大學(xué),未經(jīng)華中科技大學(xué);清華大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710828902.8/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 標(biāo)注信息生成裝置、查詢裝置及共享系統(tǒng)
- 一種圖像分割標(biāo)注方法、裝置及計算機(jī)可讀存儲介質(zhì)
- 一種數(shù)據(jù)標(biāo)注方法
- 一種基于群智的語料庫數(shù)據(jù)標(biāo)注方法及系統(tǒng)
- 一種圖像標(biāo)注方法和裝置
- 一種樣本標(biāo)注方法、裝置、存儲介質(zhì)及設(shè)備
- 數(shù)據(jù)標(biāo)注管理方法及裝置、電子設(shè)備和可讀存儲介質(zhì)
- 標(biāo)注的更新方法、裝置、存儲介質(zhì)、處理器以及運(yùn)載工具
- 數(shù)據(jù)的標(biāo)注方法和裝置
- 一種智能標(biāo)注平臺的方法、裝置、電子設(shè)備和存儲介質(zhì)





