[發(fā)明專利]一種數(shù)據(jù)標注方法和裝置以及疾病分類模型訓練方法在審
| 申請?zhí)枺?/td> | 202210004573.6 | 申請日: | 2022-01-05 |
| 公開(公告)號: | CN114140653A | 公開(公告)日: | 2022-03-04 |
| 發(fā)明(設(shè)計)人: | 周昊毅;趙昕;和超;張大磊 | 申請(專利權(quán))人: | 北京鷹瞳科技發(fā)展股份有限公司;上海鷹瞳醫(yī)療科技有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06K9/62;G06V10/82 |
| 代理公司: | 北京泛華偉業(yè)知識產(chǎn)權(quán)代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 數(shù)據(jù) 標注 方法 裝置 以及 疾病 分類 模型 訓練 | ||
1.一種對樣本數(shù)據(jù)集進行數(shù)據(jù)標注的方法,其特征在于,包括步驟:
S1、獲取樣本數(shù)據(jù)集,其中樣本數(shù)據(jù)集中的每個樣本包含多個標注者分別對其進行標注的一種或多種分類標簽;
S2、對包含多種分類標簽的樣本的標簽種類進行合并以將有關(guān)聯(lián)的分類標簽對合并且以標簽對中的一個標簽作為合并后的標簽;其中,有關(guān)聯(lián)的分類標簽對是指不同的標注者對同一個樣本標注的不同標簽組成的成對組合;
S3、基于合并后的分類標簽對樣本數(shù)據(jù)集中的樣本進行重新進行標注。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中采用貪心算法對包含多個分類標簽的樣本的標簽種類進行多次迭代合并。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,
所述樣本數(shù)據(jù)集中的每個樣本包含多個有關(guān)聯(lián)的標簽對,每次合并時將合并后使不同標注者對樣本數(shù)據(jù)集的標注分歧度下降最多的標簽對合并。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,
不同標注者對樣本數(shù)據(jù)集的標注分歧度通過預設(shè)目標降值的下降數(shù)量來度量;其中,將以樣本數(shù)據(jù)集中所有類別標簽對應的分歧率、或去零熵值、或分歧熵值、或總熵值的平均值或權(quán)值平均設(shè)置為目標降值。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,通過如下方式設(shè)置目標降值:
計算每類標簽對應的分歧率或去零熵值或分歧熵值或總熵值,其中,每類標簽對應的分歧率為針對該類標簽所有標注者標注不一致的樣本在總樣本中所占的比例;每類標簽對應的去零熵值為針對該類標簽所有標注者標注一致的樣本的熵值平均值;每類標簽對應的分歧熵值為針對該類標簽所有標注者標注不一致的樣本的熵值平均值;每類標簽對應的總熵值為針對該類標簽的所有樣本熵值的平均值;
基于計算出的每類標簽對應的分歧率或去零熵值或分歧熵值或總熵值計算樣本數(shù)據(jù)集中所有類別標簽對應的分歧率或去零熵值或分歧熵值或總熵值的平均值或權(quán)值平均,其中:
分歧率或去零熵值或分歧熵值或總熵值的平均值通過如下方式計算:其中,WH為樣本數(shù)據(jù)集中所有類別標簽對應的分歧率或去零熵值或分歧熵值或總熵值的平均值,H為每類標簽對應的分歧率或去零熵值或分歧熵值或總熵值,N為標簽類別個數(shù);
分歧率或去零熵值或分歧熵值或總熵值的權(quán)值平均通過如下方式計算:其中,QH為樣本數(shù)據(jù)集中所有類別標簽對應的分歧率或去零熵值或分歧熵值或總熵值的權(quán)值平均,P為每類標簽對應的樣本頻率。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,針對每類標簽每個樣本對應的熵值通過如下方式計算:
S=-p log p-(1-p)log(1-p)
其中,S表示針對當前類標簽當前樣本的熵值,p為所有標注者中對當前樣本標注了當前類標簽的比例。
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,合并有關(guān)聯(lián)的標簽對后以被合并的標簽對中目標降值多的那個標簽作為合并后的標簽。
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟S2中,采用貪心算法對包含多個分類標簽的樣本的標簽種類進行多次迭代合并直至目標降值小于或等于0。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述步驟S2中,按照預設(shè)的頻率閾值選擇要合并的標簽對,預設(shè)的頻率閾值選擇要合并的標簽對,其中,所述預設(shè)的頻率閾值設(shè)置為在樣本數(shù)據(jù)集中的出現(xiàn)次數(shù)排在前50%的標簽對。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于北京鷹瞳科技發(fā)展股份有限公司;上海鷹瞳醫(yī)療科技有限公司,未經(jīng)北京鷹瞳科技發(fā)展股份有限公司;上海鷹瞳醫(yī)療科技有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210004573.6/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置





