[發明專利]一種數據標注方法和裝置以及疾病分類模型訓練方法在審
| 申請號: | 202210004573.6 | 申請日: | 2022-01-05 |
| 公開(公告)號: | CN114140653A | 公開(公告)日: | 2022-03-04 |
| 發明(設計)人: | 周昊毅;趙昕;和超;張大磊 | 申請(專利權)人: | 北京鷹瞳科技發展股份有限公司;上海鷹瞳醫療科技有限公司 |
| 主分類號: | G06V10/764 | 分類號: | G06V10/764;G06V10/774;G06K9/62;G06V10/82 |
| 代理公司: | 北京泛華偉業知識產權代理有限公司 11280 | 代理人: | 王勇 |
| 地址: | 100083 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 數據 標注 方法 裝置 以及 疾病 分類 模型 訓練 | ||
本發明提供一種對樣本數據集進行數據標注的方法,包括步驟:S1、獲取樣本數據集,其中樣本數據集中的每個樣本包含多個標注者分別對其進行標注的一種或多種分類標簽;S2、對包含多種分類標簽的樣本的標簽種類進行合并以將有關聯的分類標簽對合并且以標簽對中的一個標簽作為合并后的標簽;其中,有關聯的分類標簽對是指不同的標注者對同一個樣本標注的不同標簽組成的成對組合;S3、基于合并后的分類標簽對樣本數據集中的樣本進行重新進行標注。與現有技術相比,采用本發明方法可以實現對帶有一定主觀性的數據進行預處理以將主觀性的評價使用其他具有相關性的指標客觀化來獲得具有普適性的標簽以實現對數據的標注,然后訓練相關的分類模型。
技術領域
本發明涉及人工智能領域,具體來說,涉及人工智能領域的監督機器 學習領域,更具體地說,涉及針對帶有部分主觀性的數據多分類問題的一 種數據標注方法及模型、一種基于眼底圖像的疾病分類模型訓練方法以及 基于眼底圖像的疾病分類方法。
背景技術
人工智能領域的有監督機器學習是指機器利用已有標簽信息的訓練 樣本進行訓練,將模型映射的輸出與訓練樣本的標簽信息進行比對,可以 在迭代之中利用已有信息訓練及修正模型。在有監督學習中,比較典型的 問題可以根據輸入輸出的特性分為回歸問題、分類問題及標注問題。
其中,分類問題是輸出變量取有限個離散值的預測問題,監督學習從 數據中學習出分類決策函數,稱為分類器,并對新的輸入進行輸出的預測, 此過程稱為分類。而分類問題中的多分類問題是指有多個不同預測類別的 分類問題,一般以拆分策略對樣本進行學習。
在機器學習中,一般分類問題所設定的類別具有比較大的普適性,較 少出現有分歧的情況。對于簡單的分類問題,尤其對于常見的物體分類來 說,物體分類圖片根據人類認知所得出的類別結論都大致相同,因此在沒 有對問題細化的前提下,這種泛化的解答是較為大眾所接受。但是對于例 如疾病大分類、疾病大分類中的細分類問題,都是比較細化的多分類問題, 不同的判斷者對同一對象的分類可能會存在不一樣的情況。例如醫生基于同樣的標本對疾病進行診斷時,不同的醫生給出的診斷結果不盡一致,給 出的診斷結果可能就會產生分歧。以基于眼底圖像進行疾病診斷為例,如 圖1所示,圖1(a)為“豹紋樣改變”,即指在中心凹周圍及后極部血管 弓周圍可清晰地觀察到邊界明確的脈絡膜血管,屬病理性近視;圖1(b) 為“動脈彈性減弱”,一般可以通過觀察動脈的反光、直徑變化以及動靜 脈交叉的壓跡進行判別。這兩類疾病本身有一定關聯性,特征上有重復的 部分,有可能兩種情況共同存在于一個病人之中。相較而言,這些疾病的 嚴重性不高,故在斷癥時醫生可能會忽略另一個可能同時出現的癥狀,出 現不同醫生間帶有分歧的情況。由此可以看出,對識別內容帶有一定主觀 性或評測類的分類問題,不同的人在同一張樣本上可能會得到不同的結果, 產生分歧,使有監督學習的分類問題不能得到既定或客觀評價下普適的標簽信息,難以進行模型訓練。因此,如何對這些涉及主觀性的標簽進行預 處理便是一個解決分類問題并訓練獲得普適性分類模型的先決條件。
發明內容
因此,本發明的目的在于克服上述現有技術的缺陷,提供一種數據標 注方法和裝置以及疾病分類模型訓練方法。
根據本發明的第一方面,提供一種對樣本數據集進行數據標注的方法, 包括步驟:S1、獲取樣本數據集,其中樣本數據集中的每個樣本包含多個 標注者分別對其進行標注的一種或多種分類標簽;S2、對包含多種分類標 簽的樣本的標簽種類進行合并以將有關聯的分類標簽對合并且以標簽對 中的一個標簽作為合并后的標簽;其中,有關聯的分類標簽對是指不同的 標注者對同一個樣本標注的不同標簽組成的成對組合;S3、基于合并后的分類標簽對樣本數據集中的樣本進行重新進行標注。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京鷹瞳科技發展股份有限公司;上海鷹瞳醫療科技有限公司,未經北京鷹瞳科技發展股份有限公司;上海鷹瞳醫療科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210004573.6/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





