[發明專利]臟數據的識別方法、裝置、設備及存儲介質在審
| 申請號: | 201911261723.6 | 申請日: | 2019-12-10 |
| 公開(公告)號: | CN110941607A | 公開(公告)日: | 2020-03-31 |
| 發明(設計)人: | 李瑞婷;王兵卡 | 申請(專利權)人: | 醫渡云(北京)技術有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G16H10/00 |
| 代理公司: | 北京律智知識產權代理有限公司 11438 | 代理人: | 孫寶海;袁禮君 |
| 地址: | 100191 北京市海*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 識別 方法 裝置 設備 存儲 介質 | ||
本發明公開一種臟數據的識別方法、裝置、設備及存儲介質。該方法包括:獲取至少一組待識別數據;根據預先設置的臟數據識別模型,對至少一組待識別數據進行臟數據識別,并確定至少一組待識別數據中臟數據的比例;當臟數據的比例小于或等于該組待識別數據所對應的基準閾值時,確定采用預先設置的臟數據識別模型識別臟數據。該方法能夠快速、準確地識別臟數據。
技術領域
本發明涉及數據識別領域,具體而言,涉及一種臟數據的識別方法、裝置、設備及存儲介質。
背景技術
臟數據(Dirty Read),是指源系統中的數據不在給定的范圍內或對于實際業務毫無意義,或是數據格式非法,以及在源系統中存在不規范的編碼和含糊的業務邏輯。
真實世界數據中,存在大量的不符合醫療規范、數據邏輯的原生臟數據混在全數據集中,影響醫學統計,醫生使用,而且對于醫學分析,會有噪音產生,直接或間接地影響分析結果,基于此問題,識別臟數據、標識臟數據成為一個越來越重要的問題。
在所述背景技術部分公開的上述信息僅用于加強對本發明的背景的理解,因此它可以包括不構成對本領域普通技術人員已知的現有技術的信息。
發明內容
本發明提供一種臟數據的識別方法、裝置、設備及存儲介質,能夠快速、準確地識別臟數據。
本發明的其他特性和優點將通過下面的詳細描述變得顯然,或部分地通過本發明的實踐而習得。
根據本發明的一方面,提供一種臟數據的識別方法,包括:獲取至少一組待識別數據;根據預先設置的臟數據識別模型,對至少一組待識別數據進行臟數據識別,并確定所述至少一組待識別數據中臟數據的比例;當所述臟數據的比例小于或等于該組待識別數據所對應的基準閾值時,確定采用預先設置的臟數據識別模型識別臟數據。
根據本發明的一實施方式,上述方法還包括:當臟數據的比例大于該組待識別數據所對應的基準閾值,且確定通過預先設置的臟數據識別模型識別出的臟數據為非臟數據時,更新臟數據識別模型和/或基準閾值,使得根據更新后的臟數據識別模型對該組待識別數據進行識別后得到的臟數據比例小于或等于該組待識別數據所對應的基準閾值;確定采用更新后的臟數據識別模型識別臟數據。
根據本發明的一實施方式,上述方法還包括:分別基于各待識別數據的最小粒度數據,生成唯一的標識;確定采用預先設置的臟數據識別模型識別臟數據后,該方法還包括:存儲識別出的臟數據和各臟數據對應的標識。
根據本發明的一實施方式,預先設置的臟數據識別模型包括:多個預先設置的不同類型的臟數據識別模型;對至少一組待識別數據進行臟數據識別,并確定至少一組待識別數據中臟數據的比例,包括:根據不同類型的臟數據識別模型,分別對至少一個待識別數據進行臟數據識別,并分別確定出至少一組待識別數據中不同類型臟數據的比例。
根據本發明的一實施方式,當臟數據的比例小于或等于該組待識別數據所對應的基準閾值時,確定采用預先設置的臟數據識別模型識別臟數據,包括:當一種類型臟數據的比例小于或等于該類型所對應的基準閾值時,確定采用預先設置的該類型的臟數據識別模型識別臟數據。
根據本發明的一實施方式,預先設置的不同類型的臟數據識別模型分別具有各自預設的模型參數;模型參數包括:臟數據的特征屬性信息和臟數據類型;其中,不同類型的臟數據識別模型具有不同的臟數據特征屬性信息。
根據本發明的另一方面,提供一種臟數據識別裝置,包括:數據獲取模塊,用于獲取一組待識別數據;比例確定模塊,用于根據預先設置的臟數據識別模型,對至少一種待識別數據進行臟數據識別,并確定至少一組待識別數據中臟數據的比例;臟數據確定模塊,用于當臟數據的比例小于或等于該組待識別數據所對應的基準閾值時,確定采用預先設置的臟數據識別模型識別臟數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于醫渡云(北京)技術有限公司,未經醫渡云(北京)技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201911261723.6/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:閃存的制造方法及閃存
- 下一篇:一種黃酮類化合物及其結構類似物的合成方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





