[發明專利]數據清洗方法及裝置、計算機設備和介質在審
| 申請號: | 202110315924.0 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112860681A | 公開(公告)日: | 2021-05-28 |
| 發明(設計)人: | 趙志新;龐敏輝;肖巖 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215 |
| 代理公司: | 北京市漢坤律師事務所 11602 | 代理人: | 姜浩然;吳麗麗 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 清洗 方法 裝置 計算機 設備 介質 | ||
本公開提供了一種數據清洗方法及裝置、計算機設備和介質,涉及人工智能技術領域,尤其涉及深度學習和數據處理技術領域。實現方案為:獲取多個待清洗數據,其中,多個待清洗數據中每個待清洗數據具有對應的類別標簽;針對多個待清洗數據中每個待清洗數據,執行以下操作:在多個待清洗數據中除去該待清洗數據的剩余待清洗數據中確定與該待清洗數據相似的一個或多個召回數據;以及針對一個或多個召回數據中每個召回數據,響應于該召回數據所對應的類別標簽與該待清洗數據所對應的類別標簽不一致,將該召回數據與該待清洗數據確定為糾纏數據對;以及對基于多個待清洗數據所確定的一個或多個糾纏數據對中的至少一個糾纏數據對進行清洗處理。
技術領域
本公開涉及人工智能技術領域,尤其涉及深度學習和數據處理技術領域,具體涉及一種數據清洗的方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品。
背景技術
人工智能是研究使計算機來模擬人的某些思維過程和智能行為(如學習、推理、思考、規劃等)的學科,既有硬件層面的技術,也有軟件層面的技術。人工智能硬件技術一般包括如傳感器、專用人工智能芯片、云計算、分布式存儲、大數據處理等領域;人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習、大數據處理技術、知識圖譜技術等幾大方向。一般而言,基于人工智能技術的任務需要依賴于經過訓練的模型來完成,用于訓練模型所采用的數據的質量對模型的訓練效果有著很大的影響。
在此部分中描述的方法不一定是之前已經設想到或采用的方法。除非另有指明,否則不應假定此部分中描述的任何方法僅因其包括在此部分中就被認為是現有技術。類似地,除非另有指明,否則此部分中提及的問題不應認為在任何現有技術中已被公認。
發明內容
本公開提供了一種數據清洗的方法、裝置、計算設備、計算機可讀存儲介質和計算機程序產品。
根據本公開的一方面,提供了一種數據清洗方法,包括:獲取多個待清洗數據,其中,多個待清洗數據中每個待清洗數據具有對應的類別標簽;針對多個待清洗數據中每個待清洗數據,執行以下操作:在多個待清洗數據中除去該待清洗數據的剩余待清洗數據中確定與該待清洗數據相似的一個或多個召回數據;以及針對一個或多個召回數據中每個召回數據,響應于該召回數據所對應的類別標簽與該待清洗數據所對應的類別標簽不一致,將該召回數據與該待清洗數據確定為糾纏數據對;以及對基于多個待清洗數據所確定的一個或多個糾纏數據對中的至少一個糾纏數據對進行清洗處理。
根據本公開的另一方面,提供了一種意圖識別方法,包括:獲取輸入數據;基于輸入數據,在數據庫中檢索與輸入數據相似的至少一個樣本數據,其中,數據庫包括多個樣本數據,每個樣本數據具有意圖標簽,多個樣本數據為采用上述的數據清洗方法對多個待清洗數據進行清洗而得到;以及基于檢索到的至少一個樣本數據中每個樣本數據所對應的意圖標簽,確定輸入數據的意圖。
根據本公開的另一方面,提供了一種意圖識別網絡模型的訓練方法,包括:獲取多個樣本數據及其意圖標簽,其中,多個樣本數據為采用如上述的數據清洗方法對多個待清洗數據進行清洗而得到;以及利用多個樣本數據及其意圖標簽,對意圖識別網絡模型進行訓練。
根據本公開的另一方面,提供了一種數據清洗裝置,包括:第一獲取單元,被配置用于獲取多個待清洗數據,其中,多個待清洗數據中每個待清洗數據具有對應的類別標簽;第一確定單元,被配置用于針對多個待清洗數據中每個待清洗數據,執行以下操作:在多個待清洗數據中除去該待清洗數據的剩余待清洗數據中確定與該待清洗數據相似的一個或多個召回數據;以及針對一個或多個召回數據中每個召回數據,響應于該召回數據所對應的類別標簽與該待清洗數據所對應的類別標簽不一致,將該召回數據與該待清洗數據確定為糾纏數據對;以及清洗單元,被配置用于對基于多個待清洗數據所確定的一個或多個糾纏數據對中的至少一個糾纏數據對進行清洗處理。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110315924.0/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





