[發明專利]數據處理方法、電子設備及計算機可讀介質有效
| 申請號: | 201910329950.1 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN111832596B | 公開(公告)日: | 2022-03-22 |
| 發明(設計)人: | 楊嵩;黃健;楊非;劉子韜;黃琰 | 申請(專利權)人: | 北京新唐思創教育科技有限公司 |
| 主分類號: | G06V10/774 | 分類號: | G06V10/774;G06V10/30;G06V10/82;G06N3/04;G06N3/08 |
| 代理公司: | 北京合智同創知識產權代理有限公司 11545 | 代理人: | 李杰 |
| 地址: | 100144 北京市石景山區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據處理 方法 電子設備 計算機 可讀 介質 | ||
本申請公開了一種數據處理方法、電子設備及計算機可讀介質。數據處理方法包括:獲取待處理數據的第一特征數據以及來源標識;根據來源標識確定自編碼器中與其對應的第一不共享隱含單元,自編碼器包括多個參數不共享的第一不共享隱含單元;將第一特征數據輸入到確定的第一不共享隱含單元中進行噪聲消除,并輸出滿足設定標準的第二特征數據;將第二特征數據輸入自編碼器的第一共享隱含單元中,通過第一共享隱含單元將第二特征數據映射到設定特征空間,并輸出映射數據;將映射數據輸入到自編碼器的共享特征層,并輸出通過共享特征層提取出的共性特征數據。該數據處理方法可以消除數據中噪聲數據。
技術領域
本申請涉及計算機技術領域,尤其涉及一種數據處理方法、電子設備及計算機可讀介質。
背景技術
隨著科技的發展和進步,機器學習越來越受到人們的重視,機器學習的發展也越來越迅速。在機器學習過程中,訓練樣本的好壞是影響機器學習模型性能至關重要的因素。
在有些場景中,作為訓練樣本的數據可能是相同類型但來源不同的異源數據。異源數據是指由于采集設備和/或采集環境不同導致其中包含的噪聲數據不同,因此會導致訓練出的機器學習模型受不同噪聲數據的影響使性能下降。以語音數據為例,在錄制語音數據時,會因硬件設施等錄音設備的不同使錄制的語音數據存在一定的差異,即異源語音數據,而且也會受到不同環境和噪聲的干擾。這種異源數據會給機器學習模型提取某些共性特征帶來干擾,進而影響到機器學習模型的訓練,造成性能的下降。
對于該問題,傳統的處理方法是盡可能多地收集異源數據用來訓練機器學習模型,并使訓練樣本覆蓋更多的來源,增大訓練數據量,提高機器學習模型的魯棒性。然而,這種處理方法會不可避免地帶來總體性能的下降,且收集大量訓練樣本成本很大,收集難度也會增加。
發明內容
本申請的目的在于提出一種數據處理方法、電子設備及計算機可讀介質,用于解決上述的部分或全部問題。
第一方面,本申請實施例提供一種數據處理方法,所述方法包括:獲取待處理數據的第一特征數據和來源標識;根據所述來源標識,確定自編碼器中與其對應的第一不共享隱含單元,所述自編碼器包括多個參數不共享的第一不共享隱含單元;將所述第一特征數據輸入到確定的所述第一不共享隱含單元中進行噪聲消除,并輸出滿足設定標準的第二特征數據;將所述第二特征數據輸入所述自編碼器的第一共享隱含單元中,通過所述第一共享隱含單元將所述第二特征數據映射到設定特征空間,并輸出映射數據;將所述映射數據輸入到所述自編碼器的共享特征層,并輸出通過所述共享特征層提取出的所述第一特征數據中的共性特征數據。
可選地,在本申請的任一實施例中,所述輸出滿足設定標準的第二特征數據,包括:輸出滿足第一設定維度的第二特征數據,其中,所述第一設定維度與所述第一共享隱含單元首層第一共享隱含層的特征維度相同。
可選地,在本申請的任一實施例中,所述將所述第二特征數據輸入所述自編碼器的第一共享隱含單元中,通過所述第一共享隱含單元將所述第二特征數據映射到設定特征空間,并輸出映射數據,包括:將所述第二特征數據輸入到所述第一共享隱含單元中,所述第一共享隱含單元對所述多個第一不共享隱含單元的輸出共享;通過所述第一共享隱含單元中各第一共享隱含層的權重矩陣和偏置向量將所述第二特征數據映射到所述設定特征空間,并輸出所述映射數據。
可選地,在本申請的任一實施例中,所述將所述映射數據輸入到所述自編碼器的共享特征層,并輸出通過所述共享特征層提取出的所述特征數據中的共性特征數據,包括:將所述映射數據輸入到所述自編碼器的共享特征層,由所述共享特征層根據所述映射數據、所述共享特征層的權重矩陣和偏置向量計算獲得所述特征數據中的共性特征數據。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京新唐思創教育科技有限公司,未經北京新唐思創教育科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910329950.1/2.html,轉載請聲明來源鉆瓜專利網。





