[發明專利]一種自動去除樣本標記噪聲的方法及系統在審
| 申請號: | 202010046887.3 | 申請日: | 2020-01-16 |
| 公開(公告)號: | CN111259339A | 公開(公告)日: | 2020-06-09 |
| 發明(設計)人: | 方軍鵬 | 申請(專利權)人: | 支付寶(杭州)信息技術有限公司 |
| 主分類號: | G06F17/18 | 分類號: | G06F17/18;G06K9/62 |
| 代理公司: | 成都七星天知識產權代理有限公司 51253 | 代理人: | 楊永梅 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 自動 去除 樣本 標記 噪聲 方法 系統 | ||
本說明書實施例公開了一種自動去除樣本標記噪聲的方法及系統,所述方法包括:獲取多個樣本,所述多個樣本合計包含M個不同標記,M為≥1的整數;初始化所述樣本包含所述M個不同標記中任一標記的概率,并基于初始化后的結果構建初始置信度矩陣;基于權重矩陣A迭代更新所述初始置信度矩陣,得到第一置信度矩陣;所述權重矩陣A中元素代表由所述多個樣本中第i個樣本與第j個樣本之間的相似度確定的第一權重;將權重向量B與所述第一置信度矩陣相乘得到所述樣本的第二置信度向量;所述權重向量B中元素代表由所述樣本與其他樣本的相似度占比確定的第二權重;基于預設條件從所述第二置信度向量中確定所述樣本的噪聲標記并去除。
技術領域
本說明書實施例涉及計算機技術領域,特別涉及一種自動去除樣本標記噪聲的方法及系統。
背景技術
隨著互聯網的快速發展,機器學習與數據挖掘領域越來越受到重視,分類是一種常見的機器學習任務,監督學習是分類任務常用的學習方法,在監督學習中,訓練數據所對應的標簽質量對于學習效果至關重要。
訓練數據對應的標簽即是對訓練數據某種信息的標記,例如,類別,然而,在很多業務場景下,人們獲取的訓練數據集都是含有噪聲標記的,含有噪聲標記的訓練數據對于后續建立模型具有負面的影響,會影響模型的預測效果,因此,研究一種能自動去除樣本標記噪聲的方法及系統是非常有必要的。
發明內容
本說明書實施例的一個方面提供一種自動去除樣本標記噪聲的方法,包括:獲取多個樣本,所述多個樣本合計包含M個不同的標記,M為≥1的整數;初始化所述樣本包含所述M個不同標記中任一標記的概率,并基于初始化后的結果構建初始置信度矩陣;基于權重矩陣A迭代更新所述初始置信度矩陣,得到第一置信度矩陣;所述權重矩陣A中元素代表由所述多個樣本中第i個樣本與第j個樣本之間的相似度確定的第一權重;將權重向量B與所述優化置信度矩陣相乘得到所述樣本的第二置信度向量;所述權重矩陣B中元素代表由所述樣本與其他樣本的相似度占比確定的第二權重;基于預設條件從所述第二置信度向量中確定所述樣本的噪聲標記并去除。
本說明書實施例的一個方面提供一種自動去除樣本標記噪聲的系統,包括:樣本獲取模塊,用于獲取多個樣本,所述多個樣本合計包含M個不同的標記,M為≥1的整數;置信度初始化模塊,用于初始化所述樣本包含所述M個不同標記中任一標記的概率,并基于初始化后的結果構建初始置信度矩陣;置信度優化模塊,用于基于權重矩陣A迭代更新所述初始置信度矩陣,得到第一置信度矩陣;所述權重矩陣A中元素代表由所述多個樣本中第i個樣本與第j個樣本之間的相似度確定的第一權重;置信度投票模塊,用于將權重向量B與所述第一置信度矩陣相乘得到所述樣本的第二置信度向量;所述權重矩陣B中元素代表由所述樣本與其他樣本的相似度占比確定的第二權重;標記去噪模塊,用于基于預設條件從所述第二置信度向量中確定所述樣本的噪聲標記并去除。
本說明書實施例的一個方面提供一種自動去除樣本標記噪聲的裝置,包括至少一個存儲介質和至少一個處理器,所述至少一個存儲介質用于存儲計算機指令;所述至少一個處理器用于執行所述計算機指令以實現自動去除樣本標記噪聲的方法。
本說明書實施例的一個方面提供一種計算機可讀存儲介質,所述存儲介質存儲計算機指令,當計算機讀取存儲介質中的計算機指令后,實現自動去除樣本標記噪聲的方法。
附圖說明
本說明書將以示例性實施例的方式進一步描述,這些示例性實施例將通過附圖進行詳細描述。這些實施例并非限制性的,在這些實施例中,相同的編號表示相同的結構,其中:
圖1是根據本說明書的一些實施例所示的示例性自動去除樣本標記噪聲系統的應用場景圖;
圖2是根據本說明書的一些實施例所示的示例性自動去除樣本標記噪聲系統的模塊圖;
圖3是根據本說明書的一些實施例所示的自動去除樣本標記噪聲的方法的示例性流程圖;
具體實施方式
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于支付寶(杭州)信息技術有限公司,未經支付寶(杭州)信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010046887.3/2.html,轉載請聲明來源鉆瓜專利網。





