[發明專利]一種樣本類別標簽糾正方法及裝置在審
| 申請號: | 201610388080.1 | 申請日: | 2016-06-01 |
| 公開(公告)號: | CN107451597A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 金洪波;金歡;潘安群 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 類別 標簽 糾正 方法 裝置 | ||
技術領域
本申請涉及標簽糾錯技術領域,更具體地說,涉及一種樣本類別標簽糾正方法及裝置。
背景技術
在數據分析建模領域,我們首先需要保證訓練數據的準確性,基于準確的訓練數據訓練得到的模型才能夠為后續使用。
一般的數據建模學習由監督學習、非監督學習和半監督學習等組成。監督學習通常用于解決分類問題,主要過程是利用訓練數據集學習一個模型,再用模型對測試樣本集進行預測。在這個過程中首先需要準備訓練數據集,而訓練數據集往往需要事先標注出輸出的觀測值,對分類來說,標注出的觀測值就是訓練樣本的類別標簽。
初始狀態下,訓練樣本的類別標簽一般是人工通過先驗知識標注的。而人工標注的類別標簽存在一定的錯誤,導致訓練樣本的類別標簽不準確。為此亟需一種訓練樣本類別標簽的糾正方案,以提升訓練樣本類別標簽的準確度。
發明內容
有鑒于此,本申請提供了一種樣本類別標簽糾正方法及裝置,以提升訓練樣本類別標簽的準確度。
為了實現上述目的,現提出的方案如下:
一種樣本類別標簽糾正方法,包括:
對第一樣本集合和第二樣本集合分別進行聚類,所述第一樣本集合聚類后得到至少一個第一聚類簇,所述第二樣本集合聚類后得到至少一個第二聚類簇;
其中,所述第一樣本集合中各第一樣本的類別標簽為第一類別標簽,所述第二樣本集合中各第二樣本的類別標簽為第二類別標簽,所述第一類別標簽的可信度大于所述第二類別標簽的可信度;
確定所述第一聚類簇和所述第二聚類簇間的距離;
根據所述第一聚類簇和所述第二聚類簇間的距離,確定滿足設定距離條件的目標聚類簇對,目標聚類簇對包含所述至少一個第一聚類簇中的一個第一聚類簇,和所述至少一個第二聚類簇中的一個第二聚類簇;
將所述目標聚類簇對中,第二聚類簇中各第二樣本的類別標簽從所述第二類別標簽修改為可信度高的所述第一類別標簽。
一種樣本類別標簽糾正裝置,包括:
聚類單元,用于對第一樣本集合和第二樣本集合分別進行聚類,所述第一樣本集合聚類后得到至少一個第一聚類簇,所述第二樣本集合聚類后得到至少一個第二聚類簇;其中,所述第一樣本集合中各第一樣本的類別標簽為第一類別標簽,所述第二樣本集合中各第二樣本的類別標簽為第二類別標簽,所述第一類別標簽的可信度大于所述第二類別標簽的可信度;
聚類簇距離確定單元,用于確定所述第一聚類簇和所述第二聚類簇間的距離;
目標聚類簇對確定單元,用于根據所述第一聚類簇和所述第二聚類簇間的距離,確定滿足設定距離條件的目標聚類簇對,目標聚類簇對包含所述至少一個第一聚類簇中的一個第一聚類簇,和所述至少一個第二聚類簇中的一個第二聚類簇;
標簽糾正單元,用于將所述目標聚類簇對中,第二聚類簇中各第二樣本的類別標簽從所述第二類別標簽修改為可信度高的所述第一類別標簽。
本申請實施例提供的樣本類別標簽糾正方法,對第一樣本集合和第二樣本集合分別進行聚類,第一樣本集合聚類后得到至少一個第一聚類簇,第二樣本集合聚類后得到至少一個第二聚類簇;其中,第一樣本集合中各第一樣本的類別標簽為第一類別標簽,第二樣本集合中各第二樣本的類別標簽為第二類別標簽,根據先驗知識可以確定第一類別標簽的可信度大于第二類別標簽的可信度;確定第一聚類簇和第二聚類簇間的距離;根據第一聚類簇和第二聚類簇間的距離,確定滿足設定距離條件的目標聚類簇對,目標聚類簇對包含一個第一聚類簇和一個第二聚類簇;將目標聚類簇對中,第二聚類簇中各第二樣本的類別標簽從第二類別標簽修改為可信度高的第一類別標簽。本申請基于不同類別間距離越大越好的聚類思想,挑選出距離滿足設定距離條件的目標聚類簇對,該目標聚類簇對中存在類別標簽錯誤的樣本,因此,根據先驗知識得到的第一類別標簽的可信度大于第二類別標簽的可信度,將目標聚類簇中第二樣本的類別標簽,從第二類別標簽修改為可信度高的第一類別標簽,實現了對樣本類別標簽的糾正,提升了樣本類別標簽的準確度。
附圖說明
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據提供的附圖獲得其他的附圖。
圖1為本申請實施例公開的一種服務器的硬件結構示意圖;
圖2為本申請實施例公開的一種樣本類別標簽糾正方法流程圖;
圖3為本申請實施例公開的一種聚類方法流程圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610388080.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網絡節點分類方法及裝置
- 下一篇:一種基于最小平均距離的動態時間規整方法





