[發明專利]一種樣本類別標簽糾正方法及裝置在審
| 申請號: | 201610388080.1 | 申請日: | 2016-06-01 |
| 公開(公告)號: | CN107451597A | 公開(公告)日: | 2017-12-08 |
| 發明(設計)人: | 金洪波;金歡;潘安群 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 深圳市深佳知識產權代理事務所(普通合伙)44285 | 代理人: | 王仲凱 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 樣本 類別 標簽 糾正 方法 裝置 | ||
1.一種樣本類別標簽糾正方法,其特征在于,包括:
對第一樣本集合和第二樣本集合分別進行聚類,所述第一樣本集合聚類后得到至少一個第一聚類簇,所述第二樣本集合聚類后得到至少一個第二聚類簇;
其中,所述第一樣本集合中各第一樣本的類別標簽為第一類別標簽,所述第二樣本集合中各第二樣本的類別標簽為第二類別標簽,所述第一類別標簽的可信度大于所述第二類別標簽的可信度;
確定所述第一聚類簇和所述第二聚類簇間的距離;
根據所述第一聚類簇和所述第二聚類簇間的距離,確定滿足設定距離條件的目標聚類簇對,目標聚類簇對包含所述至少一個第一聚類簇中的一個第一聚類簇,和所述至少一個第二聚類簇中的一個第二聚類簇;
將所述目標聚類簇對中,第二聚類簇中各第二樣本的類別標簽從所述第二類別標簽修改為可信度高的所述第一類別標簽。
2.根據權利要求1所述的方法,其特征在于,還包括:
對類別標簽修改為第一類別標簽的樣本的位置進行調整,以將其從所述第二樣本集合中刪除,并加入所述第一樣本集合;
計算位置調整后的第一樣本集合與第二樣本集合的距離,并判斷計算得到的距離是否大于位置調整前的第一樣本集合與第二樣本集合的距離;
若是,將位置調整后的第一樣本集合作為新的第一樣本集合,將位置調整后的第二樣本集合作為新的第二樣本集合,觸發所述對第一樣本集合和第二樣本集合分別進行聚類的操作。
3.根據權利要求2所述的方法,其特征在于,還包括:
若計算得到的距離不大于位置調整前的第一樣本集合與第二樣本集合的距離,將類別標簽修改后的樣本的類別標簽還原為所述第二類別標簽。
4.根據權利要求1所述的方法,其特征在于,所述根據所述第一聚類簇和所述第二聚類簇間的距離,確定滿足設定距離條件的目標聚類簇對,包括:
按照距離值由小至大的順序,對所述第一聚類簇和所述第二聚類簇間的距離進行排序;
確定排序處于前指定序位的各距離所分別對應的目標聚類簇對。
5.根據權利要求1所述的方法,其特征在于,所述根據所述第一聚類簇和所述第二聚類簇間的距離,確定滿足設定距離條件的目標聚類簇對,包括:
確定距離值小于設定距離閾值的各距離所分別對應的目標聚類簇對。
6.根據權利要求1-5任一項所述的方法,其特征在于,所述對第一樣本集合和第二樣本集合分別進行聚類,包括:
計算第一樣本集合聚類簇的個數X1:
X1=M1/M11
其中,M1為所述第一樣本集合包含的樣本數量,M11為設定的第一樣本單次期望調整數量;
計算第二樣本集合聚類簇的個數X2:
X2=M2/M21
其中,M2為所述第二樣本集合包含的樣本數量,M21為設定的第二樣本單次期望調整數量;
按照計算得到的第一樣本集合聚類簇的個數X1、第二樣本集合聚類簇的個數X2,分別對第一樣本集合和第二樣本集合進行聚類。
7.一種樣本類別標簽糾正裝置,其特征在于,包括:
聚類單元,用于對第一樣本集合和第二樣本集合分別進行聚類,所述第一樣本集合聚類后得到至少一個第一聚類簇,所述第二樣本集合聚類后得到至少一個第二聚類簇;其中,所述第一樣本集合中各第一樣本的類別標簽為第一類別標簽,所述第二樣本集合中各第二樣本的類別標簽為第二類別標簽,所述第一類別標簽的可信度大于所述第二類別標簽的可信度;
聚類簇距離確定單元,用于確定所述第一聚類簇和所述第二聚類簇間的距離;
目標聚類簇對確定單元,用于根據所述第一聚類簇和所述第二聚類簇間的距離,確定滿足設定距離條件的目標聚類簇對,目標聚類簇對包含所述至少一個第一聚類簇中的一個第一聚類簇,和所述至少一個第二聚類簇中的一個第二聚類簇;
標簽糾正單元,用于將所述目標聚類簇對中,第二聚類簇中各第二樣本的類別標簽從所述第二類別標簽修改為可信度高的所述第一類別標簽。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610388080.1/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種網絡節點分類方法及裝置
- 下一篇:一種基于最小平均距離的動態時間規整方法





