[發明專利]基于人工智能的數據標注方法、裝置、設備以及存儲介質在審
| 申請號: | 202210335852.0 | 申請日: | 2022-03-31 |
| 公開(公告)號: | CN114662607A | 公開(公告)日: | 2022-06-24 |
| 發明(設計)人: | 徐思琪;孫珂;龔建;潘旭;夏志群;楊哲;卓澤城 | 申請(專利權)人: | 北京百度網訊科技有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 北京易光知識產權代理有限公司 11596 | 代理人: | 閻敏;徐升升 |
| 地址: | 100085 北京市*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 人工智能 數據 標注 方法 裝置 設備 以及 存儲 介質 | ||
1.一種基于人工智能的數據標注方法,包括:
確定多個參與聚類的樣本;
根據各個所述參與聚類的樣本的向量表示,對所述多個參與聚類的樣本進行預聚類,得到多個類簇,每個所述類簇包含至少一個所述參與聚類的樣本;
接收針對各個所述類簇的標注信息,根據所述標注信息重新確定多個參與聚類的樣本,返回執行所述對所述多個參與聚類的樣本進行預聚類的步驟,以實現迭代處理;直至滿足收斂條件或迭代次數達到次數閾值的情況下,根據所述針對各個所述類簇的標注信息確定聚類結果。
2.根據權利要求1所述的方法,其中,針對類簇的所述標注信息包括:所述類簇中包含的至少一個子簇以及每個所述子簇中的代表性樣本;
所述根據所述標注信息重新確定多個參與聚類的樣本,包括:將針對各個所述類簇的標注信息中的每個子簇中的代表性樣本,作為重新確定的多個參與聚類的樣本。
3.根據權利要求2所述的方法,其中,所述根據各個所述參與聚類的樣本的向量表示,對所述多個參與聚類的樣本進行預聚類,包括:
采用聚類算法并結合限制條件,對所述多個參與聚類的樣本進行預聚類,以使預聚類得到的各個類簇滿足所述限制條件。
4.根據權利要3所述的方法,其中,所述限制條件包括以下至少之一:
每個類簇中包含的參與聚類的樣本個數不大于樣本個數閾值;
每個類簇中包含的各個參與聚類的樣本在上一次迭代處理的預聚類過程中,屬于不同的類簇。
5.根據權利要4所述的方法,所述采用聚類算法并結合限制條件,對所述多個參與聚類的樣本進行預聚類,包括:
確定各個所述參與聚類的樣本的密度;
按照所述密度從大到小的順序,對各個所述參與聚類的樣本分別執行以下操作:
確定所述參與聚類的樣本的多個鄰近樣本;按照鄰近樣本與所述參與聚類的樣本的相似度從大到小的順序,依次遍歷各個所述鄰近樣本,在第一判斷條件均被滿足的情況下,將所述參與聚類的樣本加入所述鄰近樣本所屬的類簇;所述第一判斷條件包括:
所述鄰近樣本的密度大于所述參與聚類的樣本的密度;
所述鄰近樣本存在所屬的類簇;
所述鄰近樣本與所述參與聚類的樣本的相似度大于或等于相似度閾值;
所述鄰近樣本所屬的類簇包含的樣本的個數小于所述樣本個數閾值;
所述鄰近樣本與所述參與聚類的樣本在上一次迭代處理的預聚類過程中,屬于不同的類簇。
6.根據權利要5所述的方法,還包括:在不滿足所述第一判斷條件中至少之一的情況下,建立新的類簇,所述新的類簇包括所述參與聚類的樣本。
7.根據權利要4所述的方法,其中,所述采用聚類算法并結合限制條件,對所述多個參與聚類的樣本進行預聚類,包括:
從所述多個參與聚類的樣本中選取部分,將選取的每個參與聚類的樣本作為一個聚類中心;
針對除所述聚類中心以外的各個所述參與聚類的樣本,在第二判斷條件均被滿足的情況下,將所述參與聚類的樣本加入距離最近的聚類中心所屬的類簇;所述第二判斷條件包括:
所述距離最近的聚類中心所屬的類簇中包含的樣本的個數小于所述樣本個數閾值;
所述距離最近的聚類中心所屬的類簇中,不包含上一次迭代處理的預聚類過程中與所述參與聚類的樣本屬于同一類簇的樣本。
8.根據權利要7所述的方法,還包括:在不滿足所述第二判斷條件中至少之一的情況下,將所述參與聚類的樣本加入其他聚類中心所屬的類簇。
9.根據權利要4至8中任一所述的方法,其中,所述收斂條件包括:各個所述類簇中包含的樣本個數均小于所述樣本個數閾值。
10.根據權利要4至8中任一所述的方法,其中,所述次數閾值由所述樣本個數閾值和第一次迭代過程中所述參與聚類的樣本的個數確定。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京百度網訊科技有限公司,未經北京百度網訊科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202210335852.0/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





