[發明專利]數據聚類的處理方法、裝置、計算機設備和存儲介質有效
| 申請號: | 202010400391.1 | 申請日: | 2020-05-13 |
| 公開(公告)號: | CN111598153B | 公開(公告)日: | 2023-02-24 |
| 發明(設計)人: | 盧東煥;趙俊杰;馬鍇;鄭冶楓 | 申請(專利權)人: | 騰訊科技(深圳)有限公司 |
| 主分類號: | G06F18/232 | 分類號: | G06F18/232;G06F18/214;G06F18/22 |
| 代理公司: | 華進聯合專利商標代理有限公司 44224 | 代理人: | 王寧;李文淵 |
| 地址: | 518000 廣東省深圳*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 數據 處理 方法 裝置 計算機 設備 存儲 介質 | ||
本申請涉及人工智能領域內的一種數據聚類的處理方法、裝置、計算機設備和存儲介質。所述方法包括:獲取數據樣本;所述數據樣本是聚類業務中聚類對象的樣本;通過聚類模型,映射所述數據樣本為樣本特征;所述樣本特征包括樣本類別特征和樣本類內風格特征;確定所述數據樣本和所述樣本特征的相關性;確定所述樣本特征服從于先驗分布的評分值;所述先驗分布包括所述樣本類別特征對應的類別先驗分布,和所述樣本類內風格特征對應的類內風格先驗分布;至少根據所述相關性和所述評分值調整所述聚類模型;利用調整后的聚類模型對聚類業務中的待聚類數據進行聚類。采用本方法能夠在無需人工標注的情況下有效提高數據聚類的精度。
技術領域
本申請涉及計算機技術領域,特別是涉及一種數據聚類的處理方法、裝置、計算機設備和存儲介質。
背景技術
人工智能(Artificial Intelligence,AI)是一門綜合學科,涉及領域廣泛,既有硬件層面的技術也有軟件層面的技術。人工智能軟件技術的其中一個重要方向是機器學習。聚類分析是機器學習的一種常用技術。圖像、文本、語音等數據類型,均可以作為聚類的對象。通過聚類,可以將相似的對象歸為同一類別,將不相似的對象歸為不同類別。
在傳統的方式中,通過學習數據樣本的標簽特征,將標簽特征作為聚類結果。但是對于互聯網中海量的數據,如果進行人工標注將會消耗大量的人力資源。因此,如何在沒有人工標注的情況下準確完成數據聚類成為目前需要解決的一個技術問題。
發明內容
基于此,有必要針對上述技術問題,提供一種能夠在沒有人工標注的情況下準確完成數據聚類的數據聚類的處理方法、裝置、計算機設備和存儲介質。
一種數據聚類的處理方法,所述方法包括:
獲取數據樣本;所述數據樣本是聚類業務中聚類對象的樣本;
通過聚類模型,映射所述數據樣本為樣本特征;所述樣本特征包括樣本類別特征和樣本類內風格特征;
確定所述數據樣本和所述樣本特征的相關性;
確定所述樣本特征服從于先驗分布的評分值;所述先驗分布包括所述樣本類別特征對應的類別先驗分布,和所述樣本類內風格特征對應的類內風格先驗分布;
至少根據所述相關性和所述評分值調整所述聚類模型;
利用調整后的聚類模型對聚類業務中的待聚類數據進行聚類。
一種數據聚類的處理裝置,所述裝置包括:
第一獲取模塊,用于獲取數據樣本;所述數據樣本是聚類業務中聚類對象的樣本;
特征映射模塊,用于通過聚類模型,映射所述數據樣本為樣本特征;所述樣本特征包括樣本類別特征和樣本類內風格特征;
相關性識別模塊,用于確定所述數據樣本和所述樣本特征的相關性;
先驗分布評分模塊,用于確定所述樣本特征服從于先驗分布的評分值;所述先驗分布包括所述樣本類別特征對應的類別先驗分布,和所述樣本類內風格特征對應的類內風格先驗分布;
聚類訓練模塊,用于至少根據所述相關性和所述評分值調整所述聚類模型;利用調整后的聚類模型對聚類業務中的待聚類數據進行聚類。
一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,其特征在于,所述處理器執行所述計算機程序時實現以下步驟:
獲取數據樣本;所述數據樣本是聚類業務中聚類對象的樣本;
通過聚類模型,映射所述數據樣本為樣本特征;所述樣本特征包括樣本類別特征和樣本類內風格特征;
確定所述數據樣本和所述樣本特征的相關性;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于騰訊科技(深圳)有限公司,未經騰訊科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010400391.1/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





