[發(fā)明專利]針對聚類模型的數(shù)據(jù)預(yù)處理方法及裝置有效
| 申請?zhí)枺?/td> | 202011409579.9 | 申請日: | 2020-12-06 |
| 公開(公告)號: | CN112541530B | 公開(公告)日: | 2023-06-20 |
| 發(fā)明(設(shè)計)人: | 熊濤;趙文龍;吳若凡;漆遠(yuǎn) | 申請(專利權(quán))人: | 支付寶(杭州)信息技術(shù)有限公司 |
| 主分類號: | G06F18/10 | 分類號: | G06F18/10;G06F18/23213;G06N3/0464;G06N3/0455;G06N3/084;G06N3/088 |
| 代理公司: | 北京億騰知識產(chǎn)權(quán)代理事務(wù)所(普通合伙) 11309 | 代理人: | 陳霽;周良玉 |
| 地址: | 310000 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 針對 模型 數(shù)據(jù) 預(yù)處理 方法 裝置 | ||
本說明書實施例提供一種針對聚類模型的數(shù)據(jù)預(yù)處理以及利用屬性圖進(jìn)行業(yè)務(wù)實體聚類的方法,基于信息論,提供了一種通過表征向量對屬性圖進(jìn)行表征,并利用表征向量與聚類類別的原型向量之間轉(zhuǎn)移的信息損失來訓(xùn)練聚類模型。并且,這種信息損失通過表征向量與基于原型向量確定的映射向量之間的相似性來衡量。進(jìn)一步地,在確定互信息的過程中,利用經(jīng)驗概率分布代替總體分布的期望,提供一種可以利用經(jīng)驗逼近互信息的方式。該方式得以有效利用信息論,從而提供更有效的利用屬性圖的業(yè)務(wù)實體聚類方法。
技術(shù)領(lǐng)域
本說明書一個或多個實施例涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及針對聚類模型的數(shù)據(jù)預(yù)處理,以及利用屬性圖進(jìn)行業(yè)務(wù)實體聚類的方法及裝置。
背景技術(shù)
隨著計算機(jī)技術(shù)的發(fā)展,圖數(shù)據(jù)的應(yīng)用越來越廣泛。其中,圖數(shù)據(jù)是一種描述各種實體之間關(guān)聯(lián)關(guān)系的數(shù)據(jù)形式。圖數(shù)據(jù)的形象表示例如為關(guān)系網(wǎng)絡(luò)、知識圖譜等。圖數(shù)據(jù)通常可以包括多個節(jié)點,各個節(jié)點分別對應(yīng)各個業(yè)務(wù)實體。在業(yè)務(wù)實體具有預(yù)先定義的關(guān)聯(lián)的情況下,圖數(shù)據(jù)的相應(yīng)節(jié)點之間可以具有相應(yīng)的關(guān)聯(lián)關(guān)系。例如若干三元組表示的圖數(shù)據(jù)中,三元組(a,r,b)表示節(jié)點a和節(jié)點b之間具有關(guān)聯(lián)關(guān)系r。在形象化的關(guān)系網(wǎng)絡(luò)中,節(jié)點a和節(jié)點b之間可以通過對應(yīng)有關(guān)聯(lián)關(guān)系r的連接邊表示。
屬性圖是各個節(jié)點通過若干屬性描述的圖數(shù)據(jù),屬性圖可能存在一些屬性較離散的節(jié)點。如此,在基于屬性圖的業(yè)務(wù)處理過程中,相關(guān)業(yè)務(wù)處理過程變得復(fù)雜。因此,如何針對屬性圖,尤其是針對包含離散屬性節(jié)點的圖數(shù)據(jù)進(jìn)行有效的業(yè)務(wù)處理,是值得研究的問題。
發(fā)明內(nèi)容
本說明書一個或多個實施例描述了一種針對聚類模型的數(shù)據(jù)預(yù)處理,以及利用屬性圖進(jìn)行業(yè)務(wù)實體聚類的方法及裝置,用以解決背景技術(shù)提到的一個或多個問題。
根據(jù)第一方面,提供一種針對聚類模型的數(shù)據(jù)預(yù)處理方法,所述聚類模型用于利用屬性圖進(jìn)行業(yè)務(wù)實體聚類,其中,所述屬性圖包括與多個業(yè)務(wù)實體一一對應(yīng)的多個節(jié)點,各個節(jié)點具有基于相應(yīng)業(yè)務(wù)實體的屬性確定的特征向量,所述聚類模型包括編碼模塊、映射模塊以及判別模塊,所述多個節(jié)點包括第一節(jié)點;所述方法包括:利用所述編碼模塊處理所述屬性圖,得到各個節(jié)點分別對應(yīng)的各個表征向量,所述第一節(jié)點對應(yīng)第一表征向量;通過所述映射模塊,利用所述第一表征向量確定所述第一節(jié)點向若干聚類類別進(jìn)行映射的第一映射向量,其中,所述第一映射向量基于各個聚類類別分別對應(yīng)的各個原型向量組合而成,其中的組合參數(shù)基于所述第一表征向量確定;基于所述判別模塊,檢測所述第一表征向量與所述第一映射向量的相似程度,從而確定所述聚類模型的聚類損失,其中,所述第一表征向量與所述第一映射向量之間的相似程度經(jīng)由表征向量和映射向量的經(jīng)驗分布代替總體分布,從而基于判別函數(shù)構(gòu)造經(jīng)驗互信息確定,所述聚類損失與所述第一表征向量同所述第一映射向量之間的相似程度負(fù)相關(guān);以最小化所述聚類損失為目標(biāo),調(diào)整所述編碼模塊的模型參數(shù)、各個原型向量及所述判別模塊中判別函數(shù)中的中間向量,從而訓(xùn)練所述聚類模型。
根據(jù)一個實施例,所述編碼模塊為圖神經(jīng)網(wǎng)絡(luò),所述第一表征向量基于所述第一節(jié)點的特征向量與其鄰居節(jié)點的特征向量的融合結(jié)果確定。
根據(jù)一個實施例,所述第一映射向量通過以下方式確定:基于所述第一表征向量與各個原型向量,確定各個原型向量分別對應(yīng)的各個重要度系數(shù);按照各個重要度系數(shù)確定的組合參數(shù)對各個原型向量以加權(quán)求和的方式組合,得到所述第一映射向量。
根據(jù)一個實施例,各個重要度系數(shù)基于注意力機(jī)制確定,各個原型向量包括第一原型向量,所述第一原型向量對應(yīng)的第一重要度系數(shù),與第一原型向量和第一表征向量的相似度正相關(guān),與各個原型向量和第一表征向量的相似度之和負(fù)相關(guān)。
根據(jù)一個實施例,所述基于所述判別模塊,檢測所述第一表征向量與所述第一映射向量的相似程度包括:基于所述第一表征向量、所述判別函數(shù)的中間向量、所述第一映射向量的乘積,確定所述第一表征向量與所述第一映射向量的相似度。
根據(jù)一個實施例,所述聚類損失還與所述第一表征向量同其他節(jié)點對應(yīng)的其他映射向量之間的相似程度正相關(guān)。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于支付寶(杭州)信息技術(shù)有限公司,未經(jīng)支付寶(杭州)信息技術(shù)有限公司許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011409579.9/2.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法、數(shù)據(jù)系統(tǒng)、接收設(shè)備和數(shù)據(jù)讀取方法
- 數(shù)據(jù)記錄方法、數(shù)據(jù)記錄裝置、數(shù)據(jù)記錄媒體、數(shù)據(jù)重播方法和數(shù)據(jù)重播裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)發(fā)送系統(tǒng)、數(shù)據(jù)發(fā)送裝置以及數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)顯示系統(tǒng)、數(shù)據(jù)中繼設(shè)備、數(shù)據(jù)中繼方法及數(shù)據(jù)系統(tǒng)
- 數(shù)據(jù)嵌入裝置、數(shù)據(jù)嵌入方法、數(shù)據(jù)提取裝置及數(shù)據(jù)提取方法
- 數(shù)據(jù)管理裝置、數(shù)據(jù)編輯裝置、數(shù)據(jù)閱覽裝置、數(shù)據(jù)管理方法、數(shù)據(jù)編輯方法以及數(shù)據(jù)閱覽方法
- 數(shù)據(jù)發(fā)送和數(shù)據(jù)接收設(shè)備、數(shù)據(jù)發(fā)送和數(shù)據(jù)接收方法
- 數(shù)據(jù)發(fā)送裝置、數(shù)據(jù)接收裝置、數(shù)據(jù)收發(fā)系統(tǒng)、數(shù)據(jù)發(fā)送方法、數(shù)據(jù)接收方法和數(shù)據(jù)收發(fā)方法
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 數(shù)據(jù)發(fā)送方法、數(shù)據(jù)再現(xiàn)方法、數(shù)據(jù)發(fā)送裝置及數(shù)據(jù)再現(xiàn)裝置
- 電鍍預(yù)處理溶液和電鍍預(yù)處理方法
- 鐵水預(yù)處理方法及其預(yù)處理裝置
- 預(yù)處理裝置及其預(yù)處理方法
- 預(yù)處理組件、使用該預(yù)處理組件進(jìn)行試樣的預(yù)處理的預(yù)處理裝置及包括該預(yù)處理裝置的分析系統(tǒng)
- 待測樣品預(yù)處理裝置、預(yù)處理筒及預(yù)處理方法
- 醋酸纖維卷曲預(yù)處理裝置、預(yù)處理液及預(yù)處理方法
- 預(yù)處理裝置
- 預(yù)處理濾芯
- 甘薯儲藏預(yù)處理設(shè)備及預(yù)處理方法
- 水樣預(yù)處理裝置、水樣預(yù)處理系統(tǒng)及水樣預(yù)處理方法





