[發明專利]網絡數據的聚類方法、聚類裝置、電子設備及介質在審
| 申請號: | 202110450664.8 | 申請日: | 2021-04-25 |
| 公開(公告)號: | CN113139056A | 公開(公告)日: | 2021-07-20 |
| 發明(設計)人: | 朱書苗;顏開華;鄧潔;經緯 | 申請(專利權)人: | 中國工商銀行股份有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
| 代理公司: | 中科專利商標代理有限責任公司 11021 | 代理人: | 趙婷 |
| 地址: | 100140 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 網絡 數據 方法 裝置 電子設備 介質 | ||
1.一種網絡數據的聚類方法,包括:
獲取Q個網絡數據對象的描述文本與標簽,其中,Q為大于1的整數;
針對每個所述網絡數據對象,
基于所述網絡數據對象的描述文本中的詞語與所述網絡數據對象的標簽的語義相似度,得到與該詞語對應的語義關聯系數,所述語義關聯系數用于衡量對應的詞語與所述網絡數據對象的服務功能的相關程度;以及
基于每個詞語對應的所述語義關聯系數,處理所述網絡數據對象的描述文本,得到所述網絡數據對象的文本特征向量;以及
基于Q個所述網絡數據對象的文本特征向量,對Q個所述網絡數據對象進行聚類。
2.根據權利要求1所述的方法,其中,所述基于所述網絡數據對象的描述文本中的詞語與所述網絡數據對象的標簽的語義相似度,得到與該詞語對應的語義關聯系數包括:
基于每個詞語對應的特征詞向量與標簽詞向量集合中每個標簽詞向量的相似度的累加,得到該詞語對應的文本語義權重;所述語義關聯系數包括所述文本語義權重;
其中,
所述標簽詞向量集合為對所述網絡數據對象的標簽進行處理后得到的詞向量的集合,所述標簽詞向量集合所包含的所述標簽詞向量的個數等于或大于所述網絡數據對象的標簽中標簽詞的個數。
3.根據權利要求2所述的方法,其中,所述基于所述網絡數據對象的描述文本中的詞語與所述網絡數據對象的標簽的語義相似度,得到與該詞語對應的語義關聯系數還包括:
基于每個詞語對應的所述文本語義權重與該詞語在Q個所述網絡數據對象中統計得到的詞頻-逆向文本頻率TF-IDF值,得到該詞語的語義詞頻融合權重;其中,所述語義關聯系數包括所述語義詞頻融合權重。
4.根據權利要求2所述的方法,其中,所述基于所述網絡數據對象的描述文本中的詞語與所述網絡數據對象的標簽的語義相似度,得到與該詞語對應的語義關聯系數還包括:
利用Word2vec模型處理所述網絡數據對象的描述文本,得到所述網絡數據對象對應的特征詞向量集合,其中,所述特征詞向量集合為所述網絡數據對象的描述文本中的詞語對應的所述特征詞向量組成的集合;以及
利用所述Word2vec模型處理所述網絡數據對象的標簽,得到所述所述標簽詞向量集合。
5.根據權利要求4所述的方法,其中,所述利用所述Word2vec模型處理所述網絡數據對象的標簽,得到所述所述標簽詞向量集合包括:
利用所述Word2vec模型查找與所述網絡數據對象的標簽中每個標簽詞最為相似的R個詞,其中,R為大于或等于1的整數;
將所述網絡數據對象的標簽中的全部標簽詞、以及與每個標簽詞最為相似的R個詞合并在一起,得到擴充標簽集合;以及
利用所述Word2vec模型處理所述擴充標簽集合,得到所述標簽詞向量集合。
6.根據權利要求1~5任意一項所述的方法,其中,所述基于每個詞語對應的所述語義關聯系數,處理所述網絡數據對象的描述文本,得到所述網絡數據對象的文本特征向量包括:
處理所述網絡數據對象的描述文本,得到所述網絡數據對象對應的特征詞向量集合,其中,所述特征詞向量集合為由所述網絡數據對象的描述文本中的詞語對應的特征詞向量組成的集合;以及
以每個詞語對應的所述語義關聯系數作為該詞語對應的所述特征詞向量的權重,對所述特征詞向量集合中的所述特征詞向量進行加權處理,得到所述文本特征向量。
7.根據權利要求1所述的方法,其中,所述基于Q個所述網絡數據對象的文本特征向量,對Q個所述網絡數據對象進行聚類包括:
基于Q個所述網絡數據對象的所述文本特征向量之間的兩兩相似度,構造Q*Q的相似度矩陣,其中,所述相似度矩陣中第i*j個元素表示第i個所述網絡數據對象的所述文本特征向量與第j個所述網絡數據對象的所述文本特征向量之間的相似度;以及
以所述相似度矩陣作為k-means算法的輸入,對Q個所述網絡數據對象進行聚類。
8.根據權利要求1所述的方法,其中,所述網絡數據對象包括mushup服務。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國工商銀行股份有限公司,未經中國工商銀行股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110450664.8/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種儲能系統
- 下一篇:一種金包銀鍵合線的制備方法
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





