[發明專利]一種文檔聚類的方法和裝置有效
| 申請號: | 201711466720.7 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108021713B | 公開(公告)日: | 2022-01-21 |
| 發明(設計)人: | 王志華;宋華;李雪;查強 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 方法 裝置 | ||
1.一種文檔聚類的方法,其特征在于,所述方法包括:
獲取待聚類的各目標文檔對應的用戶行為信息;
根據所述用戶行為信息,確定每一目標文檔的目標用戶;
將樣本文檔的文檔標識與樣本用戶的對應關系,以及預設的類別數目,輸入至預設的聚類分析模型進行訓練,輸出每一目標文檔屬于每一類別的第一概率,其中,所述樣本文檔包括上一次文檔聚類時采用的文檔和本次待聚類的各目標文檔,所述樣本用戶包括上一次文檔聚類時采用的文檔的用戶和本次待聚類的各目標文檔的目標用戶;所述預設的類別數目為預設的文檔類別數目;
其中,在所述將樣本文檔的文檔標識與樣本用戶的對應關系,以及預設的類別數目,輸入至預設的聚類分析模型進行訓練之后,所述方法還包括:
輸出每一所述目標用戶屬于每一所述類別的第二概率;
根據所述第一概率和所述第二概率,利用預設的關聯算法,計算每一所述目標用戶與每一目標文檔的關聯度。
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:獲取所述用戶行為信息對應的用戶行為時間;
所述根據所述用戶行為信息,確定每一目標文檔的目標用戶,包括:
針對每一目標文檔,根據所述用戶行為信息對應的用戶行為時間,確定用戶行為時間與當前時間最接近的預設的第一數目個目標用戶。
3.根據權利要求1所述的方法,其特征在于,所述用戶行為信息包含以下信息之一或任意組合:用戶瀏覽信息、用戶收藏信息、用戶分享信息和用戶評論信息。
4.根據權利要求3所述的方法,其特征在于,在所述用戶行為信息包含用戶瀏覽信息、用戶收藏信息、用戶分享信息和用戶評論信息時,所述根據所述用戶行為信息,確定每一目標文檔的目標用戶,包括:
針對每一目標文檔,根據該目標文檔對應的用戶瀏覽信息確定該目標文檔的瀏覽用戶;
根據該目標文檔對應的用戶收藏信息確定該目標文檔的收藏用戶;
根據該目標文檔對應的用戶分享信息確定該目標文檔的分享用戶;
根據該目標文檔對應的用戶評論信息確定該目標文檔的評論用戶;
將所述瀏覽用戶、所述收藏用戶、所述分享用戶和所述評論用戶,確定為該目標文檔的目標用戶。
5.一種文檔聚類的裝置,其特征在于,所述裝置包括:
第一獲取模塊,用于獲取待聚類的各目標文檔對應的用戶行為信息;
確定模塊,用于根據所述用戶行為信息,確定每一目標文檔的目標用戶;
輸出模塊,用于將樣本文檔的文檔標識與樣本用戶的對應關系,以及預設的類別數目,輸入至預設的聚類分析模型進行訓練,輸出每一目標文檔屬于每一類別的第一概率,其中,所述樣本文檔包括上一次文檔聚類時采用的文檔和本次待聚類的各目標文檔,所述樣本用戶包括上一次文檔聚類時采用的文檔的用戶和本次待聚類的各目標文檔的目標用戶;所述預設的類別數目為預設的文檔類別數目;
其中,所述裝置還包括:
計算模塊,用于輸出每一所述目標用戶屬于每一所述類別的第二概率;
根據所述第一概率和所述第二概率,利用預設的關聯算法,計算每一所述目標用戶與每一目標文檔的關聯度。
6.根據權利要求5所述的裝置,其特征在于,所述裝置還包括:
第二獲取模塊,用于獲取所述用戶行為信息對應的用戶行為時間;
所述確定模塊,具體用于針對每一目標文檔,根據所述用戶行為信息對應的用戶行為時間,確定用戶行為時間與當前時間最接近的預設的第一數目個目標用戶。
7.根據權利要求5所述的裝置,其特征在于,所述用戶行為信息包含以下信息之一或任意組合:用戶瀏覽信息、用戶收藏信息、用戶分享信息和用戶評論信息。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711466720.7/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種公母分群飼養的公豬育肥后期飼料及其制備方法
- 下一篇:可充電的鍵盤





