[發明專利]一種文檔聚類的方法和裝置有效
| 申請號: | 201711466720.7 | 申請日: | 2017-12-28 |
| 公開(公告)號: | CN108021713B | 公開(公告)日: | 2022-01-21 |
| 發明(設計)人: | 王志華;宋華;李雪;查強 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06K9/62 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
| 地址: | 100080 北京市海淀區*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 文檔 方法 裝置 | ||
本發明實施例提供了一種文檔聚類的方法和裝置,上述方法包括:獲取待聚類的各目標文檔的對應的用戶行為信息,根據用戶行為信息,確定每一目標文檔的目標用戶,將樣本文檔的文檔標識與樣本用戶的對應關系,以及預設的類別數目,輸入至預設的聚類分析模型進行訓練,可以輸出每一目標文檔屬于每一類別的第一概率。利用本發明實施例的方法,可以根據文檔標識與目標用戶的對應關系對目標文檔進行聚類,避免目標文檔包含的詞語較少,和分詞的準確度低導致的文檔聚類的準確度低的問題,進而提高文檔聚類的準確度。
技術領域
本發明涉及文本分析技術領域,特別是涉及一種文檔聚類的方法和裝置。
背景技術
一個文檔通常可以屬于多個類別,例如,一個關于教育的文檔所屬的類別為教育類,如果該文檔主要介紹的是藝術教育,該文檔所屬的類別還可以包括藝術類。對文檔進行聚類分析,可以獲得文檔屬于不同類別的概率,進而可以實現文檔的推薦和搜索。現有的文檔聚類步驟如下:首先對各目標文檔進行分詞,獲得每個目標文檔包含的詞語;然后計算每個目標文檔中各詞語出現的概率;根據計算得到的概率,利用LDA(Latent DirichletAllocation,潛在狄利克雷分配模型)等聚類分析模型進行訓練學習。LDA可以根據預設的類別的數目,計算每一目標文檔屬于預設的每一類別的概率。
然而,發明人在實現本發明的過程中發現,現有技術至少存在如下問題:
利用LDA等聚類分析模型進行訓練學習,要求每一目標文檔都包含盡量多的詞語。當目標文檔的文本長度較短時,對目標文檔進行分詞,得到的目標文檔包含的詞語較少,或者分詞的準確度較低,都會導致獲得的每一目標文檔屬于預設的每一類別的概率的不夠準確,即文檔聚類的準確度低。
發明內容
本發明實施例的目的在于提供一種文檔聚類的方法、裝置、電子設備及計算機可讀存儲介質,以提高文檔聚類的準確度。具體技術方案如下:
第一方面,為了達到上述目的,本發明實施例公開了一種文檔聚類的方法,上述方法包括:
獲取待聚類的各目標文檔對應的用戶行為信息;
根據所述用戶行為信息,確定每一目標文檔的目標用戶;
將樣本文檔的文檔標識與樣本用戶的對應關系,以及預設的類別數目,輸入至預設的聚類分析模型進行訓練,輸出每一目標文檔屬于每一類別的第一概率,其中,所述樣本文檔包括上一次文檔聚類時采用的文檔和本次待聚類的各目標文檔,所述樣本用戶包括所述樣本文檔對應的用戶。
可選的,所述方法還包括:獲取所述用戶行為信息對應的用戶行為時間;
所述根據所述用戶行為信息,確定每一目標文檔的目標用戶,包括:
針對每一目標文檔,根據所述用戶行為信息對應的用戶行為時間,確定用戶行為時間與當前時間最接近的預設的第一數目個目標用戶。
可選的,所述用戶行為信息包含以下信息之一或任意組合:用戶瀏覽信息、用戶收藏信息、用戶分享信息和用戶評論信息。
可選的,在所述用戶行為信息包含用戶瀏覽信息、用戶收藏信息、用戶分享信息和用戶評論信息時,所述根據所述用戶行為信息,確定每一目標文檔的目標用戶,包括:
針對每一目標文檔,根據該目標文檔對應的用戶瀏覽信息確定該目標文檔的瀏覽用戶;
根據該目標文檔對應的用戶收藏信息確定該目標文檔的收藏用戶;
根據該目標文檔對應的用戶分享信息確定該目標文檔的分享用戶;
根據該目標文檔對應的用戶評論信息確定該目標文檔的評論用戶;
將所述瀏覽用戶、所述收藏用戶、所述分享用戶和所述評論用戶,確定為該目標文檔的目標用戶。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711466720.7/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種公母分群飼養的公豬育肥后期飼料及其制備方法
- 下一篇:可充電的鍵盤





