[發明專利]用于文本聚類的方法、電子設備和存儲介質有效
| 申請號: | 202011491126.5 | 申請日: | 2020-12-17 |
| 公開(公告)號: | CN112256842B | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 尹揚;郭鵬華 | 申請(專利權)人: | 上海朝陽永續信息技術股份有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/216;G06F40/284 |
| 代理公司: | 北京市金杜律師事務所 11256 | 代理人: | 王茂華 |
| 地址: | 201203 上海市浦東新區中*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 用于 文本 方法 電子設備 存儲 介質 | ||
本公開的實施例涉及用于文本聚類的方法、電子設備和存儲介質,涉及信息處理領域。根據該方法,確定多個第一文本中的每個詞語的詞頻?逆文檔頻率;從多個第一文本中的多個文本標題中去除實體標識,以生成多個非實體標題;基于詞頻?逆文檔頻率,確定與多個非實體標題相關聯的多個第一特征表示;基于多個第一特征表示和第一密度半徑,對多個第一文本進行密度聚類,以生成多個第一文本聚類和未被聚類的多個第二文本;基于詞頻?逆文檔頻率,確定與多個第二文本相關聯的多個第二特征表示;以及基于多個第二特征表示和第二密度半徑,對多個第二文本進行密度聚類,以生成多個第二文本聚類,第二密度半徑大于第一密度半徑。由此,實現多層次的文本聚類。
技術領域
本公開的實施例總體涉及信息處理領域,具體涉及用于文本聚類的方法、電子設備和計算機存儲介質。
背景技術
現在讀者每天都能在網絡上獲取到海量的文章(新聞資訊、研報等),但是存在以下幾個問題:1.由于文章數量巨大,讀者哪怕只讀文章標題也不能在短時間內讀完所有文章,所以讀者無法在海量文章中迅速捕捉到感興趣的或者對自己有價值的文章;2.當讀者對某個專題或事件感興趣時,就希望看到關于該專題的不同角度的文章,或者看到事件隨時間發展的脈絡,更深入全面地了解該專題或事件。但實際上這些文章雜亂無章地分散在海量文章中,無法以讀者希望的形式集中呈現;3.在閱讀時,總會遇到大量雷同或相似的文章,浪費了讀者的時間精力。
由于每天的新聞焦點主題是不能預知和固定的,而有些常用的聚類模型,比如K-Means聚類,需要事先指定聚類數量K值。對于有監督的文本分類模型,不僅需要預先指定文本的類別,而且需要人工標注的訓練數據進行機器學習訓練,這些先決條件對于每天涌現的未知的海量新聞也是不可能做到的。
發明內容
提供了一種用于文本聚類的方法、電子設備以及計算機存儲介質,能夠實現多層次的文本聚類。
根據本公開的第一方面,提供了一種用于文本聚類的方法。該方法包括:基于文本庫,確定待聚類的多個第一文本中的每個詞語的詞頻-逆文檔頻率;從多個第一文本中的多個文本標題中去除實體標識,以生成多個非實體標題;基于多個非實體標題中的每個詞語的詞頻-逆文檔頻率和詞袋模型,確定與多個非實體標題相關聯的多個第一特征表示;基于多個第一特征表示和第一密度半徑,對多個第一文本進行密度聚類,以生成多個第一文本聚類和未被聚類的多個第二文本;基于多個第二文本中的每個詞語的詞頻-逆文檔頻率和詞袋模型,確定與多個第二文本相關聯的多個第二特征表示;以及基于多個第二特征表示和第二密度半徑,對多個第二文本進行密度聚類,以生成多個第二文本聚類,第二密度半徑大于第一密度半徑。
根據本公開的第二方面,提供了一種電子設備。該電子設備包括:至少一個處理器,以及與至少一個處理器通信連接的存儲器,其中,存儲器存儲有可被至少一個處理器執行的指令,指令被至少一個處理器執行,以使至少一個處理器能夠執行根據第一方面所述的方法。
在本公開的第三方面中,提供了一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現根據本公開的第一方面的方法。
應當理解,本部分所描述的內容并非旨在標識本公開的實施例的關鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
附圖說明
結合附圖并參考以下詳細說明,本公開各實施例的上述和其他特征、優點及方面將變得更加明顯。在附圖中,相同或相似的附圖標注表示相同或相似的元素。
圖1是根據本公開的實施例的信息處理環境100的示意圖。
圖2是根據本公開的實施例的用于文本聚類的方法200的示意圖。
圖3是根據本公開的實施例的用于聚類分割的方法300的示意圖。
圖4是根據本公開的實施例的用于生成聚類標題的方法400的示意圖。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海朝陽永續信息技術股份有限公司,未經上海朝陽永續信息技術股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011491126.5/2.html,轉載請聲明來源鉆瓜專利網。





