[發明專利]一種基于多層次聚類的熱點事件識別方法和系統在審
| 申請號: | 202110003161.6 | 申請日: | 2021-01-04 |
| 公開(公告)號: | CN113064990A | 公開(公告)日: | 2021-07-02 |
| 發明(設計)人: | 林越峰;魯繼東;苗仲辰;王晨宇;倪夢珺;江航 | 申請(專利權)人: | 上海金融期貨信息技術有限公司 |
| 主分類號: | G06F16/35 | 分類號: | G06F16/35;G06F40/289;G06F40/295;G06F40/216;G06K9/62 |
| 代理公司: | 上海專利商標事務所有限公司 31100 | 代理人: | 施浩 |
| 地址: | 200122 上海市浦東新*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 多層次 熱點 事件 識別 方法 系統 | ||
本發明公開了基于多層次聚類的熱點事件識別方法和系統,能實時準確的識別出熱點事件,并提供能夠代表熱點事件的特征詞以對熱點輿情進行準確描述,可增加用戶閱讀熱點的效率。其技術方案為:對文本進行預處理,將文本內容分割為多個短語;對經短語分割的文本進行文本向量化的處理,形成向量化的事件集合;采用無監督聚類算法對向量化的事件集合進行聚合,形成熱點的事件簇;對每個事件簇采用深度學習算法進行向量化處理并再次使用無監督聚類算法進行聚合;使用新詞發現算法,生成話題簇描述。
技術領域
本發明涉及熱點話題的自動識別技術,具體涉及基于文本多層次聚類的算法來實現的將熱點事件話題自動加以識別的方法和系統。
背景技術
近年來,隨著互聯網的飛速發展,包括微博、微信等社交網絡的興起,使得信息能夠迅速的擴散,信息量呈現爆炸式增長,從而導致用戶瀏覽的文本信息太多、太分散。此外,在金融領域,輿情和市場行情走勢有密切聯系,因此人們迫切需要有一款自動化信息提取工具,幫助人們從海量的新聞信息中迅速發現有價值的信息,提取新聞熱點,將報道相似的文本聚合在一起,并了解新聞之間的關聯及層次關系。
一般來說,要解決這個問題,需要人為指定新聞之間的層次關系,并提供標注數據用于訓練機器學習模型,再使用訓練好的模型進行文本分類。但這類方法的缺點是耗費大量人力成本,尤其在金融領域,獲取標注數據往往需要大量金融專業人士參與標注,代價昂貴,同時也延長了產品開發周期,使得成本開銷巨大。
發明內容
以下給出一個或多個方面的簡要概述以提供對這些方面的基本理解。此概述不是所有構想到的方面的詳盡綜覽,并且既非旨在指認出所有方面的關鍵性或決定性要素亦非試圖界定任何或所有方面的范圍。其唯一的目的是要以簡化形式給出一個或多個方面的一些概念以為稍后給出的更加詳細的描述之序。
本發明的目的在于解決上述問題,提供了一種基于多層次聚類的熱點事件識別方法和系統,能實時準確的識別出熱點事件,并提供能夠代表熱點事件的特征詞以對熱點輿情進行準確描述,可增加用戶閱讀熱點的效率。
本發明的技術方案為:本發明揭示了一種基于多層次聚類的熱點事件識別方法,方法包括:
步驟1:對文本進行預處理,將文本內容分割為多個短語;
步驟2:對經短語分割的文本進行文本向量化的處理,形成向量化的事件集合;
步驟3:采用無監督聚類算法對向量化的事件集合進行聚合,形成熱點的事件簇;
步驟4:對每個事件簇采用深度學習算法進行向量化處理并再次使用無監督聚類算法進行聚合。
根據本發明的基于多層次聚類的熱點事件識別方法的一實施例,步驟1進一步包括:
步驟1-1:導入專業詞詞庫和停用詞詞表,用于輔助中文分詞模塊;
步驟1-2:使用命名實體識別技術識別文本中出現的主要機構和人名;
步驟1-3:采用中文分詞模塊將文本分割成多個短語。
根據本發明的基于多層次聚類的熱點事件識別方法的一實施例,步驟2進一步包括:
步驟2-1:計算每個詞語在文本中出現的次數-詞頻,并歸一化處理;
步驟2-2:計算逆向文件頻率;
步驟2-3:采用詞頻-逆向文件頻率算法對文本中的每條新聞進行向量化。
根據本發明的基于多層次聚類的熱點事件識別方法的一實施例,步驟3進一步包括:
步驟3-1:輸入需要處理的新聞集合D={d1,d2,...dn}和最小閾值θ;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海金融期貨信息技術有限公司,未經上海金融期貨信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110003161.6/2.html,轉載請聲明來源鉆瓜專利網。





