[發明專利]基于公文標題的熱門話題數據處理方法、裝置及電子設備在審
| 申請號: | 202110827216.5 | 申請日: | 2021-07-21 |
| 公開(公告)號: | CN113536779A | 公開(公告)日: | 2021-10-22 |
| 發明(設計)人: | 劉志遠;苗功勛;賴成賓;王超;熊英超;韋文峰 | 申請(專利權)人: | 南京中孚信息技術有限公司 |
| 主分類號: | G06F40/258 | 分類號: | G06F40/258;G06F40/211;G06F40/295;G06F16/35;G06F16/34 |
| 代理公司: | 北京超凡宏宇專利代理事務所(特殊普通合伙) 11463 | 代理人: | 王思楠 |
| 地址: | 210000 江蘇省南京市浦口區江*** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 公文 標題 熱門話題 數據處理 方法 裝置 電子設備 | ||
本申請提供了一種基于公文標題的熱門話題數據處理方法、裝置及電子設備,涉及數據處理技術領域,緩解了感知公文熱點話題較難的技術問題。該方法包括:獲取多個待分析公文標題;對不符合預設實體名稱的所述待分析公文標題進行過濾,得到過濾后的第一文本標題;利用重復二分聚類方法對多個所述第一文本標題進行聚類,對聚類后的話題簇根據textrank和依存句法進行分析,得到目標話題簇標題。
技術領域
本申請涉及數據處理技術領域,尤其是涉及一種基于公文標題的熱門話題數據處理方法、裝置及電子設備。
背景技術
目前,隨著大數據時代來臨,互聯網走進千家萬戶,成為人們獲取信息的最重要的途徑。然而,在互聯網信息資源極大豐富的同時,“信息冗余”、內容難以治理等問題也日益凸顯。
國內外關于熱門話題的研究比較少,多集中于研究熱門話題的傳播機制、從計算機技術層面分析熱門話題的檢測和跟蹤技術,熱門話題意義生成的符號學分析等,從傳播學角度展開的論述還不夠深入,沒有達到系統化的程度。例如,浙江大學楊冠超的《微博熱點話題發現策略研究》、哈爾濱工業大學丁偉莉的《中文Blog熱門話題檢測與跟蹤技術研究》都是從計算機技術層面分析微博熱門話題的熱度預測模型與跟蹤技術;余達明提出了雙結構網絡中的熱門話題演化機制以及應用研究,該方法在LDA模型的基礎上,通過命名實體表征聚類的話題,衡量話題的演化過程,達到了對海量新聞網頁進行自動、高效的話題挖掘效果。所以,現有技術感知熱門話題的難度較大。
發明內容
本申請的目的在于提供一種基于公文標題的熱門話題數據處理方法、裝置及電子設備,以緩解感知公文熱點話題較難的技術問題。
第一方面,本申請實施例提供了一種基于公文標題的熱門話題數據處理方法,所述方法包括:
獲取多個待分析公文標題;
對不符合預設實體名稱的所述待分析公文標題進行過濾,得到過濾后的第一文本標題;
利用重復二分聚類方法對多個所述第一文本標題進行聚類,對聚類后的話題簇根據textrank和依存句法進行分析,得到目標話題簇標題。
在一個可能的實現中,所述方法還包括:
獲取多個歷史公文標題,所述歷史公文標題中包括多個名稱實體及日期實體;
對所述名稱實體及所述日期實體進行標注,并利用標注的所述名稱實體、所述日期實體及基于條件隨機場對實體識別模型進行訓練,得到目標實體識別模塊,所述目標實體識別模塊包括多個預設名稱實體及預設日期實體。
在一個可能的實現中,對不符合預設實體名稱的所述待分析公文標題進行過濾,得到過濾后的第一文本標題的步驟,包括:
利用所述目標實體識別模塊對多個所述待分析公文標題進行識別;
當識別到所述日期實體時,對包含所述日期實體的待分析公文標題進行過濾,得到過濾后的多個第一文本標題。
在一個可能的實現中,利用重復二分聚類方法對多個所述第一文本標題進行聚類,對聚類后的話題簇根據textrank和依存句法進行分析,得到目標話題簇標題的步驟,包括:
利用均值算法對所述第一文本標題進行聚類,得到兩個第一子集;
對所述第一子集執行所述利用均值算法對所述第一文本標題進行聚類的步驟,直至得到若干第二子集,所述第二子集為話題簇;
對每個所述話題簇的關鍵詞進行詞頻統計及標準差過濾;
對聚類后的話題簇根據textrank和依存句法進行分析,得到目標話題簇標題。
在一個可能的實現中,對每個所述話題簇的關鍵詞進行詞頻統計及標準差過濾的步驟,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京中孚信息技術有限公司,未經南京中孚信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110827216.5/2.html,轉載請聲明來源鉆瓜專利網。





