[發明專利]一種市長熱線熱點訴求話題檢測方法和裝置在審
| 申請號: | 202011405266.6 | 申請日: | 2020-12-05 |
| 公開(公告)號: | CN112560445A | 公開(公告)日: | 2021-03-26 |
| 發明(設計)人: | 楊勇;洪學海 | 申請(專利權)人: | 上饒市中科院云計算中心大數據研究院 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/289;G06K9/62;G06Q50/26 |
| 代理公司: | 北京科家知識產權代理事務所(普通合伙) 11427 | 代理人: | 張勛 |
| 地址: | 334000 江西*** | 國省代碼: | 江西;36 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 市長 熱線 熱點 訴求 話題 檢測 方法 裝置 | ||
1.一種市長熱線熱點訴求話題檢測方法,其特征在于,包括:
通過正則校驗去除文本中的非中文字符,然后對文本進行分詞;
對訴求進行話題聚類,檢測出訴求中的熱點話題;
挖掘所有訴求話題熱詞,并定期更新話題熱詞;
計算話題的熱度值,并定期更新話題的熱度值。
2.根據權利要求1所述的方法,其特征在于,所述通過正則校驗去除文本中的非中文字符,然后對文本進行分詞包括:
通過正則表達式去除訴求文本數據中的非中文字符,包括但不限于:標點符號,表情符、數字、英文;
通過“結巴”分詞工具對文本數據分詞,在分詞的過程中需要構建停用詞表和自定義字典,停用詞表去除訴求文本數據中一些無意義的詞。
3.根據權利要求1所述的方法,其特征在于,通過潛在狄利克雷分布模型對訴求進行話題聚類,具體包括:
從狄利克雷分布α中取樣生成訴求文檔i的主題分布θ(i),通過α得到文檔i的主題分布;
從主題的多項式分布θ(i)中取樣生成訴求文檔i第j個詞的主題z(i,j),從主題分布中得到詞的主題;
從狄利克雷分布β中取樣生成主題z(i,j)的詞語分布φz(i,j)得到所述主題的詞分布;
從詞語的多項式分布φz(i,j)中采樣最終生成詞語w(i,j)根據所述的詞分布得到詞。
4.根據權利要求1所述的方法,其特征在于,通過TF-IDF算法挖掘所有訴求話題熱詞,并按照所述熱詞的權重,選出權重最高的50個熱詞作為訴求的熱詞,并保存所述熱詞的權重,通過詞云的方式展示。
5.根據權利要求1-4任一項所述的方法,其特征在于,通過如下公式計算話題的熱度值:
其中,hotinit表示話題的初始熱度,α*(n-1)表示話題訴求數量部分,其中α訴求數量影響因子,n話題中訴求的數量,表示熱度隨時間衰減,δ表示時間控制因子,t1表示當前時間,t0表示事件產生時間,單位為小時。
6.一種裝置,其特征在于,包括:
分詞單元,用于通過正則校驗去除文本中的非中文字符,然后對文本進行分詞;
聚類單元,用于對訴求進行話題聚類,檢測出訴求中的熱點話題;
熱詞單元,用于挖掘所有訴求話題熱詞,并定期更新話題熱詞;
熱度計算單元,用于計算話題的熱度值,并定期更新話題的熱度值。
7.根據權利要求6所述的裝置,其特征在于,所述分詞單元具體地通過正則表達式去除訴求文本數據中的非中文字符,包括但不限于:標點符號,表情符、數字、英文;通過“結巴”分詞工具對文本數據分詞,在分詞的過程中需要構建停用詞表和自定義字典,停用詞表去除訴求文本數據中一些無意義的詞。
8.根據權利要求6所述的裝置,其特征在于,所述聚類單元通過潛在狄利克雷分布模型對訴求進行話題聚類,具體包括:
從狄利克雷分布α中取樣生成訴求文檔i的主題分布θ(i),通過α得到文檔i的主題分布;
從主題的多項式分布θ(i)中取樣生成訴求文檔i第j個詞的主題z(i,j),從主題分布中得到詞的主題;
從狄利克雷分布β中取樣生成主題z(i,j)的詞語分布φz(i,j)得到所述主題的詞分布;
從詞語的多項式分布φz(i,j)中采樣最終生成詞語w(i,j)根據所述的詞分布得到詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上饒市中科院云計算中心大數據研究院,未經上饒市中科院云計算中心大數據研究院許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011405266.6/1.html,轉載請聲明來源鉆瓜專利網。





