[發明專利]一種基于自動標引的無級動態演化主題云圖的生成方法有效
| 申請號: | 202110758921.4 | 申請日: | 2021-07-05 |
| 公開(公告)號: | CN113378512B | 公開(公告)日: | 2023-05-26 |
| 發明(設計)人: | 張運良;劉志輝;韓紅旗;李琳娜;王力;金輝;高雄;薛陜 | 申請(專利權)人: | 中國科學技術信息研究所 |
| 主分類號: | G06F40/109 | 分類號: | G06F40/109;G06F40/216;G06F40/289 |
| 代理公司: | 北京市盛峰律師事務所 11337 | 代理人: | 于國強 |
| 地址: | 100038*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 自動 標引 無級 動態 演化 主題 云圖 生成 方法 | ||
一種基于自動標引的無級動態演化主題云圖的生成方法,針對某一領域均設置相應的主題詞,并對此領域中的所有文本中的所述主題詞進行篩選標引,根據所述文本的發布時間順序,統計此領域中跟隨時間變化的主題詞統計狀態,在主題詞云圖中通過主題詞的字體大小、顏色等狀態顯示所述主題詞的統計狀態;通過根據時間軸配合動畫變換中的關鍵幀,實現主題云圖動態展示的無級變化;本發明生成了更高質量的主題云圖展示項,用于可視化的主題詞展示項數量更少,且更具有領域代表性,能夠減少各主題詞之間的意義重合和本領域無意義的展示項,能夠更好的揭示主題內容;可以更科學更細致的揭示各學科領域的發展狀況和變化。
技術領域
本發明涉及數據情報分析領域,尤其涉及一種基于自動標引的無級動態演化主題云圖的生成方法。
背景技術
云圖是一種展示文本或文本集合內容的可視化技術,通過字體大小和顏色等主要對高頻項進行展示,可以展示某一領域的發展狀況。目前依據展示項的不同主要由標簽云圖和詞云圖兩大類。目前依賴用戶的標簽進行分析,后者主要對全文進行分析。目前云圖技術的主要問題在于,不能夠對主題進行有效揭示,一方面展示項中會有較多的同義詞或近義詞,另一方面有一些與待分析領域無關的項或者通用項。
在動態演化上,目前主要由兩種思路:對于固定的原圖,讓項的位置變化形成動態效果;對于在固定時間間隔內成成固定的無聯系的云圖,通過時間軸交互操作,展示不同時間的云圖。此種模式的云圖動態演示不僅會因為展示項過于繁雜從而影響云圖的主題展示的代表性,還缺乏云圖根據時間進程的變化過程,不能展示完整展示跟隨時間不斷變化的云圖發展狀況。
發明內容
本發明的目的在于提供一種基于自動標引的無級動態演化主題云圖的生成方法,從而解決現有技術中存在的前述問題。
為了實現上述目的,本發明采用的技術方案如下:
一種基于自動標引的無級動態演化主題云圖的生成方法,包括以下步驟:
S1、設置特定領域的綜合主題詞表V以及文本文件的內容格式;
S2、構建特定領域的文本集合C,以及所述文本集合C中的主題詞集合T0和時間匯總文件time,所述文本集合C中利用步驟S1中的所述文本文件的內容格式對文本進行存儲,每一個文本均采用一個單獨的所述文本文件進行表示;
S3、令文本集合C中的主題詞集合T0與綜合主題詞表V中的主題詞進行結合分析,篩選出特定領域中用于標引的預設主題詞表T2和文本主題詞集合T3;
S4、根據所述預設主題詞集T2和文本主題詞集合T3對中所述文本集合C的所有文本進行標引,并分別計算所有主題詞在對應文本中的詞頻;
S5、在每一個文本中選擇詞頻從高到低的前m項主題詞進行標引,得到所述文本的標引項,并根據所述詞頻得到所述標引項的權重;
S6、根據所述時間匯總文件time,生成所述文本集合C中文本的發布時間的時間軸;并根據所述時間軸,得到在相同時刻中步驟S5中標引項的主題詞在所述文本集合C中的詞頻;
S7、根據步驟S6中得出的所述主題詞在所述文本集合C中的詞頻,將所述主題詞按照步驟S6中得到的詞頻從大到小進行排序,選擇前n個主題詞進行展示,生成主題云圖;
S8、根據步驟S6中的時間軸,更新需要進行展示主題詞,將進行更新變化的不同類型的主題詞,通過不同的關鍵幀采用消失動畫和生成動畫的方式實現主題云圖的無級動態演化。
優選的,所述文本文件的內容格式為:文本主題命名、文本發布時間和文本內容。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學技術信息研究所,未經中國科學技術信息研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110758921.4/2.html,轉載請聲明來源鉆瓜專利網。





