[發明專利]一種基于海量文獻信息的可視化分析系統及其方法在審

申請號：	201711411611.5	申請日：	2017-12-23
公開（公告）號：	CN108170761A	公開（公告）日：	2018-06-15
發明（設計）人：	虞揚	申請（專利權）人：	合肥彈剛信息科技有限公司
主分類號：	G06F17/30	分類號：	G06F17/30
代理公司：	北京和信華成知識產權代理事務所(普通合伙) 11390	代理人：	胡劍輝
地址：	230000 安徽省合肥市經濟技***	國省代碼：	安徽;34
權利要求書：	查看更多	說明書：	查看更多
摘要：
搜索關鍵詞：	文獻信息可視化數據臨時存儲可視化分析系統數據處理模塊數據獲取模塊分析數據庫關聯度分析分析掃描分類和標記輸入關鍵詞查詢標記單元參考依據分類單元分析模塊用戶輸出用戶提供存儲采集決策
鉆瓜網技術展會專利詞庫專利權人專利榜在售專利公布日期熱門專利

【權利要求書】：

1.一種基于海量文獻信息的可視化分析系統，其特征在于：包括數據獲取模塊、數據臨時存儲庫、數據處理模塊和可視化分析數據庫；

所述數據獲取模塊包括爬取單元、分類單元以及查詢標記單元，爬取單元用于對數據源中的海量文獻信息進行采集，并將采集的海量文獻信息發送至分類單元；

所述分類單元用于對采集的海量文獻信息按照行業類別的不同進行劃分；

所述查詢標記單元用于輸入關鍵詞對文獻信息進行查詢，并對查詢后的文獻信息進行標記；

所述數據臨時存儲庫用于存儲經查詢、標記后的文獻信息；

所述數據處理模塊用于將數據臨時存儲庫中的文獻信息進行掃描，并對掃描后的文獻信息進行處理、分析；

所述可視化分析數據庫用于存儲數據處理模塊分析后的文獻信息，根據關聯度分析的結果進行可視化分析，為用戶輸出可視化分析結果。

2.根據權利要求1所述的一種基于海量文獻信息的可視化分析系統，其特征在于：所述數據處理模塊包括信息掃描單元、數據預處理單元和關聯度分析單元；

所述信息掃描單元用于讀取數據臨時存儲庫中的文獻信息；

所述數據預處理單元用于對讀取的文獻信息中的內容進行數據清洗，以提取文獻中的關鍵詞；

所述關聯度分析單元用于將提取的關鍵詞與輸入的關鍵詞進行關聯度分析。

3.一種基于海量文獻信息的可視化分析方法，其特征在于，包括以下步驟：

S1、對數據源中的海量文獻信息進行采集，并將采集的海量文獻信息按照領域不同劃分為若干行業類別，并提取行業類別中文獻信息的關鍵詞；

S2、在行業類別中輸入若干關鍵詞對海量文獻信息進行查詢，對查詢的結果進行標記，并將標記后的文獻信息存儲至數據臨時存儲庫；

S3、對數據臨時存儲庫中的文獻信息進行掃描，并將掃描后的結果發送至數據預處理；

S4、將經數據預處理提取的所有關鍵詞與輸入的關鍵詞進行關聯度分析，標記關聯度數值，并將分析后的文獻信息存儲至可視化分析數據庫；

S5、獲取可視化分析數據庫中存儲的文獻信息，進行可視化分析，繪制關聯度相關表，為用戶輸出可視化分析結果。

4.根據權利要求3所述的一種基于海量文獻信息的可視化分析方法，其特征在于：所述步驟S4中經數據預處理提取的所有關鍵詞A[m]＝{a1，a2，...,am}，所述步驟S2中輸入的關鍵詞B[n]＝{b1,b2,...,bn},并將輸入的每個關鍵詞分別與每個文獻信息中的每個關鍵詞進行一一對比，關聯度數值n表示輸入的關鍵詞數量，x表示輸入的關鍵詞與本文獻信息中的關鍵詞相匹配的個數。

下載完整專利技術內容需要扣除積分，VIP會員可以免費下載。

免登錄下載普通用戶下載升級VIP會員，免費下載

該專利技術資料僅供研究查看技術是否侵權等信息，商用須獲得專利權人授權。該專利全部權利屬于合肥彈剛信息科技有限公司，未經合肥彈剛信息科技有限公司許可，擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作，請聯系【客服】

本文鏈接：http://www.szxzyx.cn/pat/books/201711411611.5/1.html，轉載請聲明來源鉆瓜專利網。