[發明專利]一種基于大數據的調查問卷設計輔助系統有效
| 申請號: | 201810503552.2 | 申請日: | 2018-05-23 |
| 公開(公告)號: | CN108717411B | 公開(公告)日: | 2022-04-08 |
| 發明(設計)人: | 張子斌;牛永偉;吳鑫坤 | 申請(專利權)人: | 安徽數據堂科技有限公司 |
| 主分類號: | G06F16/215 | 分類號: | G06F16/215;G06F16/9535;G06F16/35;G06F40/289;G06F40/216;G06N3/08 |
| 代理公司: | 北京和信華成知識產權代理事務所(普通合伙) 11390 | 代理人: | 胡劍輝 |
| 地址: | 230000 安徽省合肥市蜀山區新產業*** | 國省代碼: | 安徽;34 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 調查 問卷 設計 輔助 系統 | ||
1.一種基于大數據的調查問卷設計輔助系統,其特征在于:包括信息爬蟲模塊、數據清洗模塊、主題語義分析模塊、評價語義分析模塊、非結構化存儲模塊和多維度統計可視化模塊;
所述信息爬蟲模塊包括第一信息爬蟲單元和第二信息爬蟲單元,所述第一信息爬蟲單元用于接收輸入的主題、關鍵字信息,對爬蟲進行初始化,通過主題、關鍵字尋找目標網絡信息,開始進行爬取任務,爬取的內容包括頁面數據中的結構化、非結構化文本、頁面內和頁面間的超鏈接,且通過多層相關鏈接的深度爬取,獲取與主題和關鍵字的相關性較強的信息以為進一步處理做準備,并將爬蟲抓取的數據信息發送至數據清洗模塊;
第二信息爬蟲單元對不同關鍵字所關聯的評論信息進行爬取;
數據清洗模塊對爬蟲爬取的數據信息進行清理加工,通過預過濾提取所需的文本信息和鏈接信息,并進行分類,將提取的文本信息進行分詞處理,以便于提取主題和關鍵字信息,并將分詞后的主題和關鍵字信息主題語義分析模塊,將鏈接信息發送至返回至第二信息爬取單元,實現數據信息的進一步爬取;
所述主題語義分析模塊對分詞過后的關鍵字信息進行分析,通過不同量化指標后將關鍵字排序,獲取前N個作為關鍵字,對分析出的前N個關鍵字標注的地理位置、時間、傳播途徑維度進一步進行分析,將前N個關鍵字標注的地理位置、時間、傳播途徑維度構成文本向量,對文本向量進行特征提取,再通過降維,構建語義空間模型,把文本向量投影在語義空間,形成新文本向量;
所述評價語義分析模塊通過量化指標對評價信息中的關鍵字進行排序,并標注多個維度信息,標注的多個維度的關鍵字發送至深度學習模塊,便于深度學習模塊進一步分析;
所述深度學習模塊對關鍵字進行不同主題關鍵字方向的聚類分析,通過聚類分析和深度學習模型的訓練,提高了語義關鍵字的聚類分析能力,產生對調查問卷主題方向不同分類下的問卷題目設計思路;
在分析評論信息時,深度學習模型對不同主題的評論信息進行聚類分析,形成該主題的多個聚類方向的候選答案,便于對調查問題的答案設計提供參考思路;
所述非結構化存儲模塊與深度學習模塊連接,用于接收深度學習模塊對不同主題關鍵字和評論信息進行分析的數據,并將接收的數據進行存儲和讀取;
多維度統計可視化模塊用于調用非結構化存儲模塊中不同主題關鍵字以及關鍵字對應的評論信息,進行可視化處理,生成可視化中間結果,并將生成的可視化中間結果進行可視化輸出。
2.根據權利要求1所述的一種基于大數據的調查問卷設計輔助系統,其特征在于:所述評論信息包括評價的地理位置、評論時間、傳播途徑、評論人信息、對該評論的點贊或反對數值。
3.根據權利要求1所述的一種基于大數據的調查問卷設計輔助系統,其特征在于:所述主題語義分析模塊對分詞過后的關鍵字信息進行分析,通過對以下幾個屬性方法進行計算,分別為:
a.主題關鍵字屬性
當關鍵字是動詞或者名詞,且名詞比其他屬性詞類更能表達主要的思想和結構,該屬性需和其他屬性結合使用;
b.關鍵字出現頻率
在分詞結果中出現的頻率越高,該關鍵字在分詞結果中作為核心詞的權值就越大;
c.關鍵字出現位置屬性
從中文結構來說,在分詞結果中,出現在開頭和結尾的關鍵字更具有代表性,其權值越高;
d.關鍵字主題相關性
關鍵字在分詞結果后的相關性決定了其與主題的交互程度,取決于聯合分布p(X,Y)和分解的邊緣分布的乘積p(X)p(Y)的相似程度,相關性的計算公式如下:
,
其中,p(x,y)是X和Y的聯合概率分布函數,X為關鍵字分詞結果,Y是調查主題,p(x)和p(y)分別為X和Y的邊緣概率分布函數,使用關鍵字主題作為關鍵字提取的特征量化時,對正文和標題構造PatriciaTree(PAT Tree),然后計算相關性;
e.關鍵字最大距離
關鍵字跨度是關鍵字或者關鍵字在分詞結果后第一次出現和最后一次出現的距離,距離越大,該關鍵字的權值就有可能增加,有可能更接近主題主旨,關鍵字最大距離計算公式如下:
其中,lasti表示詞i在文本中最后一次出現的位置,firsti表示為詞i在文本中第一次出現的位置,sum表示為文本中詞的總數。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于安徽數據堂科技有限公司,未經安徽數據堂科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810503552.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:命名實體識別方法及系統
- 下一篇:基于中文分詞的中文校對糾錯方法及系統
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





