[發明專利]一種基于大數據的影視作品市場分析方法在審
| 申請號: | 201810008505.0 | 申請日: | 2018-01-04 |
| 公開(公告)號: | CN108197271A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 王瑩 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 劉雪萍 |
| 地址: | 450000 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 剔除 異常數據 觀影 獲取數據 目標文件 社交網站 市場分析 影視作品 大數據 分箱 聚類處理 聚類算法 評論數據 數據構建 分析 演算法 人群 分層 分級 構建 影片 | ||
1.一種基于大數據的影視作品市場分析方法,其特征在于包括如下步驟:
從社交網站獲取數據;
進行K-Means聚類剔除異常數據;
剔除異常數據的數據,構建一個分析流,進行多次K-Means聚類和設置分箱節點對影片評分和觀影人群進行分析后將數據存入目標文件。
2.根據權利要求1所述的一種基于大數據的影視作品市場分析系統,其特征在于, 在進行步驟從社交網站獲取數據之前,定義需要的觀影評論數據指標。
3.根據權利要求2所述的一種基于大數據的影視作品市場分析方法,其特征在于,所述數據指標包括影片評價得分均值,影片被網友評分次數,評分網友平均年齡,評分網友性別分布,評論該影片的網友的評分次數的均值,評價該影片的網友所有評分得分均值的均值。
4.根據權利要求3所述的一種基于大數據的影視作品市場分析方法,其特征在于, 從社交網站獲取數據還包括利用python提取與設定數據指標匹配的字段,并存入ORACLE 數據庫管理系統。
5.根據權利要求4所述的一種基于大數據的影視作品市場分析方法,其特征在于,步驟利用python提取與設定數據指標匹配的字段,并存入ORACLE 數據庫管理系統還包括:將提取的與設定的數據指標匹配字段進行Z標準化,去除數據的單位限制,轉化為無量綱的純數值,并存入ORACLE 數據庫管理系統。
6.根據權利要求5所述的一種基于大數據的影視作品市場分析方法,其特征在于, 進行K-Means聚類剔除異常數據包括:
剔除異常值,對數據進行一次K-Means聚類,評論該影片的網友的評分次數的均值過高或過低,且評價該影片的網友所有評分得分均值的均值過高或過低,判斷評論該影片的用戶多為異常用戶,作為異常數據剔除。
7.根據權利要求6所述的一種基于大數據的影視作品市場分析方法,其特征在于,將剔除異常數據的數據構建一個分析流,用K-Means聚類算法或分層聚類演算法進行聚類處理,并設置分箱節點對數據按觀影人群年齡和評分分級后將數據存入目標文件。
8.根據權利要求7所述的一種基于大數據的影視作品市場分析方法,其特征在于,所述分析流由節點組成,每個單獨的節點就是一個函數或程序進行聚類分析。
9.根據權利要求8所述的一種基于大數據的影視作品市場分析方法,其特征在于, 該方法還包括使用分箱節點對離散型數據按其數值大小進行分段操作,對數據按觀影人群年齡和評分分級,分析觀影人群的年齡分布等信息指導影視作品投資決策。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810008505.0/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式文件系統數據回收方法
- 下一篇:一種分布式關聯規則增量的更新方法及裝置





