[發明專利]一種基于大數據的影視作品市場分析方法在審
| 申請號: | 201810008505.0 | 申請日: | 2018-01-04 |
| 公開(公告)號: | CN108197271A | 公開(公告)日: | 2018-06-22 |
| 發明(設計)人: | 王瑩 | 申請(專利權)人: | 鄭州云海信息技術有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 濟南舜源專利事務所有限公司 37205 | 代理人: | 劉雪萍 |
| 地址: | 450000 河南省鄭州市*** | 國省代碼: | 河南;41 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 聚類 剔除 異常數據 觀影 獲取數據 目標文件 社交網站 市場分析 影視作品 大數據 分箱 聚類處理 聚類算法 評論數據 數據構建 分析 演算法 人群 分層 分級 構建 影片 | ||
本發明涉及一種基于大數據的影視作品市場分析方法,包括如下步驟:從社交網站獲取數據;進行K?Means聚類剔除異常數據;剔除異常數據的數據,構建一個分析流,進行多次K?Means聚類和設置分箱節點對影片評分和觀影人群進行分析后將數據存入目標文件。在進行步驟從社交網站獲取數據之前,定義需要的觀影評論數據指標。剔除異常值,對數據進行一次K?Means聚類,將剔除異常數據的數據構建一個分析流,用K?Means聚類算法或分層聚類演算法進行聚類處理,并設置分箱節點對數據按觀影人群年齡和評分分級后將數據存入目標文件。
技術領域
本發明屬于數據挖掘技術領域,具體涉及一種基于大數據的影視作品市場分析方法。
背景技術
傳統的數據分析方法和軟件無法進行獲取、加工和清洗的數據我們可以稱之為大數據。大數據應用的關鍵在于數據獲取變得更加便捷,數據倉庫技術,可視化的分析結果。大數據猶如沒有開發的“金礦”,可以開發和利用這些大數據為影視作品的投資決策提供數據支撐,運用在影視行業。
近年來,大數據在各行各業引領浪潮,成為重要的生產要素,在影視作品的生產過程中,需要大數據驅動創新,節目受眾需求多樣化需要大數據分析。
發明內容
本發明的目的在于,針對上述現有技術的問題,提供設計一種基于大數據的影視作品市場分析方法,以解決上述技術問題。
為了達到上述目的,本發明的技術方案是:
一種基于大數據的影視作品市場分析方法,包括如下步驟:
從社交網站獲取數據;
進行K-Means聚類剔除異常數據;
剔除異常數據的數據,構建一個分析流,進行多次K-Means聚類和設置分箱節點對影片評分和觀影人群進行分析后將數據存入目標文件。
進一步的, 在進行步驟從社交網站獲取數據之前,定義需要的觀影評論數據指標。
進一步的,所述數據指標包括影片評價得分均值,影片被網友評分次數,評分網友平均年齡,評分網友性別分布,評論該影片的網友的評分次數的均值,評價該影片的網友所有評分得分均值的均值。
進一步的, 從社交網站獲取數據還包括利用python提取與設定數據指標匹配的字段,并存入ORACLE 數據庫管理系統。
進一步的,步驟利用python提取與設定數據指標匹配的字段,并存入ORACLE 數據庫管理系統還包括:將提取的與設定的數據指標匹配字段進行Z標準化,去除數據的單位限制,轉化為無量綱的純數值,并存入ORACLE 數據庫管理系統。
進一步的, 進行K-Means聚類剔除異常數據包括:
剔除異常值,對數據進行一次K-Means聚類,評論該影片的網友的評分次數的均值過高或過低,且評價該影片的網友所有評分得分均值的均值過高或過低,判斷評論該影片的用戶多為異常用戶,作為異常數據剔除。
進一步的,將剔除異常數據的數據構建一個分析流,用K-Means聚類算法或分層聚類演算法進行聚類處理,并設置分箱節點對數據按觀影人群年齡和評分分級后將數據存入目標文件。
進一步的,所述分析流由節點組成,每個單獨的節點就是一個函數或程序進行聚類分析。
進一步的, 該方法還包括使用分箱節點對離散型數據按其數值大小進行分段操作,對數據按觀影人群年齡和評分分級,分析觀影人群的年齡分布等信息指導影視作品投資決策。
K-Means 聚類為了把現有的擁有樣本的數據集分成各個相似度較高的簇,K值需要根據需求經驗確定,可多次嘗試不同的K值確定合適的K值。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于鄭州云海信息技術有限公司,未經鄭州云海信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810008505.0/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式文件系統數據回收方法
- 下一篇:一種分布式關聯規則增量的更新方法及裝置





