[發明專利]一種基于大數據的電影語義個性化標簽優化方法有效
| 申請號: | 201710757109.3 | 申請日: | 2017-08-29 |
| 公開(公告)號: | CN107515934B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 陽柯;劉楚雄;唐軍 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/48;G06K9/62 |
| 代理公司: | 四川省成都市天策商標專利事務所 51213 | 代理人: | 秦華云;吳瑞芳 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 電影 語義 個性化 標簽 優化 方法 | ||
本發明公開了一種基于大數據的電影語義個性化標簽優化方法,通過挖掘電影評論數據,獲取異化的個性化電影標簽;同時通過神經網絡模型向量化得到文本、詞匯,以電影簡介文本的相似度與標簽詞匯的相似度,結合優化前后自定義標簽的偏差,建立機器學習模型,并通過個性化標簽初始化機器學習模型。本發明實現了電影已有自定義標簽的優化,實現合并冗余標簽,糾正錯誤標簽、補全缺失標簽以及補全個性化標簽;對電影資源進行科學、有效的分類和描述,提供電影信息檢索的基礎,解決了人工電影標簽所引發的一系列問題。
技術領域
本發明涉及大數據分析技術領域,尤其涉及一種基于大數據的電影語義個性化標簽優化方法。
背景技術
在影視行業的發展與人們精神需求的雙重因素刺激之下,電影種類與數目日益增多,因此對電影的描述變得越來越重要。同時,隨著互聯網的迅猛發展,越來越多的共享信息出現在各類網站之上,就電影而言,有豆瓣,騰訊等網站。這些網站允許用戶評論以及為不同電影定義類別標簽,不但作為一種信息分享,最重要的是將優化在海量視頻庫中搜索特定視頻的過程。但隨著互聯網數據急劇增加隨之產生一些問題,主要如下:
首先,標簽本身的問題。因為這些網站的電影標簽來自用戶自定義,任何人在任何情況下都可以對任何資源定義標簽,所以這些標簽具有隨意性,不嚴謹性,容易帶來矛盾、混亂等問題,缺乏正確以及合理的標簽將會使用戶迷失在冗余繁雜的檢索結果之中。
其次,沒有個性化標簽。目前電影的標簽集中在通用標簽集上,特定電影缺乏獨特的標簽,不能精準描述電影,同時這將導致無法通過獨特的標簽搜索特定電影。
最后,數據資源的浪費問題,在已有的標簽優化方法中,極少數方法考慮到電影簡介,同時都忽略了互聯網上大量的評論資源,這些資源同樣也是對電影的一種描述,這樣會導致內容資源的嚴重浪費。
發明內容
針對現有技術存在的不足之處,本發明的目的在于提供一種基于大數據的電影語義個性化標簽優化方法,通過語義的方法,結合電影評論數據,提出豐富電影個性化標簽以及用戶自定義標簽優化方法。首先,有效利用電影評論數據,并挖掘電影評論數據,從電影內容、風格等多角度提煉電影個性化標簽,不但豐富了電影標簽,同時實現電影標簽的個性化,有助于用戶實現精準查找。其次,從電影文本語義角度出發,通過理解電影簡介語義實現優化標簽,通過電影內容語義相似度與標簽本身的語義相似度的關聯信息,精準篩選電影標簽,方便用戶在海量數據信息中搜索目標電影,實現簡化電影需查找過程。
本發明的目的通過下述技術方案實現:
一種基于大數據的電影語義個性化標簽優化方法,其方法步驟如下:
A、收集電影i和電影j的評論信息數據,所述評論信息數據包括電影簡介、電影長評和電影短評,采用開源中文分詞工具對評論信息數據進行分詞處理;建立停用詞數據庫,通過停用詞數據庫去除分詞后的評論信息數據中的停用詞得到有效評論數據;
B、計算詞頻(TF):詞頻(TF)=某個詞在某一評論文章中經過步驟A處理后的有效評論數據出現的次數,詞頻(TF)采用計算方式計算:
詞頻(TF)=某個詞在某一評論文章中經過步驟A處理后的有效評論數據出現的次數/該有效評論數據中詞數;
C、計算文檔集頻率(SF):文檔集頻率(SF)=某個詞在所有評論文檔中出現過的文檔數目/總評論文檔數;
D、生成個性化標簽:個性化標簽=詞頻(TF)與計算文檔集頻率(SF)的乘積,并按照權重值降序排列各標簽;
E、標簽異化:生成的個性化標簽中,通過詞向量模型計算出個性化詞語之間的距離:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710757109.3/2.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





