[發明專利]一種基于大數據的電影語義個性化標簽優化方法有效
| 申請號: | 201710757109.3 | 申請日: | 2017-08-29 |
| 公開(公告)號: | CN107515934B | 公開(公告)日: | 2020-12-15 |
| 發明(設計)人: | 陽柯;劉楚雄;唐軍 | 申請(專利權)人: | 四川長虹電器股份有限公司 |
| 主分類號: | G06F16/955 | 分類號: | G06F16/955;G06F16/48;G06K9/62 |
| 代理公司: | 四川省成都市天策商標專利事務所 51213 | 代理人: | 秦華云;吳瑞芳 |
| 地址: | 621000 四*** | 國省代碼: | 四川;51 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 數據 電影 語義 個性化 標簽 優化 方法 | ||
1.一種基于大數據的電影語義個性化標簽優化方法,其特征在于:其方法步驟如下:
A、收集電影i和電影j的評論信息數據,所述評論信息數據包括電影簡介、電影長評和電影短評,采用開源中文分詞工具對評論信息數據進行分詞處理;建立停用詞數據庫,通過停用詞數據庫去除分詞后的評論信息數據中的停用詞得到有效評論數據;
B、計算詞頻TF:詞頻TF=某個詞在某一評論文章中經過步驟A處理后的有效評論數據出現的次數,詞頻TF采用計算方式計算:
詞頻TF=某個詞在某一評論文章中經過步驟A處理后的有效評論數據出現的次數/該有效評論數據中詞數;
C、計算文檔集頻率SF:文檔集頻率SF=某個詞在所有評論文檔中出現過的文檔數目/總評論文檔數;
D、生成個性化標簽:個性化標簽=詞頻TF與計算文檔集頻率SF的乘積,并按照權重值降序排列各標簽;
E、標簽異化:生成的個性化標簽中,通過詞向量模型計算出個性化詞語之間的距離;
所述詞向量模型方法如下:
E1、采用如下向量余弦的方法計算文本相似度:
Di,j=cos(xi,xj)
其中xi,xj的值是電影i、電影j的電影簡介分別通過Doc2vec算法得到一個固定維度的向量;
E2、比較各自定義電影標簽的相似度,得到相似度矩陣S用來表示標簽li與標簽lj之間標簽的相似度,相同或近似標簽的相似度定義為1,相反標簽的相似度定義為0;
E3、引入置信度矩陣Y,Yi,j≥0,其值表示電影i中標簽lj的置信得分,即標簽優化結果;
E4、自定義電影標簽相似度定義:
其中,yi,yj分別表示電影i,電影j的自定義電影標簽;
E5、標簽優化目標函數,通過最小化電影簡介內容與標簽之間的差值,以及最小化電影實質標簽與用戶自定義標簽的差值,定義優化目標函數如下:
其中,表示電影i是否含有標簽lj,αj是比例因子,φ是罰項因子;
F、提取個性化標簽:步驟D的個性化標簽經過步驟E標簽異化合并之后的個性化標簽,按照權重值降序排列,選取前N個標簽作為該電影的個性化標簽L0。
2.按照權利要求1所述的一種基于大數據的電影語義個性化標簽優化方法,其特征在于:還包括步驟G;
G、個性化標簽權重歸一化:對個性化標簽集合按照如下公式做歸一化計算:
其中,分別表示電影i、電影j的個性化標簽。
3.按照權利要求2所述的一種基于大數據的電影語義個性化標簽優化方法,其特征在于:還包括電影標簽融合步驟H;
H1、對步驟F的個性化標簽集合進行交集、差集運算,交集Inte=L1∩L0,差集Diff0=L0-Inte,差集Diff1=L1-Inte,其中L1,L0分別表示優化之后的自定義標簽集合,個性化標簽集合;
H2、交集Inte作為電影最終標簽的部分標簽;
H3、融合Diff0、Diff1標簽,其中Diff1權重較大,并且全部保留到電影的最終個性化標簽中;而Diff0的標簽僅取權重前三或前三用以保留電影個性化標簽,最后得到最終電影標簽L。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于四川長虹電器股份有限公司,未經四川長虹電器股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710757109.3/1.html,轉載請聲明來源鉆瓜專利網。
- 數據顯示系統、數據中繼設備、數據中繼方法、數據系統、接收設備和數據讀取方法
- 數據記錄方法、數據記錄裝置、數據記錄媒體、數據重播方法和數據重播裝置
- 數據發送方法、數據發送系統、數據發送裝置以及數據結構
- 數據顯示系統、數據中繼設備、數據中繼方法及數據系統
- 數據嵌入裝置、數據嵌入方法、數據提取裝置及數據提取方法
- 數據管理裝置、數據編輯裝置、數據閱覽裝置、數據管理方法、數據編輯方法以及數據閱覽方法
- 數據發送和數據接收設備、數據發送和數據接收方法
- 數據發送裝置、數據接收裝置、數據收發系統、數據發送方法、數據接收方法和數據收發方法
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置
- 數據發送方法、數據再現方法、數據發送裝置及數據再現裝置





