[發明專利]一種基于影評的電影標簽自動生成方法有效
| 申請號: | 201810918216.4 | 申請日: | 2018-08-13 |
| 公開(公告)號: | CN109299330B | 公開(公告)日: | 2021-06-25 |
| 發明(設計)人: | 吳迪;吳燦銳 | 申請(專利權)人: | 中山大學 |
| 主分類號: | G06F16/783 | 分類號: | G06F16/783 |
| 代理公司: | 廣州粵高專利商標代理有限公司 44102 | 代理人: | 林麗明 |
| 地址: | 510275 廣東*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 影評 電影 標簽 自動 生成 方法 | ||
本發明提出了一種基于影評的電影標簽自動生成算法,本發明中的算法充分考慮了目前有標簽的電影的數據集中存在的缺失問題,首先采用帶權重的無監督算法從影評中自動為訓練集補足標簽。同時,本發明還充分考慮了兩部電影各項屬性的相似性和標簽相似性的關系,以機器學習的方法預測從各項屬性到標簽相似性的映射,而不是采用簡單的相似性如余弦相似性計算粗略的相似性關系。最后,本方法在使用傳統K近鄰算法得到標簽的候選多重集后,并不采用簡單的評價標準排序選出標簽集,而是采用基于標簽共現關系的圖算法來決定候選標簽的順序,從而決定最終的標簽集。
技術領域
本發明涉及人工智能領域,更具體的,涉及一種基于影評的電影標簽自動生成方法。
背景技術
電影由于其豐富的元素迅速地成為人們日常生活中必備的休閑方式之一。電影的市場越來越大,電影的種類越來越多。琳瑯滿目的電影以及電影的時長導致用戶不可能完整瀏覽一部影片,對于即將上映的電影來說,用戶了解一部電影的較好方式通常包括簡介,預告片,其他用戶的片評論以及電影標簽,但對于一些年份較古老或者較冷門的電影,用戶了解的方式通常只有簡介和電影標簽。因此,電影的社會標簽具有較大的意義,能幫助推薦系統提升為用戶推薦的電影的準確性,能幫助提供電影資訊的平臺進行電影細粒度分類以及豐富電影檢索功能,并能幫助用戶迅速的了解電影的主要信息。但是,目前對于未上映的電影或者冷門電影,由于觀看的用戶數目極少,因此這部分電影的社會標簽通常非常少甚至沒有,而這部分電影的數量遠超于社會標簽較為豐富的電影。手工的為這部分電影打標簽不僅費時費力,而且難以較全面地覆蓋電影的各個方面。
發明內容
為了解決現有技術中對于未上映的電影或者冷門電影這部分電影的社會標簽通常非常少甚至沒有不足,本發明提供了一種基于影評的電影標簽自動生成方法。
為實現以上發明目的,采用的技術方案是:
一種基于影評的電影標簽自動生成方法,包括以下步驟:
步驟S1:獲取平臺上所有電影的影評、屬性及其對應的社會標簽作為訓練集;
步驟S2:若某一電影的社會標簽數量低于設定的閾值,則通過標簽補全算法從其影評中自動提取標簽,從而為該電影補充標簽;
步驟S3:對訓練集中的每每兩部電影計算屬性的相似度,以及計算每每兩部電影社會標簽集合的相似度,從而構建一個新的數據集,并用其建立一個回歸學習器,學習從屬性到相似度的映射;
步驟S4:基于回歸學習器預測的相似度采用K近鄰方法確定每部無標簽電影在訓練集中的前K部最相似的電影,這些電影的社會標簽組成的多重集成為候選標簽集;
步驟S5:利用標簽共現關系組成有向圖,以此建立候選標簽選取算法從候選標簽集中確定每部無標簽電影的最終標簽集。
優選的,步驟S2所述的標簽補全算法包括以下步驟:
步驟S201:通過所有電影的所有影評計算每個詞匯的逆文檔頻率,計算每部電影所有影評對應詞匯的頻率;
步驟S202:通過訓練集的所有標簽計算每個標簽的正向權重;
步驟S203:為訓練集中每部標簽數量低于設定閾值的電影補充TF-IDF乘上正向權重后最大的那些標簽,補充到社會標簽的數量達到設定的閾值為止。
優選的,步驟S5具體包括以下步驟:
步驟 S501:采用候選標簽集構建有向帶權圖G的頂點,其中G的從u到v的邊的權重由u,v共現次數及u和其他頂點共現次數給出;
步驟 S502:采用候選標簽集中每個標簽出現的次數給對應的頂點賦值;
步驟S503:不斷從圖中刪除掉頂點值最小的頂點,并且給刪掉的頂點前k大權值的邊對應的頂點傳輸按比例分配的數值,直到圖的頂點數達到預定義的數值;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中山大學,未經中山大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201810918216.4/2.html,轉載請聲明來源鉆瓜專利網。





