[發明專利]一種基于表示向量的作品標簽推薦方法和系統有效
| 申請號: | 201710469315.4 | 申請日: | 2017-06-20 |
| 公開(公告)號: | CN107391577B | 公開(公告)日: | 2020-04-03 |
| 發明(設計)人: | 賈巖濤;蔡朋杉;王元卓;靳小龍;李曼玲;程學旗 | 申請(專利權)人: | 中國科學院計算技術研究所 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/78;G06F16/735 |
| 代理公司: | 北京律誠同業知識產權代理有限公司 11006 | 代理人: | 祁建國;梁揮 |
| 地址: | 100080 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 表示 向量 作品 標簽 推薦 方法 系統 | ||
本發明涉及一種基于表示向量的標簽推薦方法和系統,其特征在于,包括:獲取多個作品,根據每個作品對應的標簽、關系及對象,構建多個包含作品和標簽的二元組信息和包含作品、關系及對象的三元組信息,根據二元組信息和三元組信息生成訓練數據集;通過對訓練數據集進行表示學習,分別得到各個作品的作品表示向量和各類標簽的標簽表示向量;通過計算各個作品表示向量和各類標簽表示向量之間的距離,從各類標簽中篩選出各個作品的推薦標簽。本發明在學習表示向量的過程中,本發明同時考慮作品標簽對二元組信息和作品的三元組信息。通過融入更多信息,使得學到的表示向量能夠更準確地反映作品和標簽的語義,從而更好地支持標簽推薦這一任務。
技術領域
本發明涉及標簽推薦領域,特別涉及一種基于表示向量的作品標簽推薦方法和系統。
背景技術
網絡大數據時代的到來,使得網絡上的數據呈爆炸式的增長。為了幫助用戶更好,更快地了解網絡上各種作品的信息,許多網站開放了分眾分類體系(folksonomy)。分眾分類體系允許用戶給網站中的作品打標簽。如在豆瓣電影網站上,電影《音樂之聲》就被打上了標簽“音樂劇”、“愛情”、“經典”等標簽。這些標簽可以幫助網站的用戶更快速地找到信息,更便捷地發現信息,更容易地理解信息。
然而,對于許多剛剛問世的作品,或者關注人數較少的作品而言,因為廣大用戶缺乏了解,所以難以給出準確的標簽。這使得分眾分類體系缺乏準確性和完整性,也進一步阻礙了更多用戶了解到作品的相關信息。
為了解決上述問題,我們需要一種方法,幫助我們利用已知的作品標簽信息,發掘出潛在的作品標簽,從而完成分眾分類體系的自動擴充。
現有技術包括:標簽推薦技術和協同過濾推薦技術,前者是目前比較有效的方法是基于協同過濾算法的標簽推薦方法;后者協同過濾推薦(Collaborative FilteringRecommendation)技術是在信息過濾和信息系統已經一項非常成熟的技術,與傳統的基于內容過濾直接分析內容進行推薦不同,協同過濾分析用戶興趣,在用戶群中找到指定用戶的相似(興趣)用戶,綜合這些相似用戶對某一信息的評價,形成系統對該指定用戶對此信息的喜好程度預測。
具體地,在作品標簽推薦這一任務中,協同過濾方法又可以細分為兩種:
1.基于作品的協同過濾:通過作品標簽對來評測作品之間的相似性,基于作品之間的相似性,給作品推薦潛在的標簽。
2.基于標簽的協同過濾:通過作品標簽對來評測標簽之間的相似性,基于標簽之間的相似性,給標簽推薦給潛在作品。
但上述協同過濾技術在以下兩點上存在缺陷:
(1)協同過濾技術僅僅適用于二元組式的數據結構,即其輸入信息必須嚴格地服從“作品——標簽”對形式。然而,眾所周知的是,當前互聯網上,作品的信息以多種形式存儲。除了“作品標簽”對這一形式之外,還存在豐富的三元組式的數據信息,如“音樂之聲——導演——羅伯特·懷斯”這個三元組告訴我們,電影音樂之聲的導演是羅伯特·懷斯。
由于協同過濾技術無法處理這樣的三元組信息,也使其在進行標簽推薦的時候少了許多可用的資源。特別是對于某些標簽較少的作品,由于缺乏足夠多的標簽表征其語義,標簽推薦的結果往往不夠準確。
(2)協同過濾技術僅僅依據顯性的相似度進行推薦。如下表1所示,由于作品A和作品C有著相似的標簽集合(兩作品均對應標簽A、C),故推測作品A也可能會對應標簽D,而作品B和作品C的標簽集合并不相似,故作品B不太可能會對應標簽D。這一方法的缺陷在于,我們無從得知標簽A,B,C之間的語義相似度。如果標簽B的語義和標簽A,C非常相似,那么我們同樣有理由推測,作品B也對應標簽D。然而,這種相似度是非顯性的,應用協同過濾方法難以直接獲得。
表1:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國科學院計算技術研究所,未經中國科學院計算技術研究所許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710469315.4/2.html,轉載請聲明來源鉆瓜專利網。





