[發明專利]一種基于無監督學習的推薦方法及系統在審
| 申請號: | 202111171685.2 | 申請日: | 2021-10-08 |
| 公開(公告)號: | CN113901289A | 公開(公告)日: | 2022-01-07 |
| 發明(設計)人: | 郭鑫潤 | 申請(專利權)人: | 新華智云科技有限公司 |
| 主分類號: | G06F16/9035 | 分類號: | G06F16/9035;G06K9/62;G06N3/08 |
| 代理公司: | 杭州裕陽聯合專利代理有限公司 33289 | 代理人: | 楊琪宇 |
| 地址: | 310012 浙江省杭州市*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 監督 學習 推薦 方法 系統 | ||
本發明公開了一種基于無監督學習的推薦方法及系統,方法包括以下步驟:獲取第一訓練數據,第一訓練數據第一次輸入bert模型,得到第二訓練數據,第一訓練數據第二次輸入bert模型,得到第三訓練數據;第二訓練數據和第三訓練數據構成正樣本對和負樣本對,正樣本對和負樣本輸入loss函數,得到損失值;判斷損失值是否在預設閾值內,若是,得到精準bert模型;獲取用戶數據,將處理后的用戶數據輸入精準bert模型,計算用戶數據和待推薦數據的相似度分數,根據相似度分數對用戶進行推薦,有益效果在于能更好的解決詞的多層特征表示和一詞多義的問題,減少需要人工標注的資源,能很好的緩解標注資源不足的問題,同時可以極大的提高推薦速度。
技術領域
本發明屬于推薦方法技術領域,更具體地說,本發明涉及一種基于無監督學習的推薦方法及系統。
背景技術
在推薦系統項目中,例如影視作品推薦,通常使用文本相似度(text similarity)來進行相似物品推薦,文本相似度是一種比較常用的推薦算法。文本相似度在推薦系統項目中的應用,可以歸結為對簡介文本計算相似度分數,通過相似度分數進行排序,根據排序結果進行推薦。在工業場景的推薦項目中,經常面臨沒有標注數據的問題,同時也需要考慮推薦算法的性能問題,針對工業場景的推薦項目中目前的技術方案存在以下缺陷:
第一,一種方法是使用大規模語料庫,通過word2vec訓練出語料庫文本詞向量,訓練完成后將文本進行分詞操作,并找出每個詞對應的詞向量。對文本的所有詞向量進行池化操作,生成固定維度的句向量,計算兩個句向量的余弦相似度來衡量文本之間的相關程度。
word2ve方法的局限之一是無法解決一詞多義的問題。word2vec由詞義的分布式假設出發,分布式假設的含義是一個單詞的意思由頻繁出現在它上下文的詞給出,訓練詞的稠密化向量表示。而該向量在其他文本場景中是固定不變的,無法根據上下文得到不同的語義向量。
word2vec方法的另一個局限是詞不具備多層特征。word2vec通過簡單的向量embedding表征矩陣訓練單層分類網絡,固定一個單詞的詞向量。因此相比于bert等預訓練模型,word2vec無法體現詞的復雜特性,包括語法(syntax)、語義(semantics)等。
第二,另一種方案,使用bert預訓練模型對兩個文本進行聯合表征,進行下游的文本相似度微調任務。使用人工標注資源將成對的文本打上相似度標簽,用[SEP]分隔符拼接兩個成對的文本,輸入到bert模型中,在模型輸出層獲取logits層并計算sigmoid層,最終得到文本的相似度分數。
bert預訓練模型的局限之一是對兩個文本進行聯合表征輸入到bert模型的局限是需要大量人力標注資源。對兩個文本進行聯合表征輸入到bert模型的另一個局限是模型性能不足。在模型預測時,該方法需要將兩段文本同時作為輸入。無法離線存儲文本的embedding表征,因此難以在高并發場合下使用。
發明內容
本發明的目的在于提供一種基于無監督學習的推薦方法及系統,以解決上述現有技術中存在的推薦方法中需要大量人力來標注資源的技術問題。
為實現上述技術目的,本發明采用的技術方案如下:
一種基于無監督學習的推薦方法,包括以下步驟:
獲取第一訓練數據,所述第一訓練數據第一次輸入bert模型,得到第二訓練數據,所述第一訓練數據第二次輸入bert模型,得到第三訓練數據;
所述第二訓練數據和所述第三訓練數據構成正樣本對和負樣本對,所述正樣本對和所述負樣本輸入loss函數,得到損失值;
判斷損失值是否在預設閾值內,若否,重復運行獲取第一訓練數據,所述第一訓練數據第一次輸入bert模型以及之后的步驟;若是,得到精準bert模型;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新華智云科技有限公司,未經新華智云科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202111171685.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種電纜屏蔽層修復設備及修復方法
- 下一篇:一種定子測溫結構及其測溫方法





