[發明專利]基于半監督學習的多源異構商品特征權重求解方法和裝置有效
| 申請號: | 202010464383.3 | 申請日: | 2020-05-27 |
| 公開(公告)號: | CN111651512B | 公開(公告)日: | 2022-06-10 |
| 發明(設計)人: | 黃茉;張永霞;翁增仁;葉章明;胡錦鋒 | 申請(專利權)人: | 福建博思軟件股份有限公司 |
| 主分類號: | G06F16/25 | 分類號: | G06F16/25;G06F16/245;G06N20/00;G06Q30/06 |
| 代理公司: | 福州科揚專利事務所(普通合伙) 35001 | 代理人: | 郭夢羽 |
| 地址: | 350100 福建*** | 國省代碼: | 福建;35 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 監督 學習 多源異構 商品 特征 權重 求解 方法 裝置 | ||
1.基于半監督學習的多源異構商品特征權重求解方法,其特征在于,包括如下步驟:
采集數據,采集網絡平臺公布的商品數據,將采集到的商品數據放入商品全集中,所述商品數據包括商品特征和商品特征值;
預處理,工作人員對所述商品全集中的部分商品數據進行同一性標注,將標注了同一性的商品數據放入訓練集中;
求解權重,對所述訓練集中已標注同一性的商品數據,依據不同商品特征對商品同一性的影響程度,求解不同商品特征對應的權重,具體步驟如下:
構造用于計算商品特征值之間相似度的商品特征值相似度函數;
構造通過商品共有特征、商品特征值之間的相似度和不同商品特征對應的權重計算商品之間相似度的商品相似度函數,并設定同一性判定閾值ε1和ε2,ε1和ε2滿足0ε2ε11,若通過商品相似度函數計算出兩商品相似度大于ε1,判定兩商品為同一商品,若小于ε2,則判定為不同商品,否則,認為無法確定;
轉化為最優化問題,構造含有罰函數的最小化目標損失函數,對罰函數的參數以及待求解的不同商品特征對應的權重賦予初始值;
利用梯度下降法對待求解的不同商品特征對應的權重進行優化,直到所述待求解的不同商品特征對應的權重在連續的時域內的值不再發生明顯變化;
擴充訓練集,根據所述訓練集中不同商品特征對應的權重,在所述商品全集范圍內通過條件松弛和同一性傳遞進行訓練集的推廣,并重復求解權重的步驟,直到訓練集無法擴充;
求解未知權重,根據已知權重的商品特征推導求解訓練集中剩余未知權重的商品特征,并重復擴充訓練集迭代求解全集范圍內的剩余未知權重的商品特征。
2.根據權利要求1所述的基于半監督學習的多源異構商品特征權重求解方法,其特征在于,所述工作人員對所述商品全集中的部分商品數據進行同一性標注,將標注了同一性的商品數據放入訓練集中的方法具體為:
在所述商品全集范圍內隨機抽取μ個商品數據放入訓練集;
設定一個初始為空的商品等價集合;
遍歷所有抽取出的商品數據,對每個商品與已有的商品等價值集合進行比較,若工作人員判斷一商品與某一商品等價集合中的某個商品滿足同一性,則將該商品合并至這個商品等價集合中;若一商品找不到可放入的商品等價集合,則將該商品單獨作為一個商品等價集合,最終實現訓練集中所有商品的等價合并,完成同一性標注。
3.根據權利要求1所述的基于半監督學習的多源異構商品特征權重求解方法,其特征在于,所述在所述商品全集范圍內通過條件松弛和同一性傳遞進行訓練集的推廣,并重復求解權重的步驟,直到訓練集無法擴充的方法具體為:
在商品全集范圍內進行條件松弛,若兩商品根據己知權重的商品特征及其對應的商品特征值所求解的商品相似度≥ε1,且兩商品共有的未知權重的商品特征值的相似度均≥ε1,則判定兩商品為同一商品;若兩商品根據己知權重的商品特征及其對應的商品特征值所求解的商品相似度≤ε2,且兩商品共有的未知權重的商品特征值的相似度均≤ε2,則判定兩商品非同一商品;
在商品全集范圍內進行同一性傳遞,若商品C1和商品C2為同一商品,且商品C2和商品C3為同一商品,則判定商品C1和商品C3為同一商品;
將全集范圍內經過條件松弛和同一性傳遞后判定與訓練集中商品為同一商品的商品補充至訓練集中,再求取新加入訓練集中的商品的商品特征權重;
循環上述步驟直到訓練集無法擴充。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于福建博思軟件股份有限公司,未經福建博思軟件股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010464383.3/1.html,轉載請聲明來源鉆瓜專利網。





