[發明專利]動態分析的工業品相似度計算方法和系統在審
| 申請號: | 202110892807.0 | 申請日: | 2021-08-04 |
| 公開(公告)號: | CN113850287A | 公開(公告)日: | 2021-12-28 |
| 發明(設計)人: | 朱俊;肖成祥;楊麗萍;戴智鑫 | 申請(專利權)人: | 歐冶工業品股份有限公司 |
| 主分類號: | G06K9/62 | 分類號: | G06K9/62 |
| 代理公司: | 上海段和段律師事務所 31334 | 代理人: | 郭國中;李佳俊 |
| 地址: | 201900 上海市寶山*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 動態 分析 工業品 相似 計算方法 系統 | ||
本發明提供了一種動態分析的工業品相似度計算方法和系統,包括:步驟S1:在Bert模型中添加輸入層,對輸入到Bert模型的行業數據先進行預處理再進行輸入;步驟S2:對Bert模型進行參數優化,先使用通用參數進行模型訓練,得到實際模型訓練類別,再結合訓練參數特點,預設指標后對損失函數進行收斂,得到實際模型訓練結果;步驟S3:對實際模型訓練結果進行相似度計算,得到符合預設條件的工業品。本發明從業務方面解決了因買賣雙方對工業品的定義存在差異而導致商業關系匹配困難的痛點問題,并且適用于多種業務場景。
技術領域
本發明涉及數據處理技術領域,具體地,涉及一種動態分析的工業品相似度計算方法和系統。
背景技術
在傳統的工業品行業,不同工業品公司對同一物料或商品可能會根據公司自身的原因對本質上一樣的工業品賦予不同的名字,這樣就給雙方在進行工業品交易的時候,帶來了極大的困難,為此,就需要對工業品行業有很深理解的行業專家來人工的進行識別。這樣不僅增加了公司的成本,而且極大地降低了商品消歧的速度。
為此,本發明旨在解決因買賣雙方對工業品的定義存在差異,而導致商業關系匹配困難的痛點問題。所以,本發明實現了不同描述下商品匹配的通用核心技術組件,不同數字化場景均會使用本發明。
專利文獻CN107436864B(申請號:CN201710661607.8)公開了一種基于Word2Vec的中文問答語義相似度計算方法,包括文本預處理、向量表示和相似度計算。然而該專利所用到的Word2Vec存在缺陷:如果新的商品通過分詞后,出現的詞在訓練好的模型中不存在時,那么這個詞的數學向量模型全為0,因此Word2Vec模型對新的詞的表現不夠良好。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種動態分析的工業品相似度計算方法和系統。
根據本發明提供的動態分析的工業品相似度計算方法,包括:
步驟S1:在Bert模型中添加輸入層,對輸入到Bert模型的行業數據先進行預處理再進行輸入;
步驟S2:對Bert模型進行參數優化,先使用通用參數進行模型訓練,得到實際模型訓練類別,再結合訓練參數特點,預設指標后對損失函數進行收斂,得到實際模型訓練結果;
步驟S3:對實際模型訓練結果進行相似度計算,得到符合預設條件的工業品。
優選的,將行業數據按照8:2的比例分成訓練集和測試集,分別用于訓練和測試,并將訓練和測試的數據作為輸入層的輸入帶入到Bert模型中。
優選的,在輸入通用參數后,通過Bert模型預測模型訓練類別;
對預測模型訓練類別和實際模型訓練類別進行正確率計算,正確率越高則表明模型分類的正確性越高,若正確率低于預設閾值則繼續進行模型訓練。
優選的,對實際模型訓練結果進行損失值計算,計算模型預測結果與實際模型訓練結果的差值,若差值越小,則表明模型訓練的效果越好;若差值高于預設閾值,則繼續進行模型訓練。
優選的,采用余弦相似度進行相似度計算,公式為:
其中,similarity(A,B)表示余弦相似度;A表示目標用戶的行為向量;B表示除目標用戶的行為向量;A·B表示向量A和向量B的內積;||A||表示向量A的模;||B||表示向量B的模;n表示向量的分量數;i表示向量的第i個分量;Ai表示向量A的第i個分量;Bi表示向量B的第i個分量;
根據相似度計算結果,對相似度最高的工業品數據進行工業品推薦。
根據本發明提供的動態分析的工業品相似度計算系統,包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于歐冶工業品股份有限公司,未經歐冶工業品股份有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110892807.0/2.html,轉載請聲明來源鉆瓜專利網。





