[發(fā)明專利]商品領域的知識融合方法在審
| 申請?zhí)枺?/td> | 201710117723.3 | 申請日: | 2017-03-01 |
| 公開(公告)號: | CN108536664A | 公開(公告)日: | 2018-09-14 |
| 發(fā)明(設計)人: | 楊靜;潘棟 | 申請(專利權(quán))人: | 華東師范大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F17/30;G06Q30/06 |
| 代理公司: | 上海隆天律師事務所 31282 | 代理人: | 臧云霄;夏彬 |
| 地址: | 200333 上*** | 國省代碼: | 上海;31 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 知識融合 商品數(shù)據(jù) 融合 商品領域 商品知識 詞向量 相似度 知識庫 抓取 距離計算 商品屬性 屬性映射 傳統(tǒng)的 維度 預設 登錄 集合 外部 服務 | ||
1.一種商品領域的知識融合方法,其特征在于,包括如下步驟:
獲取待處理的商品數(shù)據(jù),所述商品數(shù)據(jù)包括商品的屬性和各個所述屬性所對應的屬性值;
采用Word2Vector方法將各個所述屬性映射成具有多個維度的詞向量,各個所述詞向量與所對應的屬性中的各個屬性值一一對應;
根據(jù)每兩個屬性中屬性值的詞向量距離計算每兩個屬性之間的相似度;
將相似度高于預設閾值的兩個屬性融合為同一類屬性,得到屬性融合后的商品數(shù)據(jù)集合。
2.根據(jù)權(quán)利要求1所述的商品領域的知識融合方法,其特征在于,獲取待處理的商品數(shù)據(jù)之后,還包括如下步驟:
對所述待處理的商品數(shù)據(jù)進行預處理,使得所述待處理的商品數(shù)據(jù)中的無語義文本具有上下文聯(lián)系。
3.根據(jù)權(quán)利要求2所述的商品領域的知識融合方法,其特征在于,對所述待處理的商品數(shù)據(jù)進行預處理,包括如下步驟:
對所述待處理的商品數(shù)據(jù)進行屬性值歸并;
對屬性值歸并后的商品數(shù)據(jù)進行二值處理。
4.根據(jù)權(quán)利要求3所述的商品領域的知識融合方法,其特征在于,對所述待處理的商品數(shù)據(jù)進行屬性值歸并,包括如下步驟:
根據(jù)所述待處理的商品數(shù)據(jù)中各個所述屬性的名稱,將具有相同名稱的屬性所對應的屬性值歸并為一行。
5.根據(jù)權(quán)利要求4所述的商品領域的知識融合方法,其特征在于,對屬性值歸并后的商品數(shù)據(jù)進行二值處理,包括如下步驟:
對只包括肯定性和否定性兩種屬性值的屬性進行處理,將該屬性的肯定性屬性值均替換為該屬性的名稱,將該屬性的否定性屬性值均替換為非字加上該屬性的名稱。
6.根據(jù)權(quán)利要求2所述的商品領域的知識融合方法,其特征在于,將各個所述屬性映射成具有多個維度的詞向量,包括如下步驟:
采用Word2Vector方法基于各個所述屬性的上下文聯(lián)系提取其各個屬性值的詞義特征,映射成具有多個維度的詞向量,各個所述詞向量與所對應的屬性中的各個屬性值一一對應。
7.根據(jù)權(quán)利要求1所述的商品領域的知識融合方法,其特征在于,根據(jù)如下公式計算每兩個屬性之間的相似度:
其中,屬性A和屬性B為所述待處理的商品數(shù)據(jù)中的兩個屬性,Dist(A,B)為屬性A和屬性B之間的相似度;
所述屬性A中具有n個屬性值,ai為屬性A的第i個屬性值,且i∈(1,n);
b_max(ai)為所述屬性B中與屬性值ai相似度最高的屬性值;
dist(ai,b_max(ai))為屬性值ai與屬性值b_max(ai)的詞向量距離。
8.根據(jù)權(quán)利要求1所述的商品領域的知識融合方法,其特征在于,根據(jù)每兩個屬性中屬性值的詞向量距離,以及所述屬性中各個所述屬性值的詞頻,計算得到每兩個屬性之間的相似度。
該專利技術資料僅供研究查看技術是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于華東師范大學,未經(jīng)華東師范大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710117723.3/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





