[發明專利]類目標簽匹配映射方法及裝置有效
| 申請號: | 201610195707.1 | 申請日: | 2016-03-31 |
| 公開(公告)號: | CN105893349B | 公開(公告)日: | 2019-06-04 |
| 發明(設計)人: | 方慶安;范羽;崔世起 | 申請(專利權)人: | 新浪網技術(中國)有限公司 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06F16/9535 |
| 代理公司: | 北京卓嵐智財知識產權代理事務所(特殊普通合伙) 11624 | 代理人: | 任漱晨 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 類目標 源類 標簽信息 相似度 映射 匹配 結構相似度 語義相似度 標簽路徑 標簽 人力物力財力 標簽字符串 相似度匹配 標簽映射 人工參與 設定條件 映射關系 獲取源 向量化 節約 | ||
1.一種類目標簽匹配映射方法,其特征在于,包括:
獲取源類目標簽的標簽信息和目標類目標簽的標簽信息,并對獲取的源類目標簽的標簽信息和目標類目標簽的標簽信息進行分詞操作,過濾掉無用詞;
根據標簽信息中包括的標簽字符串,分別確定各源類目標簽和各目標類目標簽的字面相似度;
根據標簽信息得到標簽的向量化信息,根據標簽的向量化信息和標簽信息中包括的標簽路徑信息,分別確定各源類目標簽和各目標類目標簽的語義相似度;
根據標簽信息中包括的標簽路徑信息,結合字面相似度和語義相似度,分別確定各源類目標簽和各目標類目標簽的結構相似度;
根據各源類目標簽與各目標類目標簽的字面相似度、語義相似度和結構相似度中的至少一個,選擇出相似度符合設定條件的源類目標簽和目標類目標簽,建立映射關系;
其中,所述確定源類目標簽和目標類目標簽的結構相似度的過程,具體包括:根據源類目標簽的標簽路徑信息和目標類目標簽的標簽路徑信息,獲取標簽路徑信息中的父節點信息、子節點信息和兄弟節點信息;以及根據字面相似度和語義相似度確定基礎相似度;基于父節點信息,根據基礎相似度計算源類目標簽和目標類目標簽的祖先節點相似度;基于子節點信息,根據基礎相似度計算源類目標簽和目標類目標簽的子孫節點相似度;基于兄弟節點信息,根據基礎相似度計算源類目標簽和目標類目標簽的兄弟節點相似度;根據祖先節點相似度、子孫節點相似度和兄弟節點相似度,采用設定的加權規則或選擇規則,確定源類目標簽和目標類目標簽的結構相似度。
2.如權利要求1所述的方法,其特征在于,通過下列方式中的至少一種確定源類目標簽和目標類目標簽的字面相似度:
根據標簽信息中包括的標簽字符串是否相同或相近,確定兩個標簽的字面相似度;
根據標簽信息中包括的標簽字符串中的分詞是否是同義詞,確定兩個標簽的字面相似度;
根據標簽信息中包括的標簽字符串前綴的相似比例,確定兩個標簽的字面相似度;
計算兩個標簽字符串的N元文法N-gram相似度,得到兩個標簽的字面相似度;
計算兩個標簽的編輯距離相似度,得到兩個標簽的字面相似度;
根據標簽信息中包括的標簽字符串的長公共子序列計算兩個標簽的最長公共子串LCS相似度。
3.如權利要求1所述的方法,其特征在于,通過下列方式中的至少一種確定源類目標簽和目標類目標簽的語義相似度:
計算源類目標簽和目標類目標簽的杰卡德Jaccard相似度:獲取源類目標簽的向量化信息和目標類目標簽的向量化信息,計算兩個向量Jaccard相似度,作為所述語義相似度;
計算源類目標簽和目標類目標簽的余弦相似度:獲取源類目標簽的向量化信息和目標類目標簽的向量化信息,計算兩個向量余弦相似度,作為所述語義相似度;
計算源類目標簽和目標類目標簽的向量點互信息相似度,作為所述語義相似度;
基于源類目標簽和目標類目標簽的詞向量,計算源類目標簽和目標類目標簽的語義相似度;
基于主題模型,計算源類目標簽和目標類目標簽的語義相似度;
基于機器學習算法,確定源類目標簽和目標類目標簽的語義相似度。
4.如權利要求1所述的方法,其特征在于,根據各源類目標簽與各目標類目標簽的字面相似度、語義相似度和結構相似度中的至少一個,選擇出相似度符合設定條件的目標類目標簽,建立映射關系,具體包括:
針對每個源類目標簽,獲取與該源類目標簽字面相似度最大的第一設定數量的目標類目標簽;從獲取到的目標類目標簽中獲取與該源類目標簽語義相似度最大的第二設定數量的目標類目標簽,第二設定數量小于第一設定數量;從獲取到的目標類目標簽中獲取與該源類目標簽結構相似度最大的目標類目標簽,并建立映射關系;或
針對每個源類目標簽,獲取與該源類目標簽結構相似度最大的目標類目標簽,建立映射關系;或
獲取字面相似度大于第一相似度閾值和/或語義相似度大于第二相似度閾值,且結構相似度大于第三相似度閾值的標簽對,為標簽對中包括的源類目標簽和目標類目標簽建立映射關系;或
獲取結構相似度大于第三相似度閾值的標簽對,為標簽對中包括的源類目標簽和目標類目標簽建立映射關系。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于新浪網技術(中國)有限公司,未經新浪網技術(中國)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610195707.1/1.html,轉載請聲明來源鉆瓜專利網。





