[發明專利]標簽關聯方法及裝置在審
| 申請號: | 201610060688.1 | 申請日: | 2016-01-28 |
| 公開(公告)號: | CN105740404A | 公開(公告)日: | 2016-07-06 |
| 發明(設計)人: | 湯奇峰;葉峰 | 申請(專利權)人: | 上海晶贊科技發展有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30 |
| 代理公司: | 北京集佳知識產權代理有限公司 11227 | 代理人: | 吳敏 |
| 地址: | 200072 上海市閘北區靈*** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 標簽 關聯 方法 裝置 | ||
技術領域
本發明涉及數據處理領域,尤其涉及一種標簽關聯方法及裝置。
背景技術
隨著網絡技術的發展,可以通過網絡獲取越來越多的數據,并依托這些數據進行進一步的分析,這也是大數據時代的特點之一。為了對海量數據進行進一步的處理和分析,將數據關聯至不同的標簽往往是必不可少的步驟。
但是,現有的標簽關聯方法的效率有待提高。
發明內容
本發明解決的技術問題是提高標簽關聯方法的效率。
為解決上述技術問題,本發明實施例提供一種標簽關聯方法,包括:
對待進行標簽關聯的目標數據進行匹配處理,以得到目標關鍵詞,所述匹配處理參照關鍵詞詞典進行,所述關鍵詞詞典中包含映射至一個或多個標簽的關鍵詞;
計算候選標簽的權重,所述候選標簽是在所述關鍵詞詞典中與所述目標關鍵詞存在映射關系的標簽;
基于所述候選標簽的權重選取目標標簽,建立所述目標標簽與所述目標數據之間的關聯關系。
可選的,所述參照關鍵詞詞典對所述目標數據進行匹配處理,得到目標關鍵詞,包括:
對所述目標數據進行分詞處理,以得到多個詞語;
去除所述關鍵詞詞典中未包含的詞語,剩余的詞語為目標關鍵詞。
可選的,參照與所述目標關鍵詞存在映射關系的標簽的數量計算所述候選標簽的權重。
可選的,若所述候選標簽對應多個目標關鍵詞,則所述計算所述候選標簽的權重包括:分別計算所述候選標簽對應每個關鍵詞的得分,基于候選標簽對應每個關鍵詞的得分得到所述候選標簽的權重。
可選的,所述標簽關聯方法還包括建立關鍵詞詞典,所述建立所述關鍵詞詞典包括:
獲取分類體系數據;
參照所述分類體系數據得到標簽和所述標簽對應的數據;
對所述標簽對應的數據和所述標簽進行分詞處理,將分詞處理得到的關鍵詞映射至所述標簽,以得到所述關鍵詞詞典。
可選的,所述建立關鍵詞詞典的方法包括:對所述關鍵詞詞典進行去重。
可選的,所述建立關鍵詞詞典的方法包括:
檢測所述關鍵詞詞典中每個關鍵詞映射的標簽的數量;
去除映射的標簽的數量大于閾值的關鍵詞。
本發明實施例還提供一種標簽關聯裝置,包括:
匹配處理單元,對待進行標簽關聯的目標數據進行匹配處理,以得到目標關鍵詞,所述匹配處理參照關鍵詞詞典進行,所述關鍵詞詞典中包含映射至一個或多個標簽的關鍵詞;
標簽權重計算單元,適于計算候選標簽的權重,所述候選標簽是在所述關鍵詞詞典中與所述目標關鍵詞存在映射關系的標簽;
關聯單元,適于基于所述候選標簽的權重選取目標標簽,建立所述目標標簽與所述目標數據之間的關聯關系。
可選的,所述匹配處理單元包括:
分詞處理單元,適于對所述目標數據進行分詞處理,以得到多個詞語;
過濾單元,適于去除所述關鍵詞詞典中未包含的詞語,剩余的詞語為目標關鍵詞。
可選的,所述標簽權重計算單元參照與所述目標關鍵詞存在映射關系的標簽的數量計算所述候選標簽的權重。
可選的,若所述候選標簽對應多個目標關鍵詞,則所述標簽權重計算單元分別計算所述候選標簽對應每個關鍵詞的得分,基于候選標簽對應每個關鍵詞的得分得到所述候選標簽的權重。
可選的,所述標簽關聯裝置還包括:關鍵詞詞典建立單元,所述關鍵詞詞典建立單元包括:
分類體系獲取單元,適于獲取分類體系數據;
數據提取單元,適于參照所述分類體系數據得到標簽和所述標簽對應的數據;
映射單元,適于對所述標簽對應的數據進行分詞處理,并將分詞處理得到的關鍵詞映射至所述標簽,以得到所述關鍵詞詞典。
可選的,所述關鍵詞詞典建立單元包括:去重單元,適于對所述關鍵詞詞典進行去重。
可選的,所述關鍵詞詞典建立單元包括:
數量檢測單元,適于檢測所述關鍵詞詞典中每個關鍵詞映射的標簽的數量;
整理單元,適于去除映射的標簽的數量大于閾值的關鍵詞。
與現有技術相比,本發明實施例的技術方案具有以下有益效果:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海晶贊科技發展有限公司,未經上海晶贊科技發展有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610060688.1/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種信息標引和檢索方法
- 下一篇:數字圖像的語義標簽的獲取方法及裝置





