[發明專利]基于爬蟲的貼音樂標簽方法及系統有效
| 申請號: | 201610044080.X | 申請日: | 2016-01-22 |
| 公開(公告)號: | CN105718575B | 公開(公告)日: | 2019-01-29 |
| 發明(設計)人: | 郭澤豪;王振宇;戴瑾如 | 申請(專利權)人: | 華南理工大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/635 |
| 代理公司: | 廣州市華學知識產權代理有限公司 44245 | 代理人: | 羅觀祥 |
| 地址: | 510640 廣*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 爬蟲 音樂 標簽 方法 系統 | ||
1.一種基于爬蟲的貼音樂標簽的方法,其特征在于,所述方法包括以下步驟:
S1、針對來自不同音樂網站的爬蟲音樂標簽記錄進行預處理使其具有統一的格式;
S2、通過歌單標簽可信值計算,將歌單標簽轉化為歌曲標簽;
其中,所述步驟S2通過歌單標簽可信值計算,將歌單標簽轉化為歌曲標簽具體包括:
S21、針對每一小類標簽,統計其在全部歌單標簽記錄中的出現頻次;
S22、針對每一歌曲,統計其包含的小類標簽以及對應的頻次;
S23、針對每一歌曲,算出其每個歌單標簽的可信值;
所述步驟S23中某一歌曲關于歌單標簽的可信值的計算過程具體為:
設歌單標簽記錄包含n個小類標簽,小類標簽ti i=1,2,3,...,n在全部歌單標簽記錄中的頻次為Fi,某一歌曲包含歌單標簽tk,該歌曲被貼上該歌單標簽的頻次為fk,利用公式fk*(0.4+0.6*(Fi-Fmin)/(Fmax-Fmin)),其中Fmax是指F1,F2,...Fn的最大值,Fmin是指F1,F2,...Fn的最小值,計算該歌曲包含的歌單標簽tk的可信值;
S24、篩選出該歌曲可信值較高的歌單標簽作為該歌曲的歌曲標簽;
S25、判斷是否還有其他歌曲,若是執行步驟S23,否則結束;
S3、利用編輯距離算法,將爬蟲音樂標簽記錄與曲庫音樂記錄進行模糊匹配建立對應關系;
S4、以音樂標簽體系的標簽為基準,構建標簽融合規則,對曲庫音樂記錄進行標簽融合,其中,所述融合規則如下:
統計爬蟲音樂標簽記錄中的全部小類標簽的頻次,剔除頻次低的小眾標簽,根據篩選后的小類標簽,通過人工的方式構建音樂標簽體系,對表述不同但是意義相同的標簽構建映射規則,生成音樂標簽體系的小類標簽。
2.根據權利要求1所述的基于爬蟲的貼音樂標簽的方法,其特征在于,所述步驟S3利用編輯距離算法,將爬蟲音樂標簽記錄與曲庫音樂記錄進行模糊匹配建立對應關系具體包括:
S31、根據所述爬蟲音樂標簽記錄中的歌手名搜索曲庫;
S32、判斷搜索結果是否為空,若是執行步驟S37,否則執行步驟S33;
S33、將該爬蟲音樂標簽記錄中的歌曲名與搜索結果中的歌曲名進行模糊匹配,計算匹配相似值;
S34、判斷匹配相似值是否大于門限閥值,若是執行步驟S35,否則執行步驟S36;
S35、構建該爬蟲音樂標簽記錄與曲庫該匹配上的音樂記錄的對應關系;
S36、判斷是否有下一條搜索結果,若是執行步驟S33,否則執行步驟S37;
S37、判斷是否有下一條爬蟲音樂標簽記錄,若是執行步驟S31,否則執行結束。
3.根據權利要求1所述的基于爬蟲的貼音樂標簽的方法,其特征在于,所述步驟S4以音樂標簽體系的標簽為基準,構建標簽融合規則對曲庫音樂記錄進行標簽融合具體包括:
S41、根據音樂標簽體系構建標簽融合規則;
S42、根據模糊匹配對應關系,找到曲庫音樂對應的音樂標簽;
S43、判斷該對應標簽是否需要融合,若是執行步驟S44,否則執行步驟S45;
S44、根據標簽融合規則進行標簽融合;
S45、給曲庫音樂貼上標簽;
S46、判斷是否有下一條對應關系,若是執行步驟S42,否則執行步驟S47;
S47、根據標簽篩選規則,對全部貼上標簽的曲庫音樂進行標簽篩選。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于華南理工大學,未經華南理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201610044080.X/1.html,轉載請聲明來源鉆瓜專利網。





