[發(fā)明專利]一種基于詞移距離結(jié)合詞向量的音樂文案生成方法有效
| 申請?zhí)枺?/td> | 201811525805.2 | 申請日: | 2018-12-13 |
| 公開(公告)號: | CN109657212B | 公開(公告)日: | 2022-04-15 |
| 發(fā)明(設(shè)計)人: | 彭敏;王維川;胡剛;金志歡;高望 | 申請(專利權(quán))人: | 武漢大學(xué) |
| 主分類號: | G06F40/194 | 分類號: | G06F40/194;G06F40/284;G06F16/63;G06F16/951 |
| 代理公司: | 武漢科皓知識產(chǎn)權(quán)代理事務(wù)所(特殊普通合伙) 42222 | 代理人: | 魏波 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 基于 距離 結(jié)合 向量 音樂 文案 生成 方法 | ||
1.一種基于詞移距離結(jié)合詞向量的音樂文案生成方法,其特征在于,包括以下步驟:
步驟1:從音樂軟件網(wǎng)站爬取歌曲的歌詞文本和評論文本;
步驟2:對歌曲的歌詞文本和評論文本進行分詞處理;
其中,采用Jieba分詞工具對歌曲的歌詞文本、評論文本進行分詞處理,基于trie和DAG的方法解決詞語組合問題同時使用動態(tài)規(guī)劃進行詞語切分;
步驟3:對步驟2分詞中得到的詞語進一步使用向量化表示,獲取詞語的向量分布表示;
其中,使用百度百科800w+詞條訓(xùn)練好的大小為26G+ Word2Vec詞向量模型,查找歌詞文本及歌曲評論分詞后詞語所對應(yīng)的64維向量,得到歌詞文本及歌曲評論的詞向量集合;
步驟4:計算步驟3中歌曲的歌詞文本向量與所有評論文本向量之間的詞移距離,獲得這首歌的歌詞文本和所有評論文本的詞移距離排序;
其中,采用基于詞移動距離的文檔相似度的方法計算步驟3中歌詞文本向量與歌曲評論文本向量的距離;詞移距離的具體實現(xiàn)過程是:使用兩個文檔中的任意兩個詞所對應(yīng)的詞向量求歐氏距離然后再加權(quán)求和的方式進行計算,其中加權(quán)權(quán)重用詞頻或TFIDF計算并表示狀態(tài)轉(zhuǎn)移矩陣;最后在計算過程中采用優(yōu)化的WCD方法來加速計算文檔間的詞移距離;
步驟5:設(shè)定詞移距離的邊界值閾值N,將步驟4中詞移距離小于邊界值閾值N的歌曲評論文本按詞移距離大小排序,作為篩選后的評論文本,用于下一步音樂文案的生成工作;其中,邊界值閾值N取35;
步驟6:將步驟5中篩選的評論文本進行去重處理,刪除其中不符合語法規(guī)則的句子,添加上歌曲的名稱和作者等屬性信息作為推薦給用戶的歌曲音樂文案。
2.根據(jù)權(quán)利要求1所述的基于詞移距離結(jié)合詞向量的音樂文案生成方法,其特征在于:步驟6中,采用依存句法樹規(guī)則來刪除不符合語法規(guī)則的句子。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于武漢大學(xué),未經(jīng)武漢大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811525805.2/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





