[發明專利]一種歌曲評論的分析方法和系統在審
| 申請號: | 201611170048.2 | 申請日: | 2016-12-16 |
| 公開(公告)號: | CN108205542A | 公開(公告)日: | 2018-06-26 |
| 發明(設計)人: | 高玉敏 | 申請(專利權)人: | 北京酷我科技有限公司 |
| 主分類號: | G06F17/30 | 分類號: | G06F17/30;G06F17/27 |
| 代理公司: | 北京億騰知識產權代理事務所 11309 | 代理人: | 陳霽 |
| 地址: | 100084 北京市海淀區農大*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 樣本 訓練分類 歌曲 評論 訓練集樣本 測試集 標注 分析 文本 優化 上下文信息 分詞處理 文本向量 訓練模型 預定規則 數據集 準確率 向量 | ||
本發明涉及一種歌曲評論的分析方法和系統。所述方法包括:選取歌曲評論的樣本,并對樣本進行相應的標注,以獲取到標注后的樣本;按照預定規則將標注后的樣本分為訓練集樣本和測試集樣本;對訓練集樣本以及測試集樣本進行分詞處理,并通過訓練模型對處理過的文本進行訓練,以得到相應的文本的向量;通過訓練分類模型對訓練集樣本中的文本向量進行訓練,以得到優化的訓練分類模型,以及通過優化的訓練分類模型對測試集樣本中的歌曲評論進行分析。本發明實施例中的優化的訓練分類模型,不僅解決了目前的歌曲評論的分析方法的上下文信息缺失的問題,以及數據集規模過大的問題,進一步地,大大地提高了歌曲評論分析的準確率。
技術領域
本發明涉及音頻技術領域,具體而言,本發明涉及一種歌曲評論的分析方法和系統。
背景技術
目前,常見的歌曲評論的分析方法是一種常見的自然語言處理方法。現有的方法的思路為:提取文本情感內容為目標,并對提取出來的目標進行分類。
目前,常用的方法為:通過詞袋模型來對歌曲評論進行分析。具體的做法為:將每一個歌曲評論的文本當做一個1XN的向量,其中,N為作為歌曲評論的文本詞匯的向量。定義的規則具體為:作為歌曲評論的文本詞匯的向量的每一列為一個單詞,值為該單詞在作為歌曲評論的文本中出現的頻數。進一步地,通過機器學習分類模型訓練相應的數據,以預測針對當前歌曲的評論的預測感情。進一步地,預測針對當前歌曲的評論是積極的,還是消極的。
現有的,通過詞袋模型對歌曲評論所作的情感分析的方法的缺點之一,忽略了上下文信息。例如,若針對當前歌曲的評論為這首歌曲不是很好聽,則通過詞袋模型對該條評論容易做出該條評論的情感為積極的錯誤判斷。
其次,通過詞袋模型對歌曲評論所作的情感分析的方法的缺點還有,在數據集規模比較大的情況下,向量維度過大,使得對歌曲評論的分析過程過于復雜,且耗時,浪費了寶貴的內存資源。
發明內容
本發明實施例在于提供一種歌曲評論的分析方法和系統,通過優化的訓練分類模型,不僅解決了目前的歌曲評論的分析方法的上下文信息缺失的問題,以及數據集規模過大的問題,進一步地,大大地提高了歌曲評論分析的準確率。
第一方面,本發明實施例提供了一種歌曲評論的分析方法,所述方法包括:
選取歌曲評論的樣本,并對所述樣本進行相應的標注,以獲取到標注后的樣本;
按照預定規則將所述標注后的樣本分為訓練集樣本和測試集樣本;
對所述訓練集樣本以及所述測試集樣本進行分詞處理,并通過訓練模型對處理過的文本進行訓練,以得到相應的文本的向量;
通過訓練分類模型對訓練集樣本中的文本向量進行訓練,以得到優化的訓練分類模型,以及
通過優化的訓練分類模型對測試集樣本中的歌曲評論進行分析。
優選的,采用簡易中文分詞系統對所述訓練集樣本以及所述測試集樣本進行分詞處理。
優選的,所述方法還包括:
將所述訓練集樣本以及所述測試集樣本中的停用詞或者標點符號進行過濾處理。
優選的,在得到優化的訓練分類模型之后,所述方法還包括:
通過測試集樣本中的文本向量評估優化的訓練分類模型的準確度。
優選的,所述方法還包括:
將選取的當前歌曲評論的樣本標注為積極的歌曲評論的樣本,或者,將選取的當前歌曲評論的樣本標注為消極的歌曲評論的樣本。
優選的,通過doc2vec訓練模型對處理過的文本進行訓練,以得到相應的文本的向量,其中,所述相應的文本的向量具體包括如下至少一種向量:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京酷我科技有限公司,未經北京酷我科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201611170048.2/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:分布式網絡爬蟲任務的調度方法及裝置
- 下一篇:一種歌曲信息存儲方法和系統





