[發明專利]一種基于Word2Vec、LSTM和注意力機制的中文歌詞生成方法有效
| 申請號: | 202010880446.3 | 申請日: | 2020-08-27 |
| 公開(公告)號: | CN112163414B | 公開(公告)日: | 2022-09-20 |
| 發明(設計)人: | 陳啟軍;何宗濤;劉成菊 | 申請(專利權)人: | 同濟大學 |
| 主分類號: | G06F40/211 | 分類號: | G06F40/211;G06F40/289;G06F40/30;G06F40/242;G06N3/04;G06N3/08 |
| 代理公司: | 上海科盛知識產權代理有限公司 31225 | 代理人: | 楊宏泰 |
| 地址: | 200092 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 word2vec lstm 注意力 機制 中文歌詞 生成 方法 | ||
本發明涉及一種基于Word2Vec、LSTM和注意力機制的中文歌詞生成方法,包括以下步驟:1)獲取關鍵詞進行預處理;2)輸入關鍵詞,基于LSTM和注意力機制的歌詞生成模型結合后處理操作,依次生成句中詞和結尾詞,完成一句歌詞的生成;3)重復執行步驟1)?步驟2),直至生成一篇完整的歌詞。與現有技術相比,本發明具有生成歌詞可讀性強、語義通順、對仗工整等優點。
技術領域
本發明涉及自然語言處理領域,尤其是涉及一種基于Word2Vec、LSTM和注意力機制的中文歌詞生成方法。
背景技術
自然語言處理(Natural Language Processing,NLP)是當今人工智能技術的重要分支,其目標是計算機能學習、理解并能夠生成人的語言。語言生成是NLP領域的重要任務,涉及語義解析、語義編碼、語言模型等多方面技術。傳統NLP技術聚焦于語言本身的規則,企圖使機器像人一樣學習詳細的語法規則,構建語法解析樹,進而完全掌握自然語言。然而,隨著語料庫擴大,語法解析樹會以指數速率膨脹到令人難以接受的程度,語言本身的多樣性、奇異性和上下文相關性也讓語言規則的總結工作變成不可能完成的任務。
近年來,基于統計模型的機器學習方法成為主流。該流派不在意語言深層的意義,直接從符號層面入手讓計算機統計語言的規律,從而建立合理的語言模型。人工神經網絡的出現促進了統計模型的發展,讓人們有能力模擬極其復雜的概率分布。現有的語言生成方案往往使用循環神經網絡(Recurrent Neural Network,RNN)作為基礎,通過大量的學習來模擬語言的分布規律。
然而,簡單的RNN網絡存在嚴重的梯度消失問題,很難生成長句與長文章,單階段的生成方式也無法體現句與句之間復雜的關系。此外,中文語言處理有一些特殊的問題,例如分詞、消岐等,這些是主流的英文語料庫與英文模型無法處理的,針對中文歌詞進行特定研究的更是少之又少。
因此,本發明提出了一種新的中文歌詞生成方案,生成了可讀性強、語義通順、對仗工整、甚至還具備一定審美特點的歌詞。本發明首先從網絡上開放資源收集到中文歌詞的原始數據,對數據進行預處理后得到干凈的語料庫;而后使用詞典加條件隨機場的方式對已登錄詞進行分割,使用隱馬爾科夫模型對未登錄詞進行預測分割;再引入Word2Vec方法將詞語符號轉換成高維嵌入向量對模型進行訓練。模型的編碼部分使用雙向LSTM,可以有效記憶并編碼語句中的語義信息;解碼部分引入了注意力機制,使得下一句歌詞能與上一句產生較強的關聯性。最終訓練好的模型可以逐句生成通順的歌詞。在此基礎上,本發明還設計了獨特的模型控制方法,使得模型可以按要求生成指定風格、指定句長、押韻或者藏頭的歌詞。為了方便使用,本發明最后開發了簡單的網頁前端,讓生成的歌詞直觀地展示出來。
發明內容
本發明的目的就是為了克服上述現有技術存在的缺陷而提供一種生成歌詞可讀性強、語義通順、對仗工整的基于Word2Vec、LSTM和注意力機制的中文歌詞生成方法。
本發明的目的可以通過以下技術方案來實現:
一種基于Word2Vec、LSTM和注意力機制的中文歌詞生成方法,包括以下步驟:
1)獲取關鍵詞進行預處理;
2)輸入關鍵詞,基于LSTM和注意力機制的歌詞生成模型并結合后處理操作,依次生成句中詞和結尾詞,完成一句歌詞的生成;
3)重復執行步驟1)-步驟2),直至生成一篇完整的歌詞。
所述的關鍵詞包括控制關鍵詞和上一句歌詞;
當生成的歌詞為首句歌詞時,所述的輸入關鍵詞為控制關鍵詞;當生成的歌詞為后續歌詞時,所述的輸入關鍵詞為上一句歌詞,所述的控制關鍵詞包括歌詞風格、歌詞劇場、歌詞韻腳。
所述的歌詞生成模型包括編碼器和解碼器,所述的編碼器為雙向LSTM編碼器,所述的解碼器為單向LSTM加注意力機制解碼器。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于同濟大學,未經同濟大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010880446.3/2.html,轉載請聲明來源鉆瓜專利網。





