[發明專利]基于注意力模型的佛樂生成方法、裝置、設備及存儲介質有效
| 申請號: | 202110311437.7 | 申請日: | 2021-03-24 |
| 公開(公告)號: | CN112951239B | 公開(公告)日: | 2023-07-28 |
| 發明(設計)人: | 劉奡智;郭錦岳;韓寶強;肖京 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G10L15/26 | 分類號: | G10L15/26;G10L15/02;G10L15/16;G10H1/00;G06N3/0499;G06N3/08 |
| 代理公司: | 北京市京大律師事務所 11321 | 代理人: | 姚維 |
| 地址: | 518033 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 注意力 模型 生成 方法 裝置 設備 存儲 介質 | ||
本發明涉及人工智能領域,公開了一種基于注意力模型的佛樂生成方法、裝置、設備及存儲介質,用于在自編碼器中采用改進的相對自注意力算法,使生成的佛樂作品更符合傳統音樂的規律,提高了唱詞音韻的準確度。基于注意力模型的佛樂生成方法包括:獲取原始音頻文件;基于原始音頻文件提取唱詞文字,生成多個單獨事件;生成查詢矩陣Q、鍵矩陣K和值矩陣V;生成相對注意力矩陣zsubgt;h/subgt;,并生成輸出矩陣z,根據嵌入向量x和輸出矩陣z生成加權結果;生成編碼器輸出矩陣asubgt;e/subgt;;將編碼器輸出矩陣asubgt;e/subgt;輸入預置的解碼器,得到目標輸出矩陣,將目標輸出矩陣轉換為MIDI文件,生成最終的佛樂作品。此外,本發明還涉及區塊鏈技術,生成的佛樂作品可存儲于區塊鏈節點中。
技術領域
本發明涉及音頻轉換領域,尤其涉及一種基于注意力模型的佛樂生成方法、裝置、設備及存儲介質。
背景技術
佛教音樂是我國十分具有特色的一種文化形式,能體現中華文化圈獨有的文化特色,在各地的傳統佛教音樂中,常常結合我國特有的曲牌、言格等具有音韻特色的文學體裁,發展出獨特的音樂結構,使得具有詩意唱詞和歌曲的旋律完美融合,是藝術的高度體現。
現有的音樂生成方法能生成具有一定長時間結構的音樂片段,但由于研究者集中在西方國家,提出的模型也主要關注西方古典音樂,在利用現有模型結合我國傳統音樂風格時,無法反映出我國傳統佛教音樂中唱詞與旋律的特殊關系,出現了旋律與唱詞音韻不符和表意不清晰的問題。
發明內容
本發明提供了一種基于注意力模型的佛樂生成方法、裝置、設備及存儲介質,用于在自編碼器中采用改進的相對自注意力算法,使生成的佛樂作品更符合傳統音樂的規律,提高了唱詞音韻的準確度。
本發明第一方面提供了一種基于注意力模型的佛樂生成方法,包括:獲取原始音頻文件,所述原始音頻文件為佛教音樂的樂器數字接口MIDI文件;基于所述原始音頻文件提取唱詞文字,根據預置的發音表查找所述唱詞文字對應的音調,生成多個單獨事件;將每一個單獨事件作為嵌入向量x,基于預置的向量公式生成多組所述嵌入向量x對應的查詢向量q,鍵向量k和值向量v,將所述多組所述嵌入向量x對應的查詢向量q,鍵向量k和值向量v進行堆疊,得到對應的查詢矩陣Q、鍵矩陣K和值矩陣V;基于預置的相對注意力矩陣計算公式,生成注意力單元每個分段的相對注意力矩陣zh,并生成輸出矩陣z,根據所述嵌入向量x和所述輸出矩陣z生成加權結果,將所述加權結果輸入前饋神經網絡;根據預置的次數進行迭代,基于最后一次得到的所述輸出矩陣z,生成編碼器輸出矩陣ae;將所述編碼器輸出矩陣ae輸入預置的解碼器,得到目標輸出矩陣,將所述目標輸出矩陣轉換為MIDI文件,生成最終的佛樂作品。
可選的,在本發明第一方面的第一種實現方式中,所述基于所述原始音頻文件提取唱詞文字,根據預置的發音表查找所述唱詞文字對應的音調,生成多個單獨事件包括:基于所述原始音頻文件,提取每個旋律音符及其時間戳所對應的唱詞文字,得到多組唱詞文字;根據客家話發音表查找所述多組唱詞文字對應的唱詞音調,得到多組唱詞音調;基于所述多組唱詞音調,生成多個單獨事件,每一個單獨事件包含一組唱詞音調,以及所述一組唱詞音調對應的旋律音符和時間戳。
可選的,在本發明第一方面的第二種實現方式中,所述將每一個單獨事件作為嵌入向量x,基于預置的向量公式生成多組所述嵌入向量x對應的查詢向量q,鍵向量k和值向量v,將所述多組所述嵌入向量x對應的查詢向量q,鍵向量k和值向量v進行堆疊,得到對應的查詢矩陣Q、鍵矩陣K和值矩陣V包括:將每一個單獨事件作為嵌入向量x,基于預置的向量公式計算并生成多組所述嵌入向量x對應的查詢向量q,鍵向量k和值向量v,所述預置的向量公式為:,,,其中,、和為預置的參數矩陣,其大小分別為,n為所述嵌入向量x的長度,生成的所述查詢向量q,所述鍵向量k和所述值向量v分別為長度為512的向量;將所述每一個單獨事件生成的所述查詢向量q,所述鍵向量k和所述值向量v分別按照的方式進行堆疊,得到對應的查詢矩陣Q、鍵矩陣K和值矩陣V。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110311437.7/2.html,轉載請聲明來源鉆瓜專利網。





