[發明專利]一種MIDI多軌序列表示方法和應用有效
| 申請號: | 202010399287.5 | 申請日: | 2020-05-12 |
| 公開(公告)號: | CN111627410B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 任意;李晨嘯;張克俊 | 申請(專利權)人: | 浙江大學;不亦樂乎科技(杭州)有限責任公司 |
| 主分類號: | G10H1/00 | 分類號: | G10H1/00;G06K9/62;G06N20/00 |
| 代理公司: | 杭州天勤知識產權代理有限公司 33224 | 代理人: | 曹兆霞 |
| 地址: | 310013 浙江*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 midi 序列 表示 方法 應用 | ||
本發明公開了一種MIDI多軌序列表示方法和應用,包括:解析MIDI文件,將MIDI文件中包含的MIDI消息拆分成音符演奏信息、音符停止信息、時間轉移信息以及音色變換信息;將音符演奏信息、音符停止信息、時間轉移信息以及音色變換信息轉換成小節序列,每個小節序列包含小節開始標示和多個小節內時間步序列,每個時間步序列包含依序排布的時間步標示、音軌標示以及音符標示;其中,將一個小節分成32個時間步,根據音符演奏信息、音符停止信息、時間轉移信息確定音符標示,根據音色變換信息確定音軌標示。以解決現有編碼方式忽略音樂小節信息,不利于模型學習不同小節之間的關聯信息。
技術領域
本發明涉及音樂設計領域,具體涉及一種MIDI多軌序列表示方法,和基于該MIDI多軌序列表示并利用深度學習模型生成音樂的方法。
背景技術
音樂是一種按照一定目的和規則將聲音的信息組織在一起并用于表達情感和想法的音頻形態。隨著人工智能和深度學習的快速發展,許多自動作曲技術被提出。而對于自動作曲技術來說,音樂需要首先被轉化成機器能夠理解的形態。為了將一個樂譜序列化成一段機器能夠理解的序列,許多先前的工作嘗試了不同的編碼,他們通常有各自適用的場景和優缺點。
主流的MIDI(Musical Instrument Digital Interface,樂器數字接口)編碼方式通常可以分為兩種:一種是基于圖像的編碼方式:如文獻I:Dong H W,Hsiao W Y,Yang LC,et al.Musegan:Multi-track sequential generative adversarial networks forsymbolic music generation and accompaniment[C]//Thirty-Second AAAI Conferenceon Artificial Intelligence.2018,將MIDI看做鋼琴卷簾圖,橫軸為時間,縱軸為音高,用0和1表示當前位置和音高上有無音符觸發。這種編碼方式可以直接表示出音符的時序關系,而且很容易被人類理解,但是鋼琴卷簾圖非常稀疏,前人的實驗也表明這種編碼方式并不能很好地被機器理解和學習。
另一種是基于序列的編碼方式:如文獻II:Huang C Z A,Vaswani A,UszkoreitJ,et al.Music transformer:Generating music with long-term structure[J].2018中提出了一個基于事件序列的音符編碼方式,將音符拆解成Note On,Note Off,Time Shift,Program Change等事件,然后串聯起來形成一個事件序列,這種編碼方式被廣泛采用,但是存在一個重要的問題:沒有顯式的小節標識符,從而難以劃定小節與小節的邊界,不利于模型學習不同小節之間的關聯。
相比于單軌自動作曲技術,多軌自動作曲難度更大,對MIDI的編碼形式要求也更高。文獻III:Roberts A,Engel J,Raffel C,et al.A hierarchical latent vectormodel for learning long-term structure in music[J].arXiv preprint arXiv:1803.05428,2018.沿用了與文獻I相同的編碼方式,它沒有將軌道信息編碼到序列中,而是在模型上對多軌MIDI進行建模,因此存在與原來編碼類似的問題。文獻IV:Donahue C,MaoH H,Li Y E,et al.LakhNES:Improving multi-instrumental music generation withcross-domain pre-training[J].arXiv preprint arXiv:1907.04868,2019.設計了一種多軌編碼方式,將不同軌的音符以事件形式編碼后,按照事件順序合并在一起,但是它沒有顯式地編碼小節信息,因而無法很好地幫助模型學習小節之間的聯系。
綜上所述,目前主流的自動作曲技術編碼方式并不能很好地滿足多軌編碼的要求,成為了當今自動作曲技術的瓶頸。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江大學;不亦樂乎科技(杭州)有限責任公司,未經浙江大學;不亦樂乎科技(杭州)有限責任公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010399287.5/2.html,轉載請聲明來源鉆瓜專利網。





