PTT評價

Re: [閒聊] AI採譜

看板C_Chat標題Re: [閒聊] AI採譜作者
yoyololicon
(十年魔乃粉)
時間推噓14 推:14 噓:0 →:4

※ 引述《siscon (e-diot)》之銘言:
: ACG點
: 某些小眾動漫粉 特別熱衷於把ACG曲改編成鋼琴譜
: 然後其實本來就有好幾個軟體能用 但效果都不是很好
: 但半年前出的這個新的 個人覺得算進展一大步吧
: 以下是一些DEMO 給AI聽三首原曲 輸出MIDI
: 原曲1
: https://youtu.be/dJ0Xcu0vJNU
: 原曲2
: https://youtu.be/pOAf4UoqFq0
: 原曲3
: https://youtu.be/T_D_pp283nw
: 結果: AI聽了上面的音樂之後輸出的MIDI
: https://youtu.be/Uy65VfiXJ0M
: 注意到這個軟體還只能鋼琴轉MIDI而已
: 不能多樂器 也不能從MIDI轉成樂譜(雖然可以搭配其他工具做到)
: 這軟體其實是一家名為字節跳動的公司 裡面的員工發佈的論文
: (字節跳動就是 抖音的公司)
: 之前最頂尖是google brain 2018出的一篇論文
: 而這篇超過google那篇
: 大概看了一下論文 google原本最小的frame size(最短時間單位)是32 ms
: 而這篇新的 用類似內插的方式去算按下琴鍵的時間點(onset)
: 可以說在按下琴鍵的解析度上遠比32 ms好
: 然後這篇還多預測踏板跟放開琴鍵的時間點(offset)
: onset跟offset的準度有多重要呢
: 舉個例子 王羽佳演奏的大黃蜂的飛行 Cziffra改編版
: BPM=108 一拍要按8次
: 所以每秒要按14.4次 每次的時間69.4 ms
: google那篇解析度32 ms 明顯是不夠用的
: 實際差距可以聽聽看以下影片
: https://youtu.be/OknF2KVJnRM
: 對於ACG採譜者的影響
: 大概是以後不用靠耳朵 可以用眼睛把別人彈奏的ACG曲直接寫下來
: 而對於做MIX的人來說
: 以前有一段想用的音樂 要不直接當一軌音軌 要不自己聽過寫下來
: 如果想做細節或是風格的編輯 就一定要寫下來
: 但現在能夠直接生成MIDI的話 就能省去寫下來的功夫
: 直接對生成的MIDI編輯就可以了
: 對於做音樂生成的人
: 比起對音訊檔去做分析
: MIDI可以說是更加簡潔的表示式
: 所以說要training什麼的也會比較方便
: 這篇其中一個貢獻就是把古典鋼琴轉成MIDI的dataset
: 以前要有這種dataset非常麻煩
: 要請鋼琴家在能夠精確測量的鋼琴上演奏才能收集數據
: 參考資料 提供給有興趣的人
: 1.軟體載點
: https://github.com/bytedance/GiantMIDI-Piano
: 2.簡易安裝教學
: https://youtu.be/2gRfhL_TAvU
: 3.這篇論文
: https://arxiv.org/abs/2010.01815
: 4.google論文
: https://arxiv.org/abs/1710.11153
: 5.一些中文討論
: https://www.bilibili.com/video/BV1e5411E7vA
: 6.關於這個議題的更多介紹
: https://bit.ly/2NkUiM1

難得看到自己以前的研究題目,來分享一下好了XD

採譜(Automatic Music Transcription)算是音樂資訊檢索(Music Information

Retrieval) 裡蠻指標性的一個題目

其中又以鋼琴的採譜最為熟知

而採譜可以分成兩部份

1. 從原始音檔提出有用的資訊,轉成某些表示模式(如MIDI格式)

2. 將1)的資料轉換成可讀可用的樂譜(如五線譜)

(2)比較symbolic也比較難,需要音樂相關domain knowledge,比較少人做

而(1)又大致可以拆成:多重音高辨識,音符的開始(onset)與結束(offset)偵測。

其中offset最難做,因為鋼琴是擊弦樂器,能量會隨著時間衰減,很難辨識出音符結束的

時間(很多paper 做benchmark也是把offset拿掉不計)

多重音高辨識應該是最多人做了(我之前也是做這部份XD)

而隨著深度學習的興起,這幾年採譜系統也從NMF、sparse coding或是機率模型轉成用NN

效果提昇了非常多

抖音這篇重要的地方是有把整個(1)的採譜系統做起來,包含了很少人做的offset

detection,甚至是延音踏板的偵測,並把onset/offset的時間轉成連續的

(很多作法都是固定frame的hop size然後就直接用frame index當作時間位址)



講了這麼多,其實台灣也有不少實驗室有在做音樂相關的題目

順便就來宣傳一下我之前的實驗室最近出的採譜模型:omnizart 全能扎特

https://github.com/Music-and-Culture-Technology-Lab/omnizart

除了音樂的採譜外,還有提供鼓組的採譜、主旋律辨識、和弦辨識等等的功能

使用的模型很多都有上過期刊或研討會

尤其是和弦辨識,有拿到ISMIR 2019的最佳paper(做MIR蠻重要的一個研討會)

歡迎有興趣的鄉民來玩玩看XD

--

※ PTT 留言評論
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.250.32.97 (臺灣)
PTT 網址

Ricestone02/23 18:16

j9966330k02/23 18:18恩我也是這樣想的

dos0102/23 18:20我真的很想問 這類的工具實際用途到底是應用在什麼東西上面

Ricestone02/23 18:22呃...這類的已經很明確了吧

Ricestone02/23 18:22上一篇講的就已經是幾個實用的例子了

Ricestone02/23 18:23就算只是彈吉他,也常常需要採譜啊

yoyololicon02/23 18:25有和弦辨識抓吉他譜就方便很多XD

longlyeagle02/23 18:26nice nice

ZooseWu02/23 18:26推推 好酷

g563712802/23 18:29

siscon02/23 18:29哇 ISMIR best paper

DraperyFalls02/23 18:30推個 試過一些model效果還是普通

gaduoray02/23 18:31恩恩原來如此啊我完全明白了peko

DarkyIsCat02/23 18:39

IllMOR02/23 18:40樓主大神

twosheep060302/23 18:51高手在民間 跪惹

zxcasd84802/23 19:03嗯嗯 原來如此呢(完全聽不懂)

naya741596302/24 00:03好酷的東西