音乐创作的边界正在被人工智能重新定义。MuseNet 的出现,为我们展示了一个全新的可能性:一个能够生成长达四分钟、包含十种不同乐器的复杂音乐作品的深度神经网络。
令人惊叹的是,MuseNet 展现出了极强的风格迁移能力。它不仅能驾驭古典时期的莫扎特风格,还能无缝切换至现代的乡村音乐,甚至是披头士乐队的摇滚韵律。这种跨越时代的风格融合,不仅是技术的展示,更是对艺术表现力边界的一次深度探索。
与传统的基于乐理规则编写的程序不同,MuseNet 并没有被预设任何关于音乐理论的显性知识。它的“才华”源于对数十万个 MIDI 文件进行深度学习后的结果。通过学习预测序列中的下一个“标记”,它在海量数据中自主发现了和声、节奏与风格背后的深层模式。
在技术底层,MuseNet 采用了与 GPT-2 相同的通用无监督学习技术。作为一种大规模的 Transformer 模型,它通过学习预测序列(无论是音频还是文本)中的下一个元素,实现了从语言逻辑到音乐逻辑的跨模态迁移,证明了大规模预训练模型在处理复杂结构化数据方面的强大威力。
🔗 来源:OpenAI
推荐意见