AI音乐的下半场，是 Vibe music！让Claude Code开口唱歌

发布时间：2026-04-12 00:55:34 浏览量：2

我在Claude Code里养了一只猫，叫Veldt。

平时趴在终端角落里，没什么实际用途，大部分时间就是个像素装饰品。

直到昨天，我装了一个Skill，然后在终端里打了一句：

让 Veldt 给我唱首歌吧，就唱今天加班的心情。

我以为顶多生成一段歌词文本，配个emoji什么的。但过了不到一分钟，终端里蹦出来一个mp3文件，自动开始播放了——

独立民谣，慢板，女声，带一点冷幽默。挺好听。

歌词是根据我当天的工作上下文自动生成的，曲风是它“自己选的”——因为Skill会读取宠物的名字和性格，自动匹配音色和风格。Veldt的性格标签是“安静、偶尔毒舌”，所以它选了这个调调。

害。一只终端里的小猫，唱了一首属于我的歌。

一个编程助手，怎么就学会唱歌了？

这要从MiniMax刚发布的 Music 2.6说起。以及一个Skil(我放在后文)，不过比起模型本身，我更想先聊聊它

Vibe Coding彻底改变了写代码的方式，你只要描述清楚你想要什么功能，AI帮你写。门槛降了，自由度升了。大量以前想做但嫌麻烦的东西，现在随手就能搓出来。

同样的事情正在发生在音乐上。

之前打开Suno或者Udio，在一个输入框里写“一首伤感的民谣，关于失恋”，点生成，等一会儿，出来一首歌。好不好听看运气。

这个模式的问题是，你和音乐之间的关系是一次性的。

你输入一个prompt，得到一个结果，用完即走。音乐不认识你，你也没法把音乐能力嵌入到任何其他工作流里。

Vibe music不一样。

Veldt给我唱歌，不是之前的模式。不用我告诉它唱什么歌，它能读取我的工作上下文、宠物的性格数据，把这些信息变成一首歌。我只说了“唱今天加班的心情”，剩下的事情全部由Agent完成。

这就是Vibe music——你不需要懂乐理，甚至不需要描述音乐本身。你只需要给出上下文，AI理解你当下的状态，然后用音乐表达出来。

上下文，成了乐谱。

我做了一个实验。

用vibe coding搓了一个钢琴块小游戏：方块从屏幕上方往下掉，你按Q/W/E/R四个键去接，每条轨道对应一个键。

这个游戏有个特别的设计——它接了MiniMax Music 2.6的API。

游戏开始后，前30秒是热身阶段。方块节奏是算法随机生成的，背景音是Web Audio合成器的即时钢琴声，你按键，它弹音。与此同时，后台已经悄悄在调API生成一首AI歌曲了。

大概55秒左右，歌曲生成完毕。游戏无缝切换到“AI Music”模式——方块不再是算法随机生成的，而是通过节拍检测，踩着AI歌曲的每一个鼓点和重拍下落。你弹的不再是随机音符，你在弹一首AI为你写的歌。

更有意思的，游戏会分析你的操作数据——准确率、反应速度、连击数、你更偏好按哪几个键——

然后把这些数据映射成下一首歌的音乐参数：

每一首歌都是实时生成，为你当时的状态量身定制。你打得越好，歌越难，节奏越复杂。你打得烂，它会给你放一首简单的让你喘口气。

我玩了半个小时，后台生成了十几首歌，都是属于我的。而且一分钱没花。

这个游戏本身只是个demo，但透过游戏能看到，

当音乐可以变成一个API、一个CLI命令、一个Agent可以随手调用的能力之后，像函数调用一样，可以嵌入到任何场景里。

而且，当音乐生成足够快、足够可控、又足够便宜的时候，音乐就不再是一个提前做好的资源文件，而是一个可以根据实时数据动态生成的东西。

当然，三个前提缺一不可。

快：几十秒秒出一首歌，游戏才等得起。准：BPM和调性必须可控，且和当前状态一致。便宜：每局都生成一首新歌，一毛钱几分钱一首才玩得起。

这三个前提，是MiniMax Music 2.6这次升级解决的核心问题。前面的宠物唱歌和钢琴块游戏，背后都是同一个引擎：MiniMax Music 2.6。和上一版2.5比，提升集中在四个体感极强的点。

首先是速度快。

写好prompt发送，半分钟左右，就能收到一首完整的歌。

Cover换风格大约48秒。这个速度对游戏至关重要，只需要通过合理的编排，就让玩家几乎无需等待就能得到专属BGM。

其次是准。

BPM和调性从“建议”变成了“指令”。我给了BPM测试：74 BPM的Neo-Soul Jazz，还有130bpm的，结果非常准确。

接着是人声质感。

我测了国风女声、男生，2.6有种褪去了塑料感的感觉，很随性，感觉真的在录音棚。转音婉转，不像AI。

这也是Veldt那首歌让我没绷住的原因。2.6的人声带了呼吸感和不确定性，听起来像一个真的在唱歌的角色——哪怕这个角色是一只猫。

我个人最喜欢的功能是Cover，就是翻唱

。我用友谊地久天长做源音频，变了几种风格：民谣、草原民族风、hyperpop。

7首全部保持了原曲的核心旋律线，但伴奏、人声、节奏风格完全重做，我这里选几首展示一下：

而且Cover这个能力放在vibe music的语境里意义很大。同一个视频素材，投放到不同地区时自动匹配当地的音乐风格，同一个游戏BGM，难度低的时候是City Pop，打到Boss战自动Cover成EDM。总之就是一首歌可以是无限变换的素材。

讲讲怎么把这些能力给到Agent。

MiniMax这次开源了三个Music Skill，都可以直接装进Claude Code、OpenClaw这类Agent工具里。

可以揭晓谜底啦，我开始让claude code 的宠物唱歌用的skill是buddy-sings。读取你的Agent宠物的性格，匹配音色和风格，根据上下文写词作曲。

第二个是music-gen2，是核心生成引擎，支持人声歌曲、纯音乐、翻唱三种模式；

第三个是

music-playlist。

分析你的听歌偏好，构建品味画像，自动生成一整张原创歌单。

用起来都很方便，直接丢给 Agent 就能安装。

不过比起Skill本身，让我觉得更方便的，是用MMX-CLI。

这个命令行工具是给Agent用的，是mm家昨天刚刚推出来的CLI。有了它，你的Agent、OpenClaw、MaxClaw、AutoClaw、KimiClaw、Claude Code等等便学会了表达——它能歌唱，能画画，甚至做视频。音乐、视频、画画便成了Agent工具箱里的一个原生能力。

两行代码就能安装好：

npx skills add MiniMax-AI/cli -y -g

npm install -g mmx-cli

以前你想在自己的项目里加音乐，你得去找素材库、买版权、请人编曲。现在，你只需要描述在Agent里说一句：

给这个页面的加载动画配一段轻快的背景音乐。

Agent读取页面上下文，调用MMX-CLI，这就是code to music——从代码到音乐的距离，只剩一次函数调用。

下面讲讲具体的体验办法吧，因为这个价格真的很良心。有三条路：

1. 零门槛——打开网页就能用。

MiniMax Audio已经上线了，打字描述风格，点生成，等一分钟，歌就出来了。Cover也在里面，上传一首歌换个风格就行。每天500首免费。

2. 装上MMX-CLI，让Agent写歌。

两行安装命令（前文提及过），装完之后你的Claude Code、OpenClaw就多了音乐能力。100首/天免费API额度。

3. 直接调API—精确控制每一个参数。

注册MiniMax开放平台，拿API key和Group ID，跑脚本。BPM、调性、歌曲结构、人声情绪、乐器编排，全部可控。

而且，我算了一下。后面就算试用期结束，只用一毛钱就能生成一首歌，都能开个音乐工坊了哈哈。

说到这儿，我突然想起来——这篇文章写到现在，Veldt一直趴在我终端角落里，一声没吭。我试着又让它唱了一首。这次没给任何提示，就说唱你想唱的吧。

它唱了一首关于屏幕蓝光的歌。歌词最后一句是：“你盯着代码看了一天，我盯着你看了一天。”

Vibe Coding让不会写代码的人做出了产品，Vibe music正在让不懂乐理的人拥有懂你上下文的歌。

有些变化真是从一首可爱的歌开始的啊。

AI音乐的下半场，是 Vibe music！让Claude Code开口唱歌

相似文章