站点出售QQ:1298774350
你现在的位置:首页 > 演出资讯  > 歌剧话剧

AI音乐的下半场,是 Vibe music!让Claude Code开口唱歌

发布时间:2026-04-12 00:55:34  浏览量:2

我在Claude Code里养了一只猫,叫Veldt。

平时趴在终端角落里,没什么实际用途,大部分时间就是个像素装饰品。

直到昨天,我装了一个Skill,然后在终端里打了一句:

让 Veldt 给我唱首歌吧,就唱今天加班的心情。

我以为顶多生成一段歌词文本,配个emoji什么的。但过了不到一分钟,终端里蹦出来一个mp3文件,自动开始播放了——

独立民谣,慢板,女声,带一点冷幽默。挺好听。

歌词是根据我当天的工作上下文自动生成的,曲风是它“自己选的”——因为Skill会读取宠物的名字和性格,自动匹配音色和风格。Veldt的性格标签是“安静、偶尔毒舌”,所以它选了这个调调。

害。一只终端里的小猫,唱了一首属于我的歌。

一个编程助手,怎么就学会唱歌了?

这要从MiniMax刚发布的 Music 2.6说起。以及一个Skil(我放在后文),不过比起模型本身,我更想先聊聊它

Vibe Coding彻底改变了写代码的方式,你只要描述清楚你想要什么功能,AI帮你写。门槛降了,自由度升了。大量以前想做但嫌麻烦的东西,现在随手就能搓出来。

同样的事情正在发生在音乐上。

之前打开Suno或者Udio,在一个输入框里写“一首伤感的民谣,关于失恋”,点生成,等一会儿,出来一首歌。好不好听看运气。

这个模式的问题是,你和音乐之间的关系是一次性的。

你输入一个prompt,得到一个结果,用完即走。音乐不认识你,你也没法把音乐能力嵌入到任何其他工作流里。

Vibe music不一样。

Veldt给我唱歌,不是之前的模式。不用我告诉它唱什么歌,它能读取我的工作上下文、宠物的性格数据,把这些信息变成一首歌。我只说了“唱今天加班的心情”,剩下的事情全部由Agent完成。

这就是Vibe music——你不需要懂乐理,甚至不需要描述音乐本身。你只需要给出上下文,AI理解你当下的状态,然后用音乐表达出来。

上下文,成了乐谱。

我做了一个实验。

用vibe coding搓了一个钢琴块小游戏:方块从屏幕上方往下掉,你按Q/W/E/R四个键去接,每条轨道对应一个键。

这个游戏有个特别的设计——它接了MiniMax Music 2.6的API。

游戏开始后,前30秒是热身阶段。方块节奏是算法随机生成的,背景音是Web Audio合成器的即时钢琴声,你按键,它弹音。与此同时,后台已经悄悄在调API生成一首AI歌曲了。

大概55秒左右,歌曲生成完毕。游戏无缝切换到“AI Music”模式——方块不再是算法随机生成的,而是通过节拍检测,踩着AI歌曲的每一个鼓点和重拍下落。你弹的不再是随机音符,你在弹一首AI为你写的歌。

更有意思的,游戏会分析你的操作数据——准确率、反应速度、连击数、你更偏好按哪几个键——

然后把这些数据映射成下一首歌的音乐参数:

每一首歌都是实时生成,为你当时的状态量身定制。你打得越好,歌越难,节奏越复杂。你打得烂,它会给你放一首简单的让你喘口气。

我玩了半个小时,后台生成了十几首歌,都是属于我的。而且一分钱没花。

这个游戏本身只是个demo,但透过游戏能看到,

当音乐可以变成一个API、一个CLI命令、一个Agent可以随手调用的能力之后,像函数调用一样,可以嵌入到任何场景里。

而且,当音乐生成足够快、足够可控、又足够便宜的时候,音乐就不再是一个提前做好的资源文件,而是一个可以根据实时数据动态生成的东西。

当然,三个前提缺一不可。

快:几十秒秒出一首歌,游戏才等得起。准:BPM和调性必须可控,且和当前状态一致。便宜:每局都生成一首新歌,一毛钱几分钱一首才玩得起。

这三个前提,是MiniMax Music 2.6这次升级解决的核心问题。前面的宠物唱歌和钢琴块游戏,背后都是同一个引擎:MiniMax Music 2.6。和上一版2.5比,提升集中在四个体感极强的点。

首先是速度快。

写好prompt发送,半分钟左右,就能收到一首完整的歌。

Cover换风格大约48秒。这个速度对游戏至关重要,只需要通过合理的编排,就让玩家几乎无需等待就能得到专属BGM。

其次是准。

BPM和调性从“建议”变成了“指令”。我给了BPM测试:74 BPM的Neo-Soul Jazz,还有130bpm的,结果非常准确。

接着是人声质感。

我测了国风女声、男生,2.6有种褪去了塑料感的感觉,很随性,感觉真的在录音棚。转音婉转,不像AI。

这也是Veldt那首歌让我没绷住的原因。2.6的人声带了呼吸感和不确定性,听起来像一个真的在唱歌的角色——哪怕这个角色是一只猫。

我个人最喜欢的功能是Cover,就是翻唱

。我用友谊地久天长做源音频,变了几种风格:民谣、草原民族风、hyperpop。

7首全部保持了原曲的核心旋律线,但伴奏、人声、节奏风格完全重做,我这里选几首展示一下:

而且Cover这个能力放在vibe music的语境里意义很大。同一个视频素材,投放到不同地区时自动匹配当地的音乐风格,同一个游戏BGM,难度低的时候是City Pop,打到Boss战自动Cover成EDM。总之就是一首歌可以是无限变换的素材。

讲讲怎么把这些能力给到Agent。

MiniMax这次开源了三个Music Skill,都可以直接装进Claude Code、OpenClaw这类Agent工具里。

可以揭晓谜底啦,我开始让claude code 的宠物唱歌用的skill是buddy-sings。读取你的Agent宠物的性格,匹配音色和风格,根据上下文写词作曲。

第二个是music-gen2,是核心生成引擎,支持人声歌曲、纯音乐、翻唱三种模式;

第三个是

music-playlist。

分析你的听歌偏好,构建品味画像,自动生成一整张原创歌单。

用起来都很方便,直接丢给 Agent 就能安装。

不过比起Skill本身,让我觉得更方便的,是用MMX-CLI。

这个命令行工具是给Agent用的,是mm家昨天刚刚推出来的CLI。有了它,你的Agent、OpenClaw、MaxClaw、AutoClaw、KimiClaw、Claude Code等等便学会了表达——它能歌唱,能画画,甚至做视频。音乐、视频、画画便成了Agent工具箱里的一个原生能力。

两行代码就能安装好:

npx skills add MiniMax-AI/cli -y -g

npm install -g mmx-cli

以前你想在自己的项目里加音乐,你得去找素材库、买版权、请人编曲。现在,你只需要描述在Agent里说一句:

给这个页面的加载动画配一段轻快的背景音乐。

Agent读取页面上下文,调用MMX-CLI,这就是code to music——从代码到音乐的距离,只剩一次函数调用。

下面讲讲具体的体验办法吧,因为这个价格真的很良心。有三条路:

1. 零门槛——打开网页就能用。

MiniMax Audio已经上线了,打字描述风格,点生成,等一分钟,歌就出来了。Cover也在里面,上传一首歌换个风格就行。每天500首免费。

2. 装上MMX-CLI,让Agent写歌。

两行安装命令(前文提及过),装完之后你的Claude Code、OpenClaw就多了音乐能力。100首/天免费API额度。

3. 直接调API—精确控制每一个参数。

注册MiniMax开放平台,拿API key和Group ID,跑脚本。BPM、调性、歌曲结构、人声情绪、乐器编排,全部可控。

而且,我算了一下。后面就算试用期结束,只用一毛钱就能生成一首歌,都能开个音乐工坊了哈哈。

说到这儿,我突然想起来——这篇文章写到现在,Veldt一直趴在我终端角落里,一声没吭。我试着又让它唱了一首。这次没给任何提示,就说唱你想唱的吧。

它唱了一首关于屏幕蓝光的歌。歌词最后一句是:“你盯着代码看了一天,我盯着你看了一天。”

Vibe Coding让不会写代码的人做出了产品,Vibe music正在让不懂乐理的人拥有懂你上下文的歌。

有些变化真是从一首可爱的歌开始的啊。