温馨提示:本站为乐剧票务官方授权演出订票中心,请放心购买。
你现在的位置:首页 > 演出资讯  > 歌剧话剧

又刷屏了,昆仑万维奇袭音乐大模型

更新时间:2025-03-26 19:33  浏览量:7

文 | 阑夕

出道即巅峰,又一款纯正中国血统的大模型,跑出了SOTA(当前最佳水平)的分数。

昆仑万维发布的音乐大模型Mureka O1,在音乐生成品质的评测上,全面超越作为行业领头羊的Suno——相当于ChatGPT在文本大模型的优势地位——成了又一个空降而来的「新王」。

当然,和普通大模型通常通过做题的准确率来对比能力差异不同,音乐内容的好坏缺少完全客观的评判标准,所以昆仑万维也做到了力所能及的公平:

在最新的音乐评测中,Mureka O1展现出卓越的音乐品质,在最终的整体听感评测超过了Suno V4。

图丨Mureka O1在主观测评中整体听感超越Suno V4

而在发音唱对率、乐段准确率、文本相关度、制作质量等客观指标,多个维度上,Mureka O1都完全胜过了目前市场份额最高的Sonu V4,让海外的AI技术圈再次发出了灵魂三问:

图丨Mureka O1在文本生成音乐的客观测评中得分

这是谁?哪儿来的?怎么办到的?

怎么说呢,疑惑的起点都是傲慢,从看不到中国AI的奋起,到不关心大厂以外的突破,这笔认知债务,还有很长时间要还。

· · ·

作为一家上市公司,昆仑万维没有所谓「2VC」的叙事需求,它对AI的研究投入,一方面是对技术创新的敏感,另一方面也是自身业务的延伸。

早在3年前,昆仑万维就用AI生成的音乐和图形为旗下游戏业务做了降本增效——2万块钱的一首BGM版权,被5块钱的AI成本顶替——这种基于现实需要的回报,客观上也为昆仑万维的AI版图去掉了表演性质。

昆仑万维的创始人周亚辉每年都会在朋友圈锐评各家公司的AI表现,并经常流传出媒体喜闻乐见的金句,比如「字节跳动2023年的AI战略不及格,但并不影响它在2024年的AI战略能打满分。」

而在对自家公司的评价上,周亚辉用了一个自创的词组:「小而大美」

昆仑万维的市值,在500亿人民币左右,真要和全球互联网大厂正面硬刚,显然没有多少胜算,但在周亚辉看来,昆仑万维的AI进展不是「小而美」,而是「小而大美」,大在哪儿?

大在全球,大在对AI商业化上游的卡位。

如果在YouTube搜索Mureka,就能发现已经有很多创作者在用这款产品创作音乐了,这和很多AI概念产品的扩散路径——先由技术社区引爆,再去寻找应用场景——还不太一样,是市场先行、「炸裂」后至。

这和昆仑万维的海外业务早已打下基底有关,语音社交应用StarMaker是中国互动娱乐出海的标志性产品,全球几千万人挤在里面唱歌打榜,对于音乐创作者会在多大程度上为生产力买单,熟念于心。

在这波AI浪潮袭来之前,StarMaker就在自己做语料库了,单个小语种每个月要花几百万美元,这种积累,也相当于昆仑万维在今天闯入音乐大模型的「合法外挂」,当一个高等级玩家出现在新手村,任何动作都会是降维打击。

于是就有了Mureka O1的顺利登顶。

· · ·

某种程度上,Mureka O1会让海外的AI从业者内心生出「快别卷了」的无奈,因为它是第一个引入思维链(Chain-of-Thought)的音乐大模型。

思维链就是OpenAI o1和DeepSeek-R1为大模型行业带来的第二条进化曲线,通过教会大模型推理能力,在预训练陷入瓶颈之后重新解决了智能不再提升的问题。

不过思维链几乎只被用在文本大模型领域,从来没有在音乐大模型有过尝试,而昆仑万维实现了让Mureka O1像一个真实的唱作人那样,用经验和思考——而非直觉——来谱曲写歌。

在已经发布的论文里,Mureka团队意识到传统自回归模型在生成音频时的局限性,也就是遵循Transformer的预测模式,只能按顺序吐出音符(Token),而在开创了思维链之后,Mureka O1可以在生成之前就对整体作曲结构做出计划和梳理,大幅提高音乐的连贯性。

而这正是现阶段音乐大模型最深的痛点,没有之一。

简单来说,以Suno为代表的旧式音乐大模型,在创作音乐时很容易出现「有曲调而无旋律」的特点,有曲调意味着这确实可被辨识出是一首音乐作品,无旋律则说明和那些真正由人谱写出来的音乐相比,AI的工作成果不够动听,没有朗朗上口的艺术审美。

这和文本大模型被诟病的地方是一致的,看起来AI很能写作,吐起词句来连绵不绝,却在很多时候经不起细看,因为堆砌痕迹过重,给人「AI味」太浓的观感,更严重的指责,甚至将AI生成的作品称作是「尸块」。

而Mureka O1提供的推理能力,可以让AI站在全局的视角规划一首音乐从无到有的构建过程,避免「走一步算一步」的强行成分,这在实际体验上再造了魔法般的美学功底。

比如这首放克风格的音乐作品「Hands up high」,你们听完一定会和我产生同样的惊讶,不止是完整度,连同旋律构思和歌词卡点,包括逼真的人声唱腔,几乎都不再有AI生成时那种挥之不散的电子感,达到了可以发行的地步:

还有充满自由气息的欢快的乡村歌曲:

置身于海滩的充满激情的拉丁歌曲:

充满未来感的赛博电子舞曲:

我自己也用Mureka O1写了一小段音乐,用电影「指环王」里阿拉贡在最终决战前的阵前演讲作为填词,虽然做得简单潦草,但是那句「But it is not this day」的停顿和转折,已经相当惊艳了,我没有输入任何提示词引导,纯粹是Mureka O1自己做出的判断。

· · ·

从个人体感来看,Mureka生成一首完整音乐的速度在50秒左右,8美金/月的最低档会员价格,对应400首音乐(V6模型)或者80首音乐(O1模型),平均「单曲成本」只有0.02美金或者0.1美金,可以说是白菜价了。

考虑到Mureka对于订阅用户生成的AI音乐都提供了商用授权,这是意味着普通人也能获得每年超过5000首音乐的创作能力,无论是自用还是上传到Spotify等流媒体平台,对于数字音乐市场的冲击将是空前绝后的。

这里可以插入一个也许有些反直觉的数据,那就是全球音乐市场的产值,其实是比全球电影市场还要略高的,这是一个300亿美金的盘子,而且集中度偏高,仅是环球、索尼、华纳三大唱片公司,就占到了录制音乐市场份额的60%以上。

和视频大模型的发展类似,音乐大模型的颠覆性也在于双线作战:不只是给素人创作者赋权,还能为专业创作者增效,还是那句老话,AI不会直接取代人,而是用AI的人会取代不会用AI的人。

就像今天几乎已经没有工程师不在用Cursor写代码,Mureka对于音乐制作人而言,有着纯粹的暴力美学价值,比如基于一小段音符「填补」音乐,或是将歌曲反编译为词干,这些原本需要投入大量智力劳动的工作,都能交给Mureka以近乎无限的生成资源供给选用。

A16z曾经发过一篇关于AI音乐的前瞻报告,认为音乐产业非常适合AI的货币化,因为这里有着高度成熟化的商业链路,分账模式也相对稳定,这种确定性,让从业者们愿意为生产力的提高支付费用。

这大概就是周亚辉所说的「小而大美」真正的意思,以尽可能小的机会成本,切入相对大且确定的增值市场,和文本的量级相比,全世界古往今来的所有音乐曲目,只有4000万首,对应繁荣的商业市场,训练起来的性价比很高。

在Mureka之外,昆仑万维还在海外做了AI短剧平台SkyReels,同样是以打掉90%以上生产成本的方法,刺激供给端的爆发。

加上TikTok等短视频平台已经新创了洗脑神曲和BGM模版的经济体系,新的生产关系,一定会长出新的音乐创作者,他们所用的工具,也并非必须和传统创作者保持一致。

毕竟,从智人时代开始,越早掌握先进工具的人类,越能取得物种进化的优势,尼安特人的石器制作技术曾经一度领先,但在几十万年里没有任何改进,但智人已经在旧石器晚期已经开发出了可投掷的标枪和箭矢等复合工具,最终帮助智人在竞争中取得了胜利。

· · ·

两年前,孙燕姿写了一篇文章回应「AI孙燕姿」的泛滥,她的态度很有意思,混杂着自嘲和看戏——「此刻,我觉得自己就像一个吃爆米花、坐在电影院最好的位置上的人。

当时,距离Suno的发布还有半年时间,所谓AI音乐的生产,主要还停留在「临摹」的层面,也就是复制音乐人的声线,让「她」去唱别的歌曲,还没有达到原创的地步。

但是孙燕姿已经敏锐察觉到技术发展的一日千里——这份敏锐甚至超过了大多数行业人士——她说可能有人会反对AI音乐的影响,认为自己能够分辨出区别,因为它没有情绪、音调和呼吸的变化,而孙燕姿则表示:「很抱歉,我怀疑这只是一个非常短期内的回应,人类无法超越它已指日可待。」

果然,从Suno的惊世登场,到Mureka的急起逆袭,音乐大模型能做的事情,正在验证着孙燕姿的预判,所以她才主动选择了接受,并相信音乐人做自己——也就是发挥人的那部分价值——才是最大的护城河。

不过,对于更多想要扬名立万的创作者来说,AI才是能帮他们做自己的工具,Mureka O1的大受好评,就建立在这种浓得无法化开的需求之上,一次古登堡式的歌唱平权。

而在DeepSeek横空出世之后,国产AI行业就开始呈现出类似工业领域的供应链溢出效应,让音乐大模型学会推理创作,就是其中一个例证,更重要的是,从人才密度,到技术突破,中国的AI公司都开始骑脸输出,反过来向全球贡献经验,并挨个占领所有榜单的前列位置。

波澜壮阔的创新,永远的科技发展史上最美丽的那道风景线。