谷歌Gemini突袭AI音乐：7.5亿月活加持，Lyria 3重构赛道规则，“Suno们”又该何去何从？

发布时间：2026-03-01 09:06:02 浏览量：56

谷歌Gemini应用悄然上线AI音乐生成功能Create Music，背后是DeepMind耗时两年打造的Lyria 3模型。这款工具不仅将音乐创作门槛降至最低，还能实现多模态转换和24-bit高音质输出。然而中文发音偏差、版权防护机制等细节，暴露出AI音乐赛道的机遇与挑战。这场7.5亿月活对阵创业公司的生态战争，正在重新定义人与音乐的关系。

先说我个人使用下来的直观感受

缺点：

歌曲曲风有限、都是些口水歌、中文歌词发音不准、个性化定制/生成不足；

优点：

上手门槛极低、生成也相对自然流畅，场景更适合短视频BGM。

长文本解析和代码生成一直是各大语言模型竞争的“兵家必争之地”，所以让AI音乐这个赛道多少显得极为低调和“小众”。

但就在2月18日，中国春节的年初二，没有铺天盖地的预热，没有高调的宣发，谷歌悄然在其月活超7.5亿的Gemini应用中，上线了全新AI音乐生成功能-【

Create Music

】。

图1：创作音乐（Create music）入口

不需要你具备多专业的乐理知识，甚至不需要你手动撰写歌词，仅输入一句话描述，或是上传一张照片，短短几秒内，一首30秒时长、带有人声、歌词，甚至自带AI设计封面的完整歌曲就能一键生成，纯器乐创作也能轻松覆盖。

这场看似低调的功能更新，背后是DeepMind耗时两年迭代的第三代音乐生成模型Lyria 3，更是谷歌对AI音乐赛道的战略卡位。我们看到的不单单是一次简单的功能升级，更像是一场颠覆性的规则重构，曾经由Suno、Udio等创业公司主导的“模型比拼”时代转变成了一场围绕“用户入口”的平台级战争。

Lyria 3的3大突破，重新定义AI音乐门槛

从2023年初代Lyria模型问世，到如今Lyria 3落地Gemini生态，谷歌用三代产品，完成了对AI音乐生成技术的全方位打磨。

最直观的改变是创作门槛的极致降低。在Lyria 2及同类竞品中，用户需自行撰写完整歌词才能生成对应旋律，这让不少缺乏文字功底的普通用户望而却步。而Lyria 3彻底打破了这一限制，能够根据用户输入的提示词，自动生成贴合风格、适配旋律的完整歌词，真正做到“

一句话出歌

”。

图2：显示字幕以及可以分享到社媒上

除了歌词生成的智能化，Lyria 3在创作自由度上也实现了质的飞跃。用户可对音乐风格、人声类型等核心元素进行调控，无论是温柔抒情的民谣，还是节奏感极强的朋克摇滚，都能精准匹配用户需求。

图3：用户可以选择各类曲风

但这里不吹不黑，我尝试做了几个音乐风格，甚至给到了我创作的副歌歌词并给到提示词要求生成对应华语流行音乐曲风后生成的音乐一言难尽（但可能个人音乐风格喜好不同），并且发音存在偏差（会唱错歌词）。

图4：输入歌词和曲风提示词

音质与体验的升级，确实可以说是Lyria 3的核心竞争力。根据DeepMind官方披露，Lyria 3可输出48kHz立体声音频（已经算得上是主流偏高、接近专业级的音质水平），人声表现更自然通透，歌词咬字清晰度较前代有了显著提升（虽然我实测中尤其是中文，还是会有一定的误差）。

另外，它的训练数据规模也从Lyria 2的约50万首曲目，大幅扩展至超过200万首，音频位深也升级至24-bit（能还原更多人耳可捕捉的细微声音，比如人声的气音、吉他的弦振细节，听起来更接近真实乐器演奏和人声演唱的质感，而不是生硬的“AI合成音”），这一规格，甚至超越了YouTube Music等主流流媒体平台的音质标准。

从我个人非音乐专业视角，“AI味”不仔细辨认确实听不出来，总体还是比较自然的。

并且多模态创作的加入，进一步拓宽了AI音乐的应用场景，这点还是让我比较惊喜的。不同于传统AI音乐工具仅支持文本输入，Lyria 3是可以实现“视觉情绪→听觉表达”的无缝转化的。比如你上传一张徒步登山的照片，Gemini能生成一首充满力量感的励志歌曲；上传一段日落风景视频，能匹配一首温柔舒缓的旋律。而歌曲封面，是由谷歌专属图像生成模型Nano Banana自动创作，形成“输入—生成—包装”的一站式创作闭环。

比如我上传了一张之前去旅游的风景照（蓝天白云高山），再选中曲风为蓝调，输入简单的提示词“

帮我根据这张图片及蓝调曲风，创作一首歌曲

”。就能生成如下图5所示的音乐：

图5：上传图片和曲风生成音乐

目前，该功能支持英语、德语、西班牙语、法语、印地语、日语、韩语和葡萄牙语8种语言。同时，免费账号也能轻松创作（品质和付费版相差无几），而谷歌AI Plus、Pro和Ultra订阅用户，将享有更高的使用额度，这也成为谷歌Gemini生态商业化的重要布局之一。

而且，Lyria 3并非仅服务于Gemini应用，其同时被整合进YouTube的Dream Track功能，助力创作者为Shorts短视频快速生成专属背景音乐。此前该功能仅对美国地区开放，此次随Lyria 3同步面向全球创作者推送，进一步完善了谷歌AI音乐的生态布局，实现了“个人创作+内容变现”的场景覆盖。

版权博弈：谷歌的“克制”，藏着最精明的战略权衡

都知道AI音乐赛道始终伴随着版权纠纷的阴影，这也是所有入局者必须面对的生死劫。谷歌此次推出Lyria 3，在版权问题上的谨慎态度，恰恰体现了其作为科技巨头的战略远见，不急于抢占市场，而是先守住合规的防线，为长期发展铺路。

回顾AI音乐的版权之争，矛盾从未平息。2024年夏天，环球音乐、索尼音乐和华纳音乐三大唱片巨头联手出击，以版权侵权为由，将Suno、Udio等头部AI音乐创业公司告上法庭，索赔总金额高达5亿美元。这场诉讼震动了整个行业，也让AI音乐的版权合规问题被推向风口浪尖。

直至2025年底，这场持续一年多的版权纠纷才迎来阶段性突破：Suno与华纳音乐达成和解，并获得其版权授权；Udio也先后与环球音乐、华纳音乐签署合作协议，逐步解决版权合规问题。尽管行业从对抗走向合作，但版权背后的利益博弈从未停止，合规仍是所有AI音乐工具的生命线。

在这样的行业背景下，谷歌的每一步都显得格外克制。官方公告中明确强调，Lyria 3的设计核心目标是“原创表达，而非模仿现有艺术家”，从这一措辞中我们可以看出一来既规避了版权侵权的风险，二来也回应了音乐行业对AI模仿艺人声音的质疑。

在这点上，谷歌确实设置了多重版权防护机制，我尝试要求模仿周杰伦，但最终被拒（如下图6所示）（也就是说如果用户在提示词中提及某位具体艺术家/歌手/艺人的名字，Gemini不会模仿该艺术家的声线或标志性风格，仅会将其作为宽泛的创作灵感，生成风格、情绪相近的原创作品）。在模型训练阶段，谷歌是严格遵循版权协议与合作伙伴约定，建立了专门的过滤机制，对生成内容与已有作品进行比对，避免出现侵权内容。

图6：要求模仿某位歌手创作歌曲被拒

更值得一提的是它的SynthID水印技术的全面应用。所有通过Gemini生成的音乐，都会嵌入不可察觉的SynthID水印，实现AI生成内容的可追溯。并且Gemini新增了音频鉴别功能，用户可上传任意一段音频，询问其是否由谷歌AI生成，系统会通过检测SynthID标记，结合自身推理给出精准判断。

这是SynthID水印继图片、视频之后，覆盖的第三种媒体类型，也标志着谷歌在AI生成内容溯源领域，构建了完整的防护体系。这种“合规为先”的策略，看似保守，其实是谷歌基于自身生态优势的理性权衡，依托YouTube与三大唱片巨头的长期合作基础，谷歌无需像创业公司那样冒险前行，而是可以通过合规布局，打造差异化竞争壁垒，稳步抢占市场。

7.5亿月活VS创业公司，AI音乐的终极战场在哪？

Lyria 3的落地，真正改变AI音乐赛道竞争格局的其实并不是技术本身，而是谷歌将其嵌入Gemini超级应用的战略选择。这一动作，直接宣告AI音乐的竞争，从“模型性能比拼”升级为“平台生态对决”，而Suno等创业公司，正面临着前所未有的生存压力。

不可否认Suno作为AI音乐创业赛道的佼佼者，拥有自身的核心优势。2024年11月，Suno完成了2.5亿美元融资，凭借高效的生成速度与丰富的创作功能，积累了大量核心用户。其付费版本更是推出了虚拟音频工作站等专业编辑功能，精准覆盖专业创作者群体，在细分领域建立了一定的品牌壁垒。

但当它的对手从同类创业公司变成像谷歌这样的科技巨头时，Suno的短板便暴露无遗——用户入口的量级差距，将成为无法逾越的鸿沟。Suno的月活用户量级（月活用户超2000万），与Gemini的7.5亿相比，几乎可以说是不在同一个维度。而且Gemini的7.5亿用户并非精准音乐用户，而是覆盖全年龄段、全场景的普通用户，这意味着AI音乐生成功能，将借助Gemini的入口优势，实现“全民普及”。

日常生活的每一个细微场景中的一句祝福、一份清单、一张照片，都能成为创作的灵感，而这种轻量化、场景化的创作需求，只有依托超级应用的入口优势，才能真正落地。

当然，Lyria 3并非完美无缺。30秒的时长限制、Beta阶段的功能粗糙感、小众音乐风格的创作短板，以及版权纠纷的潜在风险，都意味着它还有很大的优化空间。但谷歌选择在这个时间点，将尚未完全成熟的功能推向7.5亿用户，传递的信号已经足够清晰：AI音乐生成这件事，谷歌不打算再观望了，而是要率先抢占入口，定义行业规则。

对于Suno等创业公司而言，谷歌的入局，既是挑战，也是机遇。一方面，谷歌的平台优势的会分流大量普通用户，压缩创业公司的市场空间；另一方面，谷歌的合规布局与技术探索，也将推动整个行业走向规范化，倒逼创业公司加速技术迭代与差异化布局，比如深耕专业创作者领域，打造更精细化的编辑功能；或是聚焦小众音乐风格，挖掘细分市场的需求，避免与谷歌正面竞争。

当人人都能成为“作曲家”，音乐的本质又是什么？

谷歌入局AI音乐，带来的不仅仅是赛道格局的改变，更是人与音乐之间关系的重构。

长久以来，音乐的创作权始终掌握在少数专业音乐人手中，普通人大多只能作为聆听者，被动接受音乐带来的情绪价值，但Lyria 3与Gemini的结合，彻底打破了这种专业壁垒，你可以无需乐理知识、无需创作经验，就能成为自己的“作曲家”，用音乐表达情绪、记录生活，这种创作平权的变革，将重新定义音乐的价值。

从市场趋势来看，AI音乐的未来，必然是平台化+场景化。谷歌的布局，已经为行业指明了方向：AI音乐不再是一款独立的工具，而是将被深度嵌入超级应用生态，与社交、短视频、办公等场景深度融合，成为一种全新的表达方式。而这场竞争的核心，将不再是模型的性能，而是入口的流量、生态的完善，以及合规的底线。

我们不妨大胆预判：未来几年，AI音乐赛道将迎来一轮大规模的行业整合。头部科技巨头将凭借平台优势，逐步占据市场主导地位；而优质的创业公司，要么被巨头收购，要么深耕细分领域，形成差异化竞争力。而且版权合规将成为行业的“准入门槛”，而SynthID等溯源技术的普及，将逐步化解版权纠纷，推动AI音乐与传统音乐行业实现良性共生。

谷歌的突袭，只是AI音乐变革的一个开端。当每个人的口袋里，都装着一个能随时创作的AI作曲家，改变的或许不是音乐本身，而是我们表达自我的方式，音乐不再是遥不可及的艺术，而是融入日常生活的情绪载体。

而这场变革的终极赢家，终将是那些既能掌握技术优势，又能抢占用户入口，更能坚守行业底线的玩家。

谷歌已经迈出了第一步，而“Suno们”的反击，才刚刚开始……

本文由 @AI与B2B市场营销原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议