SongBloom歌曲生成模型
发布时间:2025-09-22 13:47:56 浏览量:1
人工智能已经尝试了几年来创作音乐,但如果你听了大多数这些尝试,你会发现两个问题:
小部分(比如吉他riff或一段歌声)单独听起来可能不错,但它们无法组合成一首完整的歌曲。 或者大结构(如主歌、副歌、桥段)大致存在,但音频本身听起来平淡或人工。
SongBloom 是由来自香港中文大学、腾讯和南京大学的研究人员开发的新系统。他们的目标是让AI不仅输出音频片段,还能生成连贯的完整歌曲,包括歌词、人声、乐器、前奏和副歌,听起来像真正的音乐。
可以把它想象成艺术家作画的过程:
他们首先从一个草图开始:勾勒出形状的大致线条。然后他们用颜色和细节对它进行细化。SongBloom也以同样的方式处理音乐:
草图阶段:该模型查看歌词并创建一个粗糙的“音乐草图”。这还不是音频,而更像是旋律和节奏的计划。细化阶段:模型的另一部分将这个草图转化为实际的声音:人声和乐器。这里有一个巧妙的变化:SongBloom不是先完成整个草图,然后再进行细化,而是来回切换。它先草拟一点,再细化一点,然后再次草拟,如此反复。这种持续的来回操作在整个过程中保持歌词、旋律和乐器的一致性。
输入:
你想转换成歌曲的歌词。一个简短的10秒音频片段作为风格指南(告诉模型使用什么样的氛围)。输出:
一首完整的歌曲,最长可达150秒(约2.5分钟)。包括主歌、副歌,甚至非人声部分如前奏和尾声。许多AI歌曲生成模型来了又走了,但SongBloom不同
它保持结构。许多模型在歌曲中途会失去方向(例如,无休止地重复副歌)。SongBloom尊重歌词中的主歌-副歌布局。它听起来干净。与使用高度压缩的“音频标记”(其他AI系统中常见)不同,SongBloom直接使用连续的音频信号。这有助于保留高频细节,使歌声不会听起来模糊。它效率高。通过以小块(每次约0.6秒)生成音乐,它可以避免在大型序列上浪费计算资源,同时保持连贯性。它融合了两个世界。语言模型风格的“草图”+基于扩散的“音频细化”,而不是分开进行。研究人员将SongBloom与开源模型(SongGen、SongEditor、DiffRhythm、YuE)和商业工具(Suno、Udio)进行了比较。
在自动测试(客观指标)中:
在人类听觉测试(主观指标)中:
听众表示SongBloom的人声更清晰,歌词匹配度更好。商业工具如Suno在乐器丰富性方面仍略占优势,但SongBloom并不落后太多。在对具有清晰主歌-副歌模式的歌曲进行微调后,SongBloom甚至在某些指标上超过了Suno。大多数开源研究音乐模型相比商业系统感觉像是玩具。SongBloom改变了这一点:它是第一个在质量和连贯性上接近Suno或Udio的开源系统。
设计思路是草拟一点,细化一点,重复——虽然简单但很强大。它使得AI不太可能在歌曲中途迷失方向。
5、接下来是什么SongBloom并不是完美的。目前它的“草图”是数学信号,而不是乐谱。这意味着你不能像乐谱那样轻松地编辑它们。添加更多可读的人类控制(例如,“让副歌更大声”或“改变调性”)仍然是一个开放的挑战。
但作为一项研究步骤,它意义重大。第一次,一个开源系统表明AI可以生成带有歌词和结构的完整歌曲,而不显得像拼接起来的乱七八糟的东西。