北卡罗来纳大学突破：无配对数据实现AI视频背景音乐智能生成

发布时间：2026-03-20 19:11:26 浏览量：1

这项由北卡罗来纳大学教堂山分校和Adobe研究院联合开展的研究于2026年3月发表在arXiv预印本平台，论文编号为arXiv:2603.11042v1，有兴趣深入了解的读者可以通过该编号查询完整论文。

制作一段吸引人的视频内容时，背景音乐往往起着画龙点睛的作用。无论是社交媒体上的短视频创作者，还是电影制作的专业人士，都深知一个道理：好的背景音乐不仅要在情感上与视频内容相呼应，更要在节拍上与画面变化精准同步。当一个紧张的场景转换恰好撞上音乐的重拍，或是一个温馨镜头伴随着优美的旋律响起，这种天衣无缝的配合能让观众产生强烈的共鸣。

然而，现实往往充满挑战。目前主流的人工智能音乐生成技术虽然能够根据文字描述创作出风格各异的音乐，但却无法精确控制音乐与视频画面的时间对应关系。这就像是有一位才华横溢的作曲家，能够写出动人的旋律，却无法看懂指挥家的手势，不知道何时该加强节拍，何时该放缓节奏。因此，创作者们经常需要反复调整视频剪辑来配合生成的音乐，或者手动编辑音乐来适应视频节奏，这个过程既耗时又需要专业技能。

更大的问题在于训练数据的获取。传统的视频配乐AI系统需要大量配对的视频和音乐数据进行学习，就像学习舞蹈需要观看无数遍完整的舞蹈表演一样。但现实中，高质量的视频音乐配对数据极其稀少且获取困难，大多数在线视频要么包含人声和其他杂音，要么存在版权问题，这些都限制了AI系统的训练效果。

在这样的背景下，研究团队提出了一个颇为巧妙的解决方案。他们发现了一个有趣的现象：虽然视觉变化和音乐变化在内容上截然不同，但在时间结构上却存在惊人的相似性。换句话说，音乐中的节拍变化和视频中的场景切换，就像两种不同的语言在述说着相同的故事节奏。基于这一洞察，他们开发了名为V2M-Zero的系统，这个名字中的"Zero"指的是零配对数据，意思是不需要任何视频音乐配对的训练样本就能实现精准的视频配乐生成。

这个系统的核心创新在于，它将时间同步问题从"理解内容含义"转化为"捕捉变化节奏"。研究团队创建了一种称为"事件曲线"的技术，这种曲线就像心电图一样，能够记录视频和音乐中各种变化发生的时间和强度。当视频出现场景切换、物体运动或其他显著变化时，曲线会出现峰值；当音乐出现节拍重音、乐器变化或动态起伏时，曲线同样会产生对应的波动。

训练过程采用了一种"移花接木"的巧妙策略。系统首先学习如何根据音乐的事件曲线生成相应的音乐片段，这个过程使用的是现有的音乐文本配对数据，无需任何视频参与。一旦掌握了这种能力，系统在实际应用时就能够"偷梁换柱"，用视频的事件曲线替代音乐的事件曲线，从而生成与视频节奏完美同步的背景音乐。这就像是训练一位钢琴家跟随指挥家的手势演奏，等他熟练掌握这种配合方式后，换成另一位指挥家，他同样能够完美配合。

一、神奇的"时间指纹"：事件曲线的工作原理

要理解V2M-Zero系统的精髓，我们需要深入了解"事件曲线"这个核心概念。这个技术的灵感来源于一个简单而深刻的观察：尽管视频和音乐在表现形式上天差地别，但它们在时间维度上的变化模式却有着内在的联系。

研究团队设计的事件曲线就像是为时间变化绘制的"指纹图谱"。制作这样的曲线需要经历几个关键步骤。首先，系统会使用专门的编码器分析视频或音乐内容，这些编码器就像是具有特殊视力或听力的观察者，能够将复杂的视觉或音频信息转化为数字特征。对于视频，系统会逐帧分析画面内容；对于音乐，则会按时间顺序分析音频特征。

接下来是关键的相似性计算步骤。系统会比较相邻时间段之间的相似程度，这个过程类似于观察连续两帧画面的差异程度，或者倾听连续两个音符之间的变化幅度。当两个相邻时间段非常相似时，说明内容变化很小；当差异较大时，则表明发生了显著变化。通过测量这种差异的大小，系统就能够绘制出一条反映变化强度的曲线。

这条曲线的每一个峰值都对应着一个重要的变化时刻。在视频中，这可能是一个新角色的出现、场景的切换、爆炸特效的瞬间，或者摄像机角度的突然转换。在音乐中，峰值可能对应着鼓点的重击、新乐器的加入、音调的急剧变化，或者节拍的明显强调。通过这种方式，复杂多变的视频和音乐内容被简化为一条条起伏的曲线，这些曲线成为连接不同媒体形式的桥梁。

为了确保这些曲线能够在不同媒体之间有效转换，研究团队开发了精密的标准化处理技术。他们发现，原始的事件曲线在不同媒体之间存在着明显的"方言差异"，就像不同地区的人虽然说着同一种语言，但在语调和表达习惯上却有所不同。音乐的事件曲线通常更加规律和周期性，而视频的事件曲线则可能更加随机和突发性。

为了消除这种差异，系统会对所有曲线进行标准化处理，将它们调整到相同的数值范围和变化尺度。此外，还会应用时间平滑技术，使用专门的滤波器来抑制过于细微的波动，突出更加重要的变化模式。这个过程就像是在嘈杂的环境中调节音响设备，既要保留重要的信号，又要过滤掉干扰噪声。

研究团队还发现了一个有趣的现象：当他们分析配对的视频音乐数据时，发现对应的事件曲线之间确实存在着显著的相关性，平均相关系数达到0.6左右。这意味着优秀的视频配乐在时间结构上确实与视频内容高度匹配。更有说服力的是，当他们故意将音乐相对于视频进行时间偏移时，这种相关性立即下降到约0.2，这从数据上证实了时间同步的重要性。

二、巧妙的"移花接木"：无配对数据的训练策略

V2M-Zero系统最令人惊叹的特点在于其独特的训练方法，这种方法完全避开了传统方法对大量视频音乐配对数据的依赖。整个过程可以比作培训一位多才多艺的音乐家，让他既能理解指挥的意图，又能根据不同的指示创作出恰当的音乐。

训练的第一阶段，系统专注于学习"听从指挥"的能力。研究团队使用了大约25000小时的授权器乐音乐数据，这些音乐都配有详细的文字描述，比如"4/4拍D小调弦乐奏鸣曲"或者"史诗般的管弦乐配乐"等。在这个阶段，系统需要学会同时响应两种不同类型的指令：文字描述和事件曲线。

文字描述告诉系统应该创作什么风格的音乐，就像告诉厨师今天要做中式菜还是意大利菜。而事件曲线则告诉系统何时应该加强节拍、何时应该转换乐器、何时应该出现高潮，就像告诉厨师何时下锅、何时调味、何时起锅。通过这种双重条件的训练，系统逐渐掌握了在保持音乐风格一致性的同时，精确控制音乐时间结构的能力。

训练使用的是最先进的扩散变换器架构，这种架构就像是一个经验丰富的音乐制作人，能够从随机噪声中逐渐雕琢出完美的音乐作品。整个训练过程相对轻量化，仅需要2到4天时间在4到8块高性能GPU上完成，总计算量约为192到768个GPU小时。相比于从零开始训练一个完整的音乐生成模型，这种方法大大降低了计算成本和时间消耗。

训练过程中的一个关键创新是事件曲线的注入方式。研究团队采用了简单而有效的通道连接方法，将事件曲线作为额外的信息通道直接添加到音乐生成模型的输入中。这种方法的优雅之处在于它的简洁性：只需要在模型的输入投影层添加少量参数（约2048个），就能够实现对时间结构的精确控制，而无需重新设计整个模型架构。

更令人印象深刻的是系统的泛化能力。一旦完成训练，系统就具备了处理任何类型事件曲线的能力，无论这些曲线来自视频、音乐，甚至是其他类型的时序数据。这种泛化性来源于事件曲线的抽象特性：它们描述的不是具体的内容，而是变化的模式和节奏。

训练完成后，系统在推理阶段的"移花接木"操作显得极其自然。当用户提供一个视频时，系统首先提取视频的事件曲线，然后使用语言模型分析视频内容并生成相应的音乐风格描述。最后，系统将这两种信息结合起来，生成既符合视频风格又与视频节奏完美同步的背景音乐。

这种方法的另一个优势是其模型无关性。研究团队验证了V2M-Zero的方法可以应用到不同的基础音乐生成模型上，包括公开可用的模型。他们在Stable-Audio-ControlNet模型上的实验显示，即使是不同的模型架构，也能够从这种事件曲线条件化方法中受益，实现更好的时间对齐效果。

三、精妙的"翻译技术"：跨模态特征提取与对齐

要实现视频到音乐的精确转换，关键在于如何从根本不同的媒体形式中提取出可比较的时间特征。这个过程就像是培训两位专门的翻译官，一位专门理解视觉语言，另一位专门理解音频语言，但他们都能将各自理解的内容转换为同一种通用的"时间语言"。

对于音乐特征的提取，研究团队选择了MusicFM作为默认的音乐编码器。MusicFM是一个专门针对音乐理解而训练的基础模型，它能够深度理解音乐的各种特征，包括节奏、旋律、和声以及音色变化。这个编码器就像是一位经验丰富的音乐理论家，能够准确识别出音乐中每一个微妙的变化，并将这些变化转换为数字特征向量。

在视频特征提取方面，系统默认使用DINOv2作为视觉编码器。DINOv2是一个强大的自监督视觉模型，它通过观察大量图像学会了理解视觉世界的基本模式。当处理视频时，系统会逐帧提取视觉特征，然后通过空间池化将每帧的复杂视觉信息压缩为一个紧凑的特征向量。这个过程就像是训练一位观察者，让他能够快速捕捉每个画面的核心特征。

事件曲线的计算过程体现了系统设计的精巧之处。系统会计算相邻时间步之间的余弦相似度，这个度量能够精确反映内容变化的程度。当相邻两个时间步的特征向量非常相似时，余弦相似度接近1，表示内容基本没有变化；当特征向量差异较大时，相似度降低，表示发生了显著变化。通过计算1减去相似度值，系统得到了一个"不相似度"序列，这个序列的峰值恰好对应着重要的变化时刻。

为了处理不同模态之间的"方言差异"，研究团队开发了一套精密的标准化流程。首先，系统会对每个事件曲线进行零均值单位方差标准化，确保所有曲线都在相同的数值范围内。接着，系统会进行时间重采样，将不同长度的曲线调整到统一的时间分辨率。最后，应用汉宁窗平滑滤波，这个步骤能够保留重要的变化模式，同时抑制可能导致模态差异的高频噪声。

研究团队进行了大量的消融实验来优化这个标准化流程。他们发现平滑滤波的窗口大小对最终效果有重要影响：过小的窗口无法有效抑制模态差异，而过大的窗口会模糊掉重要的时间细节。经过反复试验，他们确定31帧的窗口大小（对应约2.5秒的时间跨度）能够在音频质量和时间对齐之间取得最佳平衡。

系统的一个重要优势是其编码器的灵活性。虽然默认配置使用MusicFM和DINOv2，但系统的架构允许根据具体应用场景选择不同的编码器。例如，在处理舞蹈视频时，研究团队发现使用CoTracker点追踪模型能够更好地捕捉人体运动的细节，从而生成更精确同步的舞蹈音乐。这种灵活性使得系统能够适应不同类型的视频内容，无需重新训练整个模型。

为了验证跨模态特征对齐的有效性，研究团队设计了一系列定量分析实验。他们发现即使是简单的线性分类器，也能够基于视频事件曲线以68.2%的准确率区分电影、自然风景和舞蹈三种不同类型的视频内容。这个结果表明事件曲线确实捕捉到了有意义的内容特征，而不仅仅是随机的时间变化。

四、令人惊叹的实验成果：全方位性能验证

V2M-Zero系统的性能评估涵盖了三个不同特色的数据集，每个数据集都代表着视频配乐领域的一个重要应用方向。这种全面的测试策略就像是对一位全能运动员进行多项体能测试，确保在各种不同的挑战面前都能表现出色。

在电影配乐领域的测试中，研究团队使用了OES-Pub数据集，这个数据集包含115个公共领域的电影片段，每个片段约30秒长，都配有人工标注的音乐提示词。这些片段涵盖了从紧张的动作场面到温馨的情感戏的各种电影场景。在这个充满挑战的测试中，V2M-Zero在音频质量方面取得了显著优势，其FAD分数达到4.95，相比最佳的有监督学习方法提升了约10%。更令人印象深刻的是在时间同步方面的表现，系统的场景切换命中率达到0.61，比传统方法高出21%到52%不等。

MovieGenBench-Music数据集的测试结果进一步证实了系统的鲁棒性。这个数据集包含527个视频音乐配对，每个片段约10秒，涵盖了各种不同类型的视频内容。在这个更加多样化的测试环境中，V2M-Zero继续保持其领先优势，音频质量FAD分数为2.68，在所有参与比较的方法中排名第一。特别值得注意的是，一些在其他数据集上表现良好的有监督学习方法，在这个数据集上出现了明显的性能下降，这表明它们可能存在过拟合问题，而V2M-Zero的零配对训练策略显然具有更好的泛化能力。

在舞蹈视频配乐这个要求极高精确度的任务上，V2M-Zero的表现最为出色。AIST++数据集专门收录了街舞视频，这些视频中的每一个动作都需要与音乐节拍精确对应。在这个挑战性最高的测试中，系统通过使用专门的CoTracker运动追踪编码器，实现了令人瞩目的性能提升。节拍覆盖率达到58.18%，节拍命中分数为62.74%，F1分数为58.56%，时间偏差仅为12.24秒。这些数字不仅全面超越了专门为舞蹈音乐生成设计的有监督学习方法，更重要的是，这种提升是在不需要任何舞蹈训练数据的情况下实现的。

为了获得更加真实的用户反馈，研究团队组织了大规模的众包评估实验。他们通过专业的众包平台收集了1403个有效的人工评估投票，每个评估者都需要在两段为同一视频生成的音乐之间进行选择，分别评判音乐质量和时间同步效果。结果显示，V2M-Zero在音乐质量方面获得了68.76%的胜率，在时间对齐方面获得了63.49%的胜率。更有意思的是，当评估者被要求专门关注包含明显场景切换的视频片段时，V2M-Zero的优势变得更加明显，胜率分别提升至71.14%和66.56%。

研究团队还进行了深入的消融研究，以理解系统各个组件的重要性。他们发现音乐编码器的选择对最终效果影响最大，使用专门的音乐理解模型MusicFM相比于通用的音频编码器，能够显著提升时间同步效果。平滑处理的窗口大小同样关键，需要在保留重要时间特征和抑制模态差异之间找到平衡点。

特别值得一提的是系统的跨架构泛化能力。当研究团队将V2M-Zero的方法应用到公开可用的Stable-Audio-ControlNet模型上时，同样观察到了明显的性能提升。这个结果表明，事件曲线条件化的思路不仅限于特定的模型架构，而是一个具有广泛适用性的通用方法。

在与大规模开源模型的比较中，V2M-Zero同样展现出明显优势。与专门设计用于音频生成但并非专注于音乐的HunyuanVideo-Foley相比，V2M-Zero在所有评估指标上都取得了压倒性的胜利，这进一步证明了专门针对音乐生成和时间同步优化的重要性。

五、深入探析：技术细节与设计智慧

V2M-Zero系统的成功并非偶然，而是建立在一系列精心设计的技术细节和深思熟虑的工程选择之上。这些设计决策的背后，体现了研究团队对跨模态学习本质的深刻理解。

在模型架构的选择上，研究团队采用了基于扩散变换器的生成框架，这种架构在近年来的生成式AI领域取得了巨大成功。扩散模型的工作原理类似于雕塑家从一块粗糙的石材中逐渐雕琢出精美艺术品的过程。系统从完全的随机噪声开始，通过多步的去噪过程，逐渐生成高质量的音乐内容。每一步去噪都由变换器网络指导，这个网络能够理解当前的噪声状态、文本条件以及事件曲线信息，从而决定如何向最终目标靠近。

音频自编码器的设计同样体现了研究团队的技术洞察。他们使用的编码器能够将立体声44.1kHz的高质量音频压缩为64维的连续潜在表示，时间分辨率为12.3Hz。这意味着对于32秒的音频片段，系统只需要处理394个时间帧的潜在表示，大大减少了计算复杂度。这种压缩不是简单的数据缩减，而是将音频信息转换为更适合生成模型处理的抽象表示，就像将复杂的乐谱转换为演奏者更容易理解的简谱一样。

在事件曲线的技术实现方面，研究团队选择了余弦相似度作为相邻时间步之间的比较度量。这个选择并非随意，而是基于余弦相似度在高维空间中的良好性质。与欧氏距离不同，余弦相似度主要关注向量的方向而非大小，这使得它更适合比较来自不同编码器的特征表示。当两个相邻时间步的特征向量指向相似方向时，说明内容变化较小；当方向差异较大时，则表明发生了显著变化。

标准化处理的每一个步骤都有其深层原因。零均值单位方差标准化确保了不同来源的事件曲线具有相同的数值范围和分布特性，这对于跨模态转换至关重要。时间重采样解决了不同媒体形式在时间分辨率上的差异，确保所有曲线都以相同的时间精度表示。汉宁窗平滑滤波则是最关键的一步，它不仅抑制了可能导致模态差异的高频噪声，还保留了对时间同步最重要的中低频变化模式。

文本条件的生成过程展现了现代AI技术的巧妙结合。系统使用Whisper语音识别模型提取视频中的语音内容，使用视觉语言模型对关键帧进行描述，然后通过大型语言模型将这些信息综合成适合音乐生成的文本提示。这个过程就像是一个多语种的翻译团队，每个成员都专精于某个领域，最终协作产出高质量的翻译结果。

分类器自由引导技术的应用进一步提升了生成质量。在推理过程中，系统会同时考虑有条件和无条件的生成路径，通过调节两者之间的平衡来增强对给定条件的遵循程度。这种技术就像是给创作者提供了一个"强度调节旋钮"，可以控制生成的音乐与给定条件的贴合程度。

在训练效率方面，V2M-Zero的设计体现了实用性考虑。相比于从零开始训练一个完整的音乐生成模型可能需要的数千GPU小时，V2M-Zero只需要在预训练模型基础上进行轻量级微调，大大降低了计算资源需求。这种效率不仅降低了研究成本，也使得这项技术更容易被广泛采用和进一步发展。

模型的可解释性设计同样值得关注。通过分离文本条件（控制音乐风格）和事件曲线条件（控制时间结构），系统为用户提供了直观的控制维度。用户可以独立调整音乐的风格特征和时间特征，这种解耦设计使得系统既强大又易于使用。

六、实际应用价值与未来展望

V2M-Zero技术的意义远远超越了学术研究的范畴，它为整个数字内容创作生态系统带来了革命性的变化。在当今这个视频内容爆炸式增长的时代，这项技术的实际应用价值体现在多个层面。

对于社交媒体创作者而言，V2M-Zero解决了一个长期困扰的实际问题。以往，创作者要么使用版权音乐面临侵权风险，要么使用免费音乐但效果平庸，要么花费大量时间手工剪辑音乐来配合视频节奏。现在，他们只需上传视频，系统就能自动生成完美契合的原创背景音乐。这就像是为每位创作者配备了一位专业的作曲家，能够根据视频内容即时创作出恰当的配乐。

在教育和培训领域，这项技术同样具有巨大潜力。教学视频的制作者可以快速为枯燥的教学内容添加引人入胜的背景音乐，提升学习体验。企业培训视频、产品演示片段、在线课程等都能从中受益。更重要的是，由于音乐是根据视频内容自动生成的，它能够自然地强调重要信息，帮助观众更好地理解和记忆内容。

对于专业的影视制作行业，V2M-Zero提供了一种全新的工作流程可能性。在项目的早期阶段，制作人员可以快速为粗剪版本生成临时配乐，帮助导演和制片人更好地感受最终效果。在预算有限的独立制作中，这项技术甚至可以直接用于最终成片，大大降低音乐制作成本。对于需要大量背景音乐的电视节目、纪录片或网络剧集，这种自动化的配乐生成能够显著提高制作效率。

在游戏产业中，V2M-Zero的应用前景同样广阔。现代游戏越来越注重动态音乐系统，希望音乐能够根据游戏情境的变化实时调整。V2M-Zero的事件曲线技术为实现这种动态配乐提供了新的思路。通过分析游戏画面的变化，系统可以实时生成与当前游戏状态匹配的背景音乐，创造更加沉浸式的游戏体验。

这项技术对于降低数字内容创作门槛的意义不容忽视。传统的专业配乐制作需要音乐理论知识、作曲技能和昂贵的制作设备。V2M-Zero将这些技术壁垒降至最低，使得任何能够制作视频的人都能够为自己的作品配上专业级别的音乐。这种民主化的趋势可能会催生出全新的创作形式和商业模式。

从技术发展的角度来看，V2M-Zero的核心思想——通过时间结构而非内容语义实现跨模态对应——为人工智能研究开辟了新的方向。这种方法不仅适用于视频音乐生成，还可能扩展到其他跨模态任务中，如根据音乐生成视觉艺术、根据文本生成动画等。事件曲线作为一种通用的时间结构表示方法，可能成为未来多模态AI系统的重要组成部分。

在数据效率方面，V2M-Zero展示了"零样本学习"在实际应用中的巨大潜力。当前AI系统的训练通常需要大量标注数据，而V2M-Zero证明了通过巧妙的任务设计和特征工程，可以在没有直接监督信号的情况下实现高质量的跨模态生成。这种思路对于解决其他数据稀缺领域的AI问题具有重要启示意义。

研究团队在论文中也诚实地讨论了当前系统的局限性和未来改进方向。他们指出，当前的事件曲线主要关注时间变化的强度，但对变化的具体性质（如是颜色变化、运动变化还是场景变化）缺乏细致区分。未来的研究可能会开发更加细粒度的事件描述方法，使得生成的音乐不仅在时间上同步，在情感表达上也更加精准。

另一个有趣的发展方向是多尺度时间建模。当前系统主要关注秒级别的时间对应关系，但音乐和视频的结构往往具有多层次的时间特征，从毫秒级的节拍到分钟级的段落结构。未来的系统可能会同时建模多个时间尺度，实现更加层次化和复杂的时间对应关系。

在用户控制和个性化方面，V2M-Zero也提供了广阔的扩展空间。用户可能希望对生成的音乐进行更加细致的控制，比如指定某些时间点的音乐风格变化、调整整体的情绪倾向或者加入特定的乐器元素。通过结合更加丰富的条件输入和交互界面设计，未来的系统可能会提供更加灵活和个性化的音乐生成体验。

从商业化角度来看，V2M-Zero技术已经展现出了清晰的产业化路径。无论是作为独立的软件产品，还是集成到现有的视频编辑平台中，这项技术都具有明确的市场需求和商业价值。随着短视频和数字内容创作市场的持续扩张，自动化配乐技术的市场前景十分广阔。

说到底，V2M-Zero代表的不仅仅是一项技术突破，更是AI赋能创意产业的一个重要里程碑。它证明了人工智能不仅能够理解和生成单一模态的内容，还能够在不同模态之间建立深层的结构性联系。这种跨模态理解能力的提升，为未来的AI系统提供了更加丰富的表达和交互可能性。通过巧妙地将时间同步问题转化为结构匹配问题，V2M-Zero为解决类似的跨模态对应任务提供了宝贵的思路和经验。这项研究不仅推动了技术前沿，更重要的是，它让高质量的音乐创作变得触手可及，为无数内容创作者开启了新的可能性之门。

Q&A

Q1：V2M-Zero系统是如何在没有视频音乐配对数据的情况下学会视频配乐的？

A：V2M-Zero使用了一种叫做"事件曲线"的技术，将视频和音乐中的变化时刻转换为相似的曲线图。系统先用音乐数据学会跟随这种曲线创作音乐，然后在实际应用时用视频的事件曲线替换音乐曲线，就像训练钢琴家跟随指挥手势演奏，换个指挥家也能配合一样。

Q2：V2M-Zero生成的音乐质量和时间同步效果与传统方法相比如何？

A：V2M-Zero在所有测试中都显著超越了需要大量配对数据训练的传统方法。音频质量提升5-21%，语义匹配提升13-15%，时间同步效果提升21-52%，在舞蹈视频配乐中节拍对齐提升28%。人工评估显示超过68%的用户更偏好V2M-Zero生成的音乐。

Q3：普通用户可以如何使用V2M-Zero技术创作视频配乐？

A：目前V2M-Zero还是研究阶段的技术，但其工作流程非常简单：用户只需上传视频，系统会自动分析视频内容和节奏变化，然后生成与视频完美同步的原创背景音乐。整个过程无需音乐知识，就像使用智能滤镜一样简单。

北卡罗来纳大学突破：无配对数据实现AI视频背景音乐智能生成

相似文章