喜报丨我校音乐人工智能论文入选国际顶会ACL主会

发布时间：2026-04-12 22:38:50 浏览量：1

近日，我校与伦敦帝国理工学院（Imperial College London）、清华大学自然语言处理与社会人文计算实验室（THUNLP）合作完成的研究论文《Musical Score Understanding Benchmark: Evaluating Large Language Models' Comprehension of Complete Musical Scores》被国际计算语言学领域顶级会议 ACL 2026 Main Conference 正式接收。该成果也是我校首篇被 ACL 主会接收的论文，标志着学校在音乐人工智能与交叉学科研究领域取得重要进展。论文作者中，我校学生作者包括戴琮人、梁世杰、张博、刘恩洋、金戈、安虹燃。

ACL（Annual Meeting of the Association for Computational Linguistics，国际计算语言学协会年会）是自然语言处理与计算语言学领域最具影响力的国际学术会议之一，代表着该领域前沿研究的重要方向和学术水准。ACL 主会录用论文通常具有较强的创新性、学术引领性与国际影响力。此次论文入选 ACL 2026 主会，充分体现了我校在音乐人工智能、乐谱理解、跨模态智能与音乐人文计算等方向的研究实力，展现了我校推动学科交叉融合、服务国家人工智能发展战略的积极成效，也实现了我校在自然语言处理国际学术平台上的历史性突破。

该论文聚焦完整音乐乐谱的智能理解问题，提出了 Musical Score Understanding Benchmark（MSU-Bench）评测基准，系统评估大语言模型与视觉语言模型对完整乐谱内容的综合理解能力。研究围绕音高、节奏、和声、织体、曲式结构等音乐理解中的关键维度，构建了具有系统性、代表性与挑战性的评测任务，为音乐人工智能与跨模态音乐理解研究提供了重要支撑。相关成果不仅为衡量人工智能系统在高层次音乐认知任务中的表现提供了新的研究工具，也为推动音乐知识建模、乐谱语义理解与音乐教育智能化应用奠定了基础。

近年来，我校持续推进音乐与科技深度融合，积极布局音乐人工智能及相关前沿交叉领域，依托高水平科研平台和国际合作网络，不断提升原创科研能力与国际学术影响力。此次成果入选 ACL 主会，是我校在新文科建设背景下深化学科交叉、加强有组织科研的又一重要成果，彰显了我校在建设中国特色、世界一流音乐学院进程中的创新活力与学术潜力。

我校将继续发挥音乐学科优势，面向国家重大战略需求和国际学术前沿，推动音乐学、人工智能、信息技术等领域的深度融合，不断产出高水平原创成果，为构建中国自主音乐科技创新体系、推动音乐学科高质量发展贡献力量。

论文首页

论文主要内容

图 2

展示了 MSU-Bench 的四层级理解框架。研究以穆索尔斯基《图画展览会》为例，将完整乐谱、ABC 元数据、ABC 乐谱内容与示例问题对应起来：第一层关注作曲家、标题、速度、调号等起始信息，第二层关注音高、休止、力度、装饰音与小节定位，第三层进入和弦与和声分析，第四层进一步考察动机、织体与曲式等更高层次的音乐理解能力。

图 3

描述了数据构建与评测流程。论文从 MuseScore 收集 150 部完整乐谱，使用 PDF 进行视觉问答评测，并将 MusicXML 转换为 ABC notation 用于文本问答评测；其中第一至第三层采用可跨乐谱复用的通用问题模板，第四层则根据具体作品特征人工设计问题。全部参考答案均由具有 20 余年音乐经验的专家审核，并通过多模型多数投票方式完成答案判定。

表 1

将 MSU-Bench 与现有多个音乐问答基准进行了系统比较。MSU-Bench 是目前少数同时覆盖文本与视觉两种模态、支持完整乐谱问答、可用于模型训练，并兼顾复调音乐理解的生成式评测基准。相较于以选择题为主、侧重单一模态或依赖合成数据的已有工作，MSU-Bench 采用 1800 组人工标注的生成式问答数据，更贴近真实音乐理解任务需求，也更能体现模型在完整乐谱分析、跨模态推理与高层次音乐认知方面的综合能力。该比较进一步凸显了本研究在基准构建上的系统性、创新性与应用价值。

图 5

展示了基于 MSU-Bench 进行 LoRA 微调后的模型表现。结果表明，无论在文本问答还是视觉问答设置下，微调后的模型整体准确率均明显高于基线模型。其中，在文本问答任务中，Qwen3 系列模型随着参数规模增大，整体表现持续提升，体现出较为清晰的规模效应；在视觉问答任务中，Qwen2.5-VL-3B-Instruct 在使用 ABC 输入时表现尤为突出，说明相较于原始 PDF 乐谱，ABC 记谱能够更有效地提供清晰的小节结构与符号信息，从而帮助模型完成更准确的乐谱理解。该结果进一步验证了论文提出的核心观点，即合适的符号表示与针对性微调，能够显著增强大模型在完整音乐乐谱理解任务中的能力。

图 6

展示了零样本评测中各模型在 MSU-Bench 上的分层成功率（LSR）。这一指标关注模型是否能够在同一首作品中，从第一层到更高层级持续保持全部回答正确，因此比单题准确率更能体现完整乐谱理解的稳定性。结果显示，在文本问答设置下，模型在第一层尚有一定表现，但进入第二层后成功率迅速下降，到第三、四层几乎接近于零；在视觉问答设置下，这一下降更加明显，第二层后基本已难以保持跨层级连续正确。该结果说明，当前大模型虽然在部分单题上能够作答，但距离稳定完成完整乐谱的多层次、一致性理解仍有明显差距。