武汉理工数字传播工程申请基于多模态的声音生成方法专利，生成高质量的音频或音乐

发布时间：2025-08-09 11:53:10 浏览量：115

金融界2025年8月9日消息，国家知识产权局信息显示，武汉理工数字传播工程有限公司申请一项名为“一种基于多模态的声音生成方法”的专利，公开号CN120452412A，申请日期为2025年05月。

专利摘要显示，本发明公开了一种基于多模态的声音生成方法，属于人工智能与多媒体生成技术领域，其包括以下步骤：S1、多模态输入：输入多模态内容，包括文本、视频、图像、音乐和音频；S2、特征提取；S3、特征对齐：对于三种提取的特征额外增加对应的三个小网络，将三种提取的特征在维度上对齐，生成对齐的三个特征；S4、特征拼接：将对齐的三个特征前后拼接，一起输入生成大模型；S5、大模型训练；S6、损失函数计算；S7、音频或音乐输出。本发明把包括文本、视频、图像、音乐和音频在内的多种模态作为输入，结合大模型的生成能力，生成高质量的音频或音乐，由于本发明输入是多种模态的，只需输入其中之一或多种，即可生成对应的音乐或音频。

天眼查资料显示，武汉理工数字传播工程有限公司，成立于2014年，位于武汉市，是一家以从事新闻和出版业为主的企业。企业注册资本6318.923716万人民币。通过天眼查大数据分析，武汉理工数字传播工程有限公司共对外投资了16家企业，参与招投标项目30次，财产线索方面有商标信息120条，专利信息75条，此外企业还拥有行政许可5个。

本文源自金融界

武汉理工数字传播工程申请基于多模态的声音生成方法专利，生成高质量的音频或音乐

相似文章