武汉理工数字传播工程申请基于多模态的声音生成方法专利,生成高质量的音频或音乐
发布时间:2025-08-09 11:53:10 浏览量:2
金融界2025年8月9日消息,国家知识产权局信息显示,武汉理工数字传播工程有限公司申请一项名为“一种基于多模态的声音生成方法”的专利,公开号CN120452412A,申请日期为2025年05月。
专利摘要显示,本发明公开了一种基于多模态的声音生成方法,属于人工智能与多媒体生成技术领域,其包括以下步骤:S1、多模态输入:输入多模态内容,包括文本、视频、图像、音乐和音频;S2、特征提取;S3、特征对齐:对于三种提取的特征额外增加对应的三个小网络,将三种提取的特征在维度上对齐,生成对齐的三个特征;S4、特征拼接:将对齐的三个特征前后拼接,一起输入生成大模型;S5、大模型训练;S6、损失函数计算;S7、音频或音乐输出。本发明把包括文本、视频、图像、音乐和音频在内的多种模态作为输入,结合大模型的生成能力,生成高质量的音频或音乐,由于本发明输入是多种模态的,只需输入其中之一或多种,即可生成对应的音乐或音频。
天眼查资料显示,武汉理工数字传播工程有限公司,成立于2014年,位于武汉市,是一家以从事新闻和出版业为主的企业。企业注册资本6318.923716万人民币。通过天眼查大数据分析,武汉理工数字传播工程有限公司共对外投资了16家企业,参与招投标项目30次,财产线索方面有商标信息120条,专利信息75条,此外企业还拥有行政许可5个。
本文源自金融界