北京商报讯(记者 杨月涵)4月27日上午的2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu是自Sora发布之后,全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。

“Vidu是全栈自主创新的最新成果,在多个维度实现了技术突破,比如可以模拟真实的物理世界、具有想象力、可以理解多镜头语言、可以一键生成长达16秒的视频、人物场景时间具有高度一致性,还可以理解中国元素。”现场,清华大学人工智能研究院副院长、生数科技首席科学家朱军说道。

据了解,Vidu的快速突破源自于团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构。2023年3月,团队开源了全球首个基于U-ViT融合架构的多模态扩散模型UniDiffuser,率先完成了U-ViT架构的大规模可扩展性验证。

基于对U-ViT架构的深入理解以及长期积累的工程与数据经验,团队在短短两个月里进一步突破了长视频表示与处理的多项关键技术,研发了Vidu视频大模型,显著提升视频的连贯性和动态性。

友情提示

本站部分转载文章,皆来自互联网,仅供参考及分享,并不用于任何商业用途;版权归原作者所有,如涉及作品内容、版权和其他问题,请与本网联系,我们将在第一时间删除内容!

联系邮箱:1042463605@qq.com