作者 | 香草编辑 | 漠影

随着大模型的智能水平迅速增长，科技圈对AGI（通用人工智能）将于几年内降临的预测声音越来越多。

那么在通往AGI的路上，有什么因素是必要条件？这一问题也成为产业内备受关注的话题。

智东西7月4日报道，今日，在世界人工智能大会（WAIC）2024上，大模型独角兽阶跃星辰正式发布Step系列模型“全家桶”，包括万亿参数语言大模型Step-2、千亿参数多模态大模型Step-1.5V以及图像生成大模型Step-1X。

三款模型分别对应Scaling Law、多模态理解和多模态生成，也对应了阶跃星辰对于实现AGI目标的判断——万亿参数、多模融合。

这两点同样是Step系列通用大模型的核心优势。从3月首次亮相，到此次正式发布，Step系列模型在参数规模和多模态能力上取得巨大进展。

具体来说，Step-2在数理逻辑、编程、世界知识、指令跟随等方面体感全面逼近GPT-4，Step-1.5V从图像理解升级到视频理解，Step-1X全面支持600M、2B、8B三种参数量，在多模态理解和生成统一技术路线上实现重要技术突破。

阶跃星辰成立于2023年4月，创始人姜大昕曾担任微软全球副总裁、微软亚洲互联网工程院首席科学家。从成立初期，阶跃星辰就从算力、数据、算法和系统四大要素上综合布局，坚定追逐AGI的目标。

一、通往AGI之路，万亿参数、多模融合缺一不可

在如何实现AGI的问题上，业内一直存在诸多不同的声音。

如OpenAI Sora团队的核心成员Tim Brooks和Bill Peebles认为，视频生成技术将通过模拟一切来实现AGI。DeepMind创始人Demis Hassabis则认为，最快可能实现AGI的方法，就是将世界上现有的所有知识都收集起来，用于模型训练。

大模型创企月之暗面CEO杨植麟称，Scaling Law是通往AGI的第一性原理。百川智能CEO王小川则认为仅靠Scaling Law还不够，AGI需要大模型范式的改变。

而在阶跃星辰创始人姜大昕看来，要攀登AGI这座高峰，“万亿参数”和“多模融合”缺一不可。

在发展阶段上，早期的AI语言、视觉、声音等不同模态独立发展，每个模型主要学习如何更好地表征各自模态的特点；现在，不同模态开始走向融合，但仍不彻底，面临理解能力与生成能力难以同时实现的痛点；最终，生成和理解需要统一在一个模型里，与具身智能相结合起来，模型作为机器人或其他硬件设备的“大脑”，带领它探索并与世界交互，实现AGI。

因此，多模态理解和生成的统一是通向AGI的必经之路。

另一方面，根据Scaling Law，模型的参数量决定模型能力上限，所以全面跨入万亿参数，甚至十万亿、百万亿，是通向AGI的另一核心。

行业内第一梯队的大模型公司是怎么做的？以OpenAI为例，其最新发布的GPT-4o模型全方面加强了语音、视频交互能力，而“大力出奇迹”的暴力美学也是其屡试不爽的模型训练方式。

这恰好印证了Scaling Law与多模态融合这两个关键点，与阶跃星辰所选择的路径不谋而合。

二、三大模型亮相WAIC，阶跃星辰大模型全家桶来了

今年3月，阶跃星辰首次推出Step系列通用大模型并发布预览版，向万亿参数规模发起冲击。

经过100天的打磨，今天在WAIC上，阶跃星辰正式发布Step系列模型“全家桶”，包括万亿参数语言大模型Step-2、千亿参数多模态大模型Step-1.5V以及图像生成大模型Step-1X。

▲WAIC现场发布Step系列模型“全家桶”

其中，Step-2在数理逻辑、编程、世界知识、指令跟随等方面体感全面逼近GPT-4。

在算法架构方面，目前MoE模型的训练方式主要分为两种，基于已有模型向上复用训练，或是从头开始训练。

第一种方式对算力需求低，训练效率更高，但容易出现同质化严重等问题。相比之下从头训练虽然难度更高，但能获得更高的模型上限。

在设计MoE架构时，阶跃星辰选择迎难而上自主研发。具体来说，通过部分专家共享参数、异构化专家设计等架构设计，Step-2中的每个“专家模型”都得到充分训练，不仅总参数量达到了万亿级别，每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

有万亿参数的模型当“老师”，Step-1.5V的推理能力大幅提升，可以根据图像内容进行各类高级推理任务，如解答数学题、编写代码、创作诗歌等。

同时基于创新的图文混排训练方法，Step-1.5V感知能力增强，能理解复杂图表、流程图、准确感知物理空间复杂的几何位置。

另一个重要的升级点是视频理解能力，Step-1.5V不仅能够准确识别视频中的物体、人物和环境，还能理解视频的整体氛围和人物情绪。

图像生成大模型Step-1X首次亮相，其采用全链路自研的DiT模型架构，支持600M、2B、8B三种不同的参数量，可满足不同场景的需求。其中，600M适合对于速度敏感的轻量级场景；2B是适用于日常的主力模型，效果和速度达到平衡；8B则追求更高、更极致的生成效果。

Step-1X具备优秀的语义对齐能力和指令跟随能力，并针对中国元素进行深度优化，支持中国元素、文化内容，同时更符合国人的审美风格。

基于这一系列模型的能力，在彩色动画长片《大闹天宫》发行60周年之际，阶跃星辰与上海美术电影制片厂合作，推出一款H5 AI互动体验。

▲《大闹天宫》游戏现场体验

根据用户上传的个人照片，大模型会识别人物特征，并结合《大闹天宫》画风和角色进行风格迁移，生成新的肖像。

在交互中，用户可以与大模型生成的剧情进行交谈，系统将根据用户的选择和回答分析其MBTI人格，并在天庭为其安排一项适合其人格的差事。

▲《大闹天宫》游戏界面截图

基于Step系列模型，该游戏将先进的生成式AI技术与《大闹天宫》情景深度融合，用当代的新视角，带领观众领略这部经典动画作品中的传统文化魅力，这是生成式AI技术在落地应用层面上的又一次创新尝试。感兴趣的读者朋友，可以点击本文下方的“阅读原文”进行体验。

值得一提的是，阶跃星辰Step系列通用大模型凭借技术创新和广泛的应用落地，被选入WAIC 2024 SAIL（Super AI Leader）之星，这意味着阶跃星辰在技术和应用方面获得业界的高度认可。

三、模型和产品双轮驱动，面向C端构建生态圈

成立于2023年3月的阶跃星辰，在喧哗吵闹的“百模大战”中并不高调。

在创业之前，姜大昕担任过微软全球副总裁、微软亚洲互联网工程研究院首席科学家，曾主导微软搜索引擎Bing、智能语音助手Cortana、微软云Azure、办公全家桶Microsoft 365等产品的自然语言理解系统的构建。

自成立起，阶跃星辰就在算力、数据、算法和系统这四大要素上综合布局，坚定投入Scaling Law。

▲阶跃星辰创始人姜大昕讲解攀登Scaling Law所需的要素

姜大昕认为，模型和产品的关系就像是灵魂和皮囊，“好看的皮囊千篇一律，有趣的灵魂万里挑一。”阶跃星辰希望通过“有趣的灵魂”，来显示出产品的不同。

因此，从成立第一天开始，阶跃星辰就同时开发模型和应用产品。应用作为牵引和数据补充，模型与应用深度绑定，通过双轮驱动将两者都做到极致。

而在应用落地的过程中，只靠一家公司自身存在局限性，需要不同公司之间的生态合作才能够促进技术的创新和发展，加速技术的落地应用，推动整个行业持续进步。

通过自有产品与生态合作产品相结合的方式，阶跃星辰对大模型落地应用展开了积极探索。

在自有产品方面，阶跃星辰已发布效率工具“跃问”和AI开放世界平台“冒泡鸭”两款自研产品，均已全面开放使用。

其中，跃问作为一款个人效率助手，能够基于联网搜索、代码分析增强（POT）等能力，为用户提供信息查询、语言学习、创意写作、图文解读等多样化服务，帮助用户在工作、学习、生活等场景下解决问题。

基于Step-1.5V等模型能力，跃问的主要优势在于业界领先的多模态内容理解能力，不仅能够帮助用户识别真实世界的万事万物、理解和分析复杂的金融图表，还能理解网络热梗图片中的深意。

▲跃问图像理解能力

在生态合作产品方面，阶跃星辰在内容创作、金融财经、消费娱乐等领域与合作伙伴达成深度合作，共同发掘面向C端用户的创新应用。

在WAIC亮相的《大闹天宫》，就是阶跃星辰联合上海电影共同推出了一款AI互动体验产品，将先进的AI大模型技术与《大闹天宫》情境深度融合，用当代全新视角领略中国传统文化的魅力、回顾经典动画作品艺术成就，同时也为创作者打开更多想象空间。

在金融财经领域，阶跃星辰联合国泰君安以及界面财联社，推出业内首家千亿级参数多模态证券垂直类大模型——君弘灵犀大模型，在业内首个实现将大模型能力全面融入客户智能化服务体系之中，在智能投顾问答、投研内容生产和交互模式上为客户带来新体验。

从模型到应用，对AGI的追求始终贯穿着阶跃星辰的战略布局。通过构建开放、合作的生态系统，其正在推动AI技术的广泛应用和行业的共同发展。

结语：微软前高管带队AGI，闯入大模型创企第一梯队

在大模型“百花齐放”下，越来越多的大厂牛人下场创业，成为生成式AI创业赛道的主力军。据智东西统计，2023年至今，至少有25位大厂高管已投身生成式AI创业。

这些创业公司所选择的细分赛道各不相同，覆盖通用大模型、垂直大模型、生成式AI应用、AI基础设施、AI数据服务、AI咨询等全产业链环节。

其中，阶跃星辰作为模型与产品双管齐下的创企，始终用行动践行着对AGI的终极追求。Step系列通用大模型和多样化的自有、合作产品是阶跃星辰在通往AGI之路上交出的最新答卷，“万亿+多模”也将成为大模型企业格局的分水岭。

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

如何通往AGI？阶跃星辰用万亿+多模交卷，三大模型亮相WAIC

一、通往AGI之路，万亿参数、多模融合缺一不可

二、三大模型亮相WAIC，阶跃星辰大模型全家桶来了

三、模型和产品双轮驱动，面向C端构建生态圈

结语：微软前高管带队AGI，闯入大模型创企第一梯队

友情提示