阶跃星辰开源198B模型,AI开始卷“执行力”
大模型行业最近有个明显变化:参数规模已经不再是最核心的叙事。
过去两年,国内模型公司发布新品时,外界第一反应往往是“多大”“超过谁”“训练了多少token”。现在风向开始变了。越来越多团队开始强调模型能不能真正调用工具、理解界面、执行任务,而不是只会聊天。
阶跃星辰这次开源的Step 3.7 Flash,基本踩中了这个趋势。
从参数结构看,它依旧属于“大模型”路线。196B语言主干加上1.8B视觉Transformer,总参数198B,但真正参与推理激活的只有11B。典型的稀疏MoE架构思路——参数规模做大,实际运行成本尽量压低。
这其实已经是行业默认路线了。
无论OpenAI、Anthropic还是DeepSeek,最近几代模型都在往“高总参、低激活”方向走。原因很现实:算力太贵。真正决定商业化效率的,不是实验室排行榜,而是单位GPU到底能跑多少token。
阶跃这次直接把速度拉到400 tokens/s,背后明显有工程化取向。尤其在国内推理成本持续内卷的情况下,“快”已经比“绝对最强”更重要。
很多企业客户其实没那么在意模型是不是全球第一。他们更关心另一件事:能不能稳定部署,能不能便宜调用,能不能接进现有业务系统。
这也是Step 3.7 Flash选择Apache 2.0协议开源的原因之一。
现在国内开源模型竞争已经进入一个很微妙的阶段。真正的对手不只是闭源模型,而是DeepSeek这类已经形成生态势能的平台。单纯开源参数本身,吸引力正在下降,大家开始拼兼容性、推理效率、Agent能力以及开发者迁移成本。
阶跃这次明显在往“Agent底座”方向靠。
它强调的不只是多模态识别,而是“执行”。比如模型能够自主框选、裁剪UI界面,在信息不确定时主动检索验证。这类能力看上去只是产品细节,但其实是AI Agent真正落地的关键环节。
因为过去很多模型的问题,不是“不会回答”,而是“不知道自己不知道”。
模型会一本正经给出错误结果,也不会主动核实。现在越来越多团队开始强化检索、验证、调用工具链,本质上是在补齐大模型从“语言系统”走向“操作系统”的最后一段。
行业里已经慢慢形成一种共识:下一阶段竞争重点不只是模型智商,而是任务闭环能力。
为什么最近SWE-Bench、Toolathlon、τ²-Bench这些测试越来越受关注?原因就在这里。它们考察的已经不是单轮问答,而是模型能否真正完成复杂任务、调用工具、修复代码、理解环境反馈。
某种程度上,大模型行业正在从“考试时代”进入“打工时代”。
谁更像一个真正能干活的数字员工,谁就更容易商业化。
Step 3.7 Flash在多个Agent相关评测里分数不低,比如Toolathlon达到49.5%,SWE-Bench Pro达到56.3%。放在当前国内开源模型里,这已经属于偏前排的位置。
不过,更值得关注的其实不是排行榜。
而是国内模型公司开始出现一种明显分层:一部分继续追逐超大参数和通用能力,另一部分则开始围绕Agent执行、代码、推理效率做工程化优化。后者越来越像“AI基础设施公司”,而不只是研究机构。
这背后有商业压力。
训练超级模型的资本门槛越来越高,但真正能形成收入的,往往是部署、推理和企业应用。尤其在中国市场,客户对成本极其敏感。一个模型哪怕能力稍弱,只要便宜、稳定、能本地部署,很多企业都会接受。
所以现在的大模型竞争,已经不完全是技术竞赛。
更像是一场围绕GPU利用率、推理成本、Agent工作流和开发生态的综合战争。
阶跃星辰这次开源,某种程度上也是国内AI公司现阶段生存逻辑的缩影:单纯封闭,很难建立生态;完全拼参数,又烧不起。
于是大家开始寻找中间路线——把核心能力开放,把生态做大,再围绕推理服务、企业部署和Agent应用寻找收入。
至于这条路最后能不能跑通,还得看一件事:AI到底什么时候能真正替代一部分“软件操作”。
如果那一天到来,现在这些围绕UI理解、工具调用和自主执行的能力,就不再只是实验室指标,而会直接变成生产力入口。