币安交易所官网

全球著名的数字资产交易平台,200W人的选择

注册币安账号

上币安,10元买比特币，立即注册并获得高达100 USDT的奖励

2026-05-29 币安交易所

大模型行业最近有个明显变化：参数规模已经不再是最核心的叙事。

过去两年，国内模型公司发布新品时，外界第一反应往往是“多大”“超过谁”“训练了多少token”。现在风向开始变了。越来越多团队开始强调模型能不能真正调用工具、理解界面、执行任务，而不是只会聊天。

阶跃星辰这次开源的Step 3.7 Flash，基本踩中了这个趋势。

从参数结构看，它依旧属于“大模型”路线。196B语言主干加上1.8B视觉Transformer，总参数198B，但真正参与推理激活的只有11B。典型的稀疏MoE架构思路——参数规模做大，实际运行成本尽量压低。

这其实已经是行业默认路线了。

无论OpenAI、Anthropic还是DeepSeek，最近几代模型都在往“高总参、低激活”方向走。原因很现实：算力太贵。真正决定商业化效率的，不是实验室排行榜，而是单位GPU到底能跑多少token。

阶跃这次直接把速度拉到400 tokens/s，背后明显有工程化取向。尤其在国内推理成本持续内卷的情况下，“快”已经比“绝对最强”更重要。

很多企业客户其实没那么在意模型是不是全球第一。他们更关心另一件事：能不能稳定部署，能不能便宜调用，能不能接进现有业务系统。

这也是Step 3.7 Flash选择Apache 2.0协议开源的原因之一。

现在国内开源模型竞争已经进入一个很微妙的阶段。真正的对手不只是闭源模型，而是DeepSeek这类已经形成生态势能的平台。单纯开源参数本身，吸引力正在下降，大家开始拼兼容性、推理效率、Agent能力以及开发者迁移成本。

阶跃这次明显在往“Agent底座”方向靠。

它强调的不只是多模态识别，而是“执行”。比如模型能够自主框选、裁剪UI界面，在信息不确定时主动检索验证。这类能力看上去只是产品细节，但其实是AI Agent真正落地的关键环节。

因为过去很多模型的问题，不是“不会回答”，而是“不知道自己不知道”。

模型会一本正经给出错误结果，也不会主动核实。现在越来越多团队开始强化检索、验证、调用工具链，本质上是在补齐大模型从“语言系统”走向“操作系统”的最后一段。

行业里已经慢慢形成一种共识：下一阶段竞争重点不只是模型智商，而是任务闭环能力。

为什么最近SWE-Bench、Toolathlon、τ²-Bench这些测试越来越受关注？原因就在这里。它们考察的已经不是单轮问答，而是模型能否真正完成复杂任务、调用工具、修复代码、理解环境反馈。

某种程度上，大模型行业正在从“考试时代”进入“打工时代”。

谁更像一个真正能干活的数字员工，谁就更容易商业化。

Step 3.7 Flash在多个Agent相关评测里分数不低，比如Toolathlon达到49.5%，SWE-Bench Pro达到56.3%。放在当前国内开源模型里，这已经属于偏前排的位置。

不过，更值得关注的其实不是排行榜。

而是国内模型公司开始出现一种明显分层：一部分继续追逐超大参数和通用能力，另一部分则开始围绕Agent执行、代码、推理效率做工程化优化。后者越来越像“AI基础设施公司”，而不只是研究机构。

这背后有商业压力。

训练超级模型的资本门槛越来越高，但真正能形成收入的，往往是部署、推理和企业应用。尤其在中国市场，客户对成本极其敏感。一个模型哪怕能力稍弱，只要便宜、稳定、能本地部署，很多企业都会接受。

所以现在的大模型竞争，已经不完全是技术竞赛。

更像是一场围绕GPU利用率、推理成本、Agent工作流和开发生态的综合战争。

阶跃星辰这次开源，某种程度上也是国内AI公司现阶段生存逻辑的缩影：单纯封闭，很难建立生态；完全拼参数，又烧不起。

于是大家开始寻找中间路线——把核心能力开放，把生态做大，再围绕推理服务、企业部署和Agent应用寻找收入。

至于这条路最后能不能跑通，还得看一件事：AI到底什么时候能真正替代一部分“软件操作”。

如果那一天到来，现在这些围绕UI理解、工具调用和自主执行的能力，就不再只是实验室指标，而会直接变成生产力入口。

登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。文章内容仅供参考，不构成投资建议。投资者据此操作，风险自担。

币安交易所

上币安,10元买比特币。认证用户,可获得高达100 USDT的奖励

本站为您提供币安交易所官网的注册地址、加密货币及区块链的科普文章以及行业资讯等内容.