Step 3.5 Flash – 阶跃星辰最新开源的基座模型

互联网 来源:AI工具集 2026-02-03 10:58:26

Step 3.5 Flash是什么

Step 3.5 Flash 是阶跃星辰最新开源的基座模型,专为 Agent 场景推出。模型采用稀疏 MoE 架构,总参数 1960 亿,每 token 仅激活 110 亿参数,兼顾性能与效率。Step 3.5 Flash推理速度高达 350 TPS,支持 256K 长上下文,在数学推理、代码生成(SWE-bench 74.4%)和 Agent 任务上媲美顶级闭源模型。Step 3.5 Flash已开源并支持 vLLM、SGLang、llama.cpp 等框架,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等消费级硬件本地部署,实现数据隐私与高性能兼得。

Step 3.5 Flash的主要功能

  • 高速推理:模型通过 MTP-3 技术实现最高 350 TPS 的生成速度,支持复杂多步推理的即时响应。
  • Agent 能力:模型专为智能体任务设计,在 SWE-bench Verified 达到 74.4%,可处理长链条复杂任务。
  • 高效长文本:支持 256K 上下文窗口,采用混合注意力机制降低长文本计算开销。
  • 本地部署:优化消费级硬件支持,可在 Mac Studio M4 Max、NVIDIA DGX Spark 等设备流畅运行。
  • 代码生成:模型具备强大的编程能力,支持自动工具调用和结构化推理输出。

Step 3.5 Flash的技术原理

  • 稀疏 MoE 架构:模型采用 45 层 Transformer 骨干网络,每层配置 288 个细粒度路由专家和 1 个共享专家。推理时仅激活 Top-8 专家,每 token 实际计算约 110 亿参数,实现 1960 亿总参数规模的模型能力与小模型推理成本的平衡。

  • MTP-3 多 Token 预测:通过滑动窗口注意力机制与密集前馈网络组成的专用预测头,单次前向传播并行生成 4 个 token。将典型场景生成速度提升至 100-300 tok/s,峰值可达 350 tok/s,显著降低解码延迟。

  • 混合注意力机制:采用 3:1 滑动窗口注意力与全局注意力层交替的架构设计。滑动窗口层聚焦局部上下文,全局层捕捉长距离依赖,在 256K 长文本场景下有效控制计算复杂度,兼顾效率与性能。

  • 推理优化策略:模型支持专家并行(EP8)与张量并行(TP8)的组合部署,配合 FP8 量化降低显存带宽压力。通过投机解码与 MTP 协同,在 Hopper GPU 上实现高效服务化部署。

Step 3.5 Flash的项目地址

  • GitHub仓库:https://github.com/stepfun-ai/Step-3.5-Flash/

  • HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-3.5-Flash

Step 3.5 Flash的应用场景

  • 智能编程开发:作为 Claude Code、Codex 等工具的底层模型,提供代码生成、自动调试、软件工程任务处理等能力,在 SWE-bench Verified 上达到 74.4% 的通过率。

  • 自主智能体执行:适用深度研究、网页信息检索、跨平台数据对比等需要长链条推理的 Agent 场景。

  • 实时对话交互:凭借 100-350 TPS 的生成速度,支撑低延迟聊天机器人、在线教育辅导、智能客服等需要即时响应的交互应用。

  • 长文本分析处理:可进行学术论文研读、法律合同审查、大型代码库理解,高效提取并整合海量信息。

  • 端侧隐私计算:可在 Mac Studio M4 Max、NVIDIA DGX Spark 等本地设备部署,满足金融、医疗、企业办公等敏感数据的私有化处理需求。

延伸阅读

关注公众号:拾黑(shiheibook)了解更多

友情链接:

关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
内容推荐