Ling
Ling 是蚂蚁集团自主研发并开源的通用大语言模型系列,基于 MoE(混合专家)架构构建,历经国产异构算力平台适配验证、万亿参数规模突破,持续迭代至长上下文建模与 AI Agent 协同推理能力。
为什么选择 Ling?
Ling 系列在推理效率、长上下文建模和训练技术三个维度实现了关键突破:
推理效率
传统 Dense 模型在推理时需激活全量参数,计算开销与模型规模成正比。Ling 采用 MoE 架构,每个 Token 仅路由激活最相关的专家子网络,从而在保持大规模模型容量的同时,将实际计算量压缩至极小比例。
长上下文支持
在 MoE 高效推理基础上,Ling 2.6 系列在长序列建模上进一步突破。
- Ling-2.6-1T:最长支持 1M 上下文窗口;官方 API 当前开放 256K 上下文。
- Ling-2.6-flash:原生支持 256K 上下文窗口,可处理约 20 万字的长文本输入。
- 长程信息召回无明显衰减:无论目标信息位于上下文头部、中部还是尾部,模型均可稳定检索。
典型应用场景:法律合同审查、学术文献综述、大型代码库理解、多轮长程对话。
训练技术:FP8 端到端训练
为支撑万亿参数模型的高效迭代,Ling 在开源社区率先实现了万亿参数规模的 FP8 端到端混合精度训练:。
- 相比 BF16 基线,训练吞吐量提升 30%–40%。
- 显著降低 GPU 显存占用,支持更大 Batch Size 与更高的训练并行度。
- 数值稳定性达到生产级标准,Loss 曲线与 BF16 训练保持一致。
选型指南
以下是 Ling 系列不同尺寸的模型的能力对比,供您评估与选型:
| 模型 | 定位 | 上下文 | 工具调用 | API 接入 |
|---|---|---|---|---|
| Ling-2.6-1T | 最新旗舰大模型,支持 1M 上下文长度,打通从逻辑思考到任务落地的全链路 | 1M | ✓ | ✓ |
| Ling-2.6-flash | 最新高性价比模型,激活参数 7.4B,综合性能超越同量级 Dense 模型 | 256K | ✓ | ✓ |
选型建议:
- 对大多数通用场景,推荐从 Ling-2.6-flash 入手——其 MoE 稀疏激活机制在保持强推理能力的同时,大幅降低推理计算开销。
- 需要处理超长文档、复杂多跳推理或 Agent 任务链?选择 Ling-2.6-1T,它依托 MLA 与 Linear Attention 的 Hybrid 架构创新,摒弃繁琐的“慢思考”,以“快思考”机制实现高效推断,仅凭极低 Token 开销直达结果,极致压缩输出成本。
- 对推理延迟与吞吐量敏感的在线服务场景,Ling-2.6-flash 的低激活参数量使其具备更优的 TTFT(首 Token 延迟)与 TPS(每秒 Token 输出)表现。
模型详解
接下来,让我们深入了解每款模型的技术特点与适用场景:
Ling-2.6-1T
Ling-2.6-1T 是 Ling 系列最新一代旗舰大模型,采用 MLA 与 Linear Attention 的 Hybrid 架构,总参数量约 1T,激活参数量约 63B,支持 1M 超长上下文,在旗舰智能与 Token 效率之间实现强平衡。
核心优势:
- 以「快思考」替代冗长思考链,在更低 Token 开销下保持万亿参数的智能。
- 强化编码和 Agent 的能力,在 AIME26、SWE-bench Verified 等执行类基准上达到开源 SOTA。
- 与 Claude Code、OpenCode、OpenClaw 等主流 Agent 框架高度兼容,适配多工具、多步骤、多约束场景。
应用场景:
- 多步任务和智能体协作
- 代码补全、项目交付和缺陷修复
- PPT、报表等数据可视化项目
- 长上下文的知识管理和自动化办公交付
Ling-2.6-flash
Ling-2.6-flash 是 Ling 系列最新一代高性价比模型,采用 MoE 架构,总参数量 104B,激活参数量 7.4B,在推理性能与计算成本之间实现最优均衡。
核心优势:
- 综合基准性能媲美甚至超越 40B 级 Dense 模型。
- 低激活参数量带来更优的推理吞吐量,适合高并发在线服务。
- 支持 256K 超长上下文,具备完整的工具调用与 Agent 协作能力。
应用场景:
- 智能客服与多轮对话系统
- 内容生成与文案创作
- 实时翻译与文本处理
- 推荐系统中的语义理解模块
Ling 的演进历程
Ling 系列经历了从算力适配验证到 Agent 能力突破的完整技术演进:
| 时间 | 版本 | 关键技术突破 |
|---|---|---|
| 2025.03 | Ling 1.0 系列 | 验证 MoE 大语言模型在非高端异构算力平台(非 A100/H100)上的工程可行性,完成国产算力适配 |
| 2025.10 | Ling-1T(2.0 系列) | 首次突破万亿参数规模,引入 FP8 端到端训练,显著提升训练效率并实现跨领域泛化能力 |
| 2026.02 | Ling 2.5 系列 | 实现高吞吐解码优化,长上下文理解能力达到业界领先水平,初步构建 Agent 交互与工具调用基础能力 |
| 2026.04 | Ling 2.6 系列 | 打通逻辑推理至任务执行的完整推理链路,大幅提升”智效比”(单位计算成本下的任务完成能力),开启高性价比可规模化 Agent 时代 |
能力演进路径
Ling 的迭代不仅是参数规模的线性增长,更是核心能力维度的阶梯式跃升:
- Ling 1.0 —— 工程验证:证明 MoE 大模型可在国产算力平台完成高质量训练。
- Ling 2.0 —— 效率突破:FP8 训练体系建立,单卡训练效率显著提升。
- Ling 2.5 —— 上下文建模突破:从短文本理解跨越至超长文档的端到端建模。
- Ling 2.6 —— Agent 能力突破:从单轮问答推进至低成本、可规模化的复杂任务自主执行。
技术生态
基于 Ling 基座模型,我们构建了覆盖训练到部署全链路的技术生态:
- 高性能算子库:开源的高性能训练与推理算子系统,涵盖 MoE 路由、注意力计算等核心组件,支撑从预训练到在线推理的全链路优化。
- 垂直领域专用模型:面向医疗、金融等专业场景的领域适配模型,在领域知识密集型任务上表现更优。
- 开源社区:全部研究成果开源至 Inclusion AI 社区,持续与开发者共建生态。