Ling

Ling 是蚂蚁集团自主研发并开源的通用大语言模型系列，基于 MoE（混合专家）架构构建，历经国产异构算力平台适配验证、万亿参数规模突破，持续迭代至长上下文建模与 AI Agent 协同推理能力。

为什么选择 Ling？

Ling 系列在推理效率、长上下文建模和训练技术三个维度实现了关键突破：

传统 Dense 模型在推理时需激活全量参数，计算开销与模型规模成正比。Ling 采用 MoE 架构，每个 Token 仅路由激活最相关的专家子网络，从而在保持大规模模型容量的同时，将实际计算量压缩至极小比例。

在 MoE 高效推理基础上，Ling 2.6 系列在长序列建模上进一步突破。

典型应用场景：法律合同审查、学术文献综述、大型代码库理解、多轮长程对话。

为支撑万亿参数模型的高效迭代，Ling 在开源社区率先实现了万亿参数规模的 FP8 端到端混合精度训练：。

以下是 Ling 系列不同尺寸的模型的能力对比，供您评估与选型：

模型	定位	上下文	工具调用	API 接入
Ling-2.6-1T	最新旗舰大模型，支持 1M 上下文长度，打通从逻辑思考到任务落地的全链路	1M	✓	✓
Ling-2.6-flash	最新高性价比模型，激活参数 7.4B，综合性能超越同量级 Dense 模型	256K	✓	✓

选型建议：

对大多数通用场景，推荐从 Ling-2.6-flash 入手——其 MoE 稀疏激活机制在保持强推理能力的同时，大幅降低推理计算开销。
需要处理超长文档、复杂多跳推理或 Agent 任务链？选择 Ling-2.6-1T，它依托 MLA 与 Linear Attention 的 Hybrid 架构创新，摒弃繁琐的“慢思考”，以“快思考”机制实现高效推断，仅凭极低 Token 开销直达结果，极致压缩输出成本。
对推理延迟与吞吐量敏感的在线服务场景，Ling-2.6-flash 的低激活参数量使其具备更优的 TTFT（首 Token 延迟）与 TPS（每秒 Token 输出）表现。

接下来，让我们深入了解每款模型的技术特点与适用场景：

Ling-2.6-1T 是 Ling 系列最新一代旗舰大模型，采用 MLA 与 Linear Attention 的 Hybrid 架构，总参数量约 1T，激活参数量约 63B，支持 1M 超长上下文，在旗舰智能与 Token 效率之间实现强平衡。

核心优势：

应用场景：

Ling-2.6-flash 是 Ling 系列最新一代高性价比模型，采用 MoE 架构，总参数量 104B，激活参数量 7.4B，在推理性能与计算成本之间实现最优均衡。

核心优势：

应用场景：

Ling 系列经历了从算力适配验证到 Agent 能力突破的完整技术演进：

时间	版本	关键技术突破
2025.03	Ling 1.0 系列	验证 MoE 大语言模型在非高端异构算力平台（非 A100/H100）上的工程可行性，完成国产算力适配
2025.10	Ling-1T（2.0 系列）	首次突破万亿参数规模，引入 FP8 端到端训练，显著提升训练效率并实现跨领域泛化能力
2026.02	Ling 2.5 系列	实现高吞吐解码优化，长上下文理解能力达到业界领先水平，初步构建 Agent 交互与工具调用基础能力
2026.04	Ling 2.6 系列	打通逻辑推理至任务执行的完整推理链路，大幅提升”智效比”（单位计算成本下的任务完成能力），开启高性价比可规模化 Agent 时代

Ling 的迭代不仅是参数规模的线性增长，更是核心能力维度的阶梯式跃升：

基于 Ling 基座模型，我们构建了覆盖训练到部署全链路的技术生态：

Was this page helpful?