博客

探索蚂蚁百灵大模型的最新研究成果与技术洞察

2026.4.23
模型发布

Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

蚂蚁百灵正式推出 Ling-2.6-flash——一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。面对持续攀升的 Token 压力,Ling-2.6-flash 选择了一条不同的技术路径:不是单纯依赖更长输出换取更高分数,而是围绕推理效率、Token 效率与 Agent 场景表现进行系统性优化,在保持竞争力智能水平的同时,尽可能做到更快、更省、更适合真实业务场景。

2026.4.8
技术分享

cuLA:用 CUDA 重写线性注意力

cuLA(CUDA Linear Attention)是一套面向线性注意力变体的高性能 CUDA 内核库,专为 GLA、KDA、GDN、Lightning Attention 等新一代注意力机制提供高效实现。

2026.4.7
用户案例

一模四能:从看图到发文,Ming-flash-omni 打通全模态创作闭环

如果你需要模型既能看懂照片里哪里有路人抢镜,又能自己动手把人修掉,还能自己打分判断修得好不好,最后写一段推文介绍自己的作品——你需要几个模型?答案是:一个就够了。

2026.3.3
技术分享

超长上下文训练速度翻倍秘籍

大模型长文本训练是通用人工智能竞争的重要高地。将上下文长度从传统的 4k/8k 扩展到 256k 甚至是 1M,主要面临显存压力和计算效率的双重挑战。我们针对 Ling 2.5 架构的万亿参数预训练模型 Ling-2.5-1T-base 提供了工程化解决方案。

2026.2.28
用户案例

拒绝“AI 味”:我们用 6 个文学维度,重新审视了模型的创意写作边界

本文为「百灵实操系列」,本系列旨在通过分享我们在使用百灵大模型的过程中,所发现的一些好的用例,场景和心得体会,与大家在 AI 时代,一起提升认知和品位。

2026.2.26
技术分享

Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践

在 Ling 2.0 架构的研发过程中,我们通过 Ling Scaling Law [1] 系统性的分析了 MoE 架构高稀疏比、适当的细粒度切分等因素均会带来更优的效率杠杆。因此,我们一方面持续提升 MoE 架构的稀疏度,另一方面通过极致的工程优化来弥补稀疏计算带来的系统瓶颈。

2026.2.18
模型发布

百变人声·身临其境:Ming-flash-omni-2.0 语音生成

百灵多模态团队节前前发布了 Ming-flash-omni-2.0,基于其语音模块,我们新发布了 Ming-omni-tts,通过模型 scale up 实现了更强的效果。不管你是短视频博主配旁白,独立播客创作者想把单人对话变成双人播客,还是想在自己的 openclaw 加个语音对话助手,Ming-omni-tts 16.8B-A3B 和 0.5B dense ,一大一小,总有一款适合你。

2026.2.16
模型发布

Ling-2.5-1T,普惠智能,即时响应

今天,我们发布并开源 Ling-2.5-1T。Ling-2.5-1T 在模型架构、token 效率、偏好对齐等维度全面升级,期待为用户带来更优质的普惠智能体验。

2026.2.13
模型发布

Ring-2.5-1T,思更深,行更远

今天,我们发布并开源首个混合线性架构的万亿参数思考模型 Ring-2.5-1T。相比此前发布的 Ring-1T,Ring-2.5-1T 在生成效率、思考深度、长程执行上均有大幅提升。

2026.2.11
模型发布

感知无界·创造有形:百灵全模态 Ming-flash-omni-2.0 焕新生活想象

马年将至,百灵 Ming-flash-omni-2.0 正式焕新登场!在这个辞旧迎新的时刻,让我们先请出 Ming-flash-omni-2.0 为大家送上一份特别的“马年祝福”!

2026.1.29
用户案例

Clawdbot,万能助手还是工具胶水?拆解本周最火的通用 Agent 架构

我们将抛开社交媒体的滤镜,看看这个爆火项目究竟验证了什么?它的架构精髓在哪里?另一方面,如果你也想构建一个真正好用的通用 Agent,它的「万能公式」到底是什么?