博客
探索蚂蚁百灵大模型的最新研究成果与技术洞察
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency
蚂蚁百灵正式推出 Ling-2.6-flash——一款总参数量 104B、激活参数 7.4B 的 Instruct 模型。面对持续攀升的 Token 压力,Ling-2.6-flash 选择了一条不同的技术路径:不是单纯依赖更长输出换取更高分数,而是围绕推理效率、Token 效率与 Agent 场景表现进行系统性优化,在保持竞争力智能水平的同时,尽可能做到更快、更省、更适合真实业务场景。
cuLA:用 CUDA 重写线性注意力
cuLA(CUDA Linear Attention)是一套面向线性注意力变体的高性能 CUDA 内核库,专为 GLA、KDA、GDN、Lightning Attention 等新一代注意力机制提供高效实现。
一模四能:从看图到发文,Ming-flash-omni 打通全模态创作闭环
如果你需要模型既能看懂照片里哪里有路人抢镜,又能自己动手把人修掉,还能自己打分判断修得好不好,最后写一段推文介绍自己的作品——你需要几个模型?答案是:一个就够了。
超长上下文训练速度翻倍秘籍
大模型长文本训练是通用人工智能竞争的重要高地。将上下文长度从传统的 4k/8k 扩展到 256k 甚至是 1M,主要面临显存压力和计算效率的双重挑战。我们针对 Ling 2.5 架构的万亿参数预训练模型 Ling-2.5-1T-base 提供了工程化解决方案。
拒绝“AI 味”:我们用 6 个文学维度,重新审视了模型的创意写作边界
本文为「百灵实操系列」,本系列旨在通过分享我们在使用百灵大模型的过程中,所发现的一些好的用例,场景和心得体会,与大家在 AI 时代,一起提升认知和品位。
Ling 2.5 Lightning Attention+MLA 混合线性架构改造实践
在 Ling 2.0 架构的研发过程中,我们通过 Ling Scaling Law [1] 系统性的分析了 MoE 架构高稀疏比、适当的细粒度切分等因素均会带来更优的效率杠杆。因此,我们一方面持续提升 MoE 架构的稀疏度,另一方面通过极致的工程优化来弥补稀疏计算带来的系统瓶颈。
百变人声·身临其境:Ming-flash-omni-2.0 语音生成
百灵多模态团队节前前发布了 Ming-flash-omni-2.0,基于其语音模块,我们新发布了 Ming-omni-tts,通过模型 scale up 实现了更强的效果。不管你是短视频博主配旁白,独立播客创作者想把单人对话变成双人播客,还是想在自己的 openclaw 加个语音对话助手,Ming-omni-tts 16.8B-A3B 和 0.5B dense ,一大一小,总有一款适合你。
Ling-2.5-1T,普惠智能,即时响应
今天,我们发布并开源 Ling-2.5-1T。Ling-2.5-1T 在模型架构、token 效率、偏好对齐等维度全面升级,期待为用户带来更优质的普惠智能体验。
Ring-2.5-1T,思更深,行更远
今天,我们发布并开源首个混合线性架构的万亿参数思考模型 Ring-2.5-1T。相比此前发布的 Ring-1T,Ring-2.5-1T 在生成效率、思考深度、长程执行上均有大幅提升。