摩尔线程业绩“狂飙”，国产GPU赛道跑出了一匹快马

4月24日，DeepSeek发布了新一代大模型V4，旗舰版本Pro的参数量达到1.86万亿。

这个模型有一个被行业广泛关注的技术细节，即它是第一个采用FP4+FP8混合精度策略进行训练的大模型。

FP8是一种比目前主流的BF16位宽更低、但计算效率更高的精度格式，用FP8计算，显存带宽压力可以降低50%，理论计算吞吐量可以翻倍。

对AI芯片厂商来说，能不能原生支持FP8，直接决定了能不能高效运行这一代大模型。目前国内大多数AI芯片的主力计算精度还在BF16，要运行FP8格式的计算任务，需要额外做一层精度转换，效率会打折扣。

摩尔线程（688795.SH）的旗舰产品MTT S5000是国内率先原生支持FP8的全功能GPU，配置了硬件级FP8 Tensor Core加速单元，能够更高效承载 DeepSeek-V4 的前沿精度设计。

DeepSeek-V4发布当天，摩尔线程在MTT S5000上率先完成了适配，并在魔搭社区上线了部署镜像。

大模型训练对芯片的要求是算力和精度，但AI的应用场景不止于此。

比如在具身智能领域，训练一个机器人，需要芯片同时处理AI推理和仿真计算，关节如何转动、碰到障碍物的反作用力有多大、失去平衡后如何恢复。

仅有AI加速能力的芯片，做不了这件事。

近期，摩尔线程开源了MuJoCo Warp MUSA，宇树科技的G1人形机器人用它完成了从仿真训练到真机部署的全流程，G1的训练在云端就是用MTT S5000完成。而在真机部署阶段，机器人本体则可以采用摩尔线程自研的“长江”SoC芯片作为端侧控制核心。

再加上3月签下的一笔6.6亿元智算集群订单，摩尔线程在2026年一季度展示出来的，是全功能GPU在多个方向上同时落地的能力。

全功能GPU，是指一颗芯片同时具备AI计算加速、图形渲染、物理仿真与科学计算、超高清视频编解码等能力。全球范围内具备这种量产能力的GPU厂商屈指可数，英伟达是其中之一，在国内，摩尔线程是极少数实现全功能GPU量产的厂商。

4月26日，摩尔线程披露了2025年年报和2026年一季报。

2025年全年营收15.05亿元，同比增长243.37%，毛利率65.57%；2026年一季度的表现更为“炸裂”，当季实现营收7.38亿元，同比增长155.35%，归母净利润0.29亿元，同比增加1.42亿元；归母扣非净利润亏损0.54亿元，亏损同比收窄60.10%。单季营收已接近2025全年的一半，利润表现也在持续改善。

这家2020年成立的公司，五年推出了五代自主芯片架构——苏堤、春晓、曲院、平湖、花港。2025年全年研发投入13.05亿元，2026年一季度投入3.69亿元，比去年同期增加了将近50%。

持续高强度的研发投入，支撑着摩尔线程保持每年迭代一代芯片架构的节奏，对于摩尔线程而言，全功能GPU这条技术路线，正在从投入期进入收获期。

全功能GPU的市场正在打开

2025年，摩尔线程97%的收入来自云端产品线，金额14.61亿元，同比增长250.30%。2022到2024年，营收复合增长率超过200%。整体毛利率65.57%，2026年一季度进一步提升至约67%。

云端收入的核心支撑，是以MTT S5000为中心的智算集群业务。

先看单卡部分，MTT S5000的单卡AI稠密算力为1000 TFLOPS，配备80GB显存和1.6TB/s显存带宽，卡间互联带宽约800GB/s，支持FP8到FP64全精度计算。

但在大模型时代，单卡只是集群的一个零件。训练一个千亿参数以上的大模型，需要把数千甚至上万张卡通过高速网络连起来，让它们像一台机器一样协同工作。

这些卡之间需要持续交换大量数据，任何一张卡出现故障，整个训练任务都可能中断。能做出一张性能不错的GPU卡，和能把上万张卡组织成一个长期稳定运行的系统，是两件完全不同的事情。

MTT S5000已经实现规模化量产，并成为摩尔线程智算集群产品的核心算力单元。从千卡级部署到万卡级集群，再到基于花港架构规划的十万卡级扩展，摩尔线程的集群能力正在逐级放大。

摩尔线程是国内率先完成万卡级智算集群商业化部署的GPU厂商，基于MTT S5000搭建的夸娥万卡集群，可支持万亿参数大模型的端到端训练，根据年报披露，该集群浮点运算能力达到10 Exa-Flops，Dense大模型训练的算力利用率（MFU）达到60%，MoE大模型训练达到40%，训练线性扩展效率95%，有效训练时间占比超过90%。

大规模集群在长时间运行中，硬件故障几乎不可避免。

传统的处理方式是中断训练、排查故障、恢复数据、重新启动，一次故障可能浪费数小时的计算资源。摩尔线程为此开发了夸娥万卡训练容错系统，可以在不修改训练代码的情况下实现故障在线诊断和快速恢复，将有效训练时间的占比维持在90%以上。

2026年3月签下的6.6亿元夸娥集群订单，金额接近2025年全年营收的一半，是这套集群方案商业化能力的直接体现。

再往外看，摩尔线程还在向边缘和终端市场延伸。

其中，自研SoC芯片“长江”集成了CPU、全功能GPU和NPU（神经网络处理器）三种异构算力，AI算力达到50 TOPS。基于“长江”推出的MTT AIBOOK算力本已上架京东平台，这是一款面向AI开发者的终端设备，预装OpenClaw及12个精选Skills，以及完整的MUSA开发工具和端侧大模型，支持智能体的本地化部署和运行。

边缘与终端产品线目前的收入只有2550万元，和云端的14.6亿元相比还很小。

但这条产品线的意义在于，全功能GPU的应用场景正在从数据中心向外延伸，覆盖了从云到端的完整链路。

眼下，摩尔线程面向未来的下一代产品也已就位。

2025年12月，摩尔线程发布了第五代芯片架构“花港”，算力密度较上一代提升50%，能效提升10倍，支持FP4到FP64全精度计算，并通过自研的MTLink高速互联技术，支持十万卡以上规模的智算集群扩展。

基于“花港”架构，摩尔线程将推出两款芯片：“华山”面向AI训推，“庐山”专攻图形渲染。根据摩尔线程在首届MUSA开发者大会上披露的数据，“庐山”的AI计算性能较上一代提升64倍，光线追踪性能提升50倍，并完整支持DirectX 12 Ultimate。“华山”则支持多种互联协议，不限于自研的MTLink，也可以兼容国内其他厂商的协议，最高支持1024片的超节点扩展。

围绕MUSA建生态

GPU行业有一条被反复验证的市场规律，芯片性能决定产品能不能卖出去，软硬件生态决定这门生意能不能持续做下去。

英伟达的CUDA平台是理解这件事最直接的参照。

CUDA 2007年发布，至今迭代了近二十年，积累了千百万开发者，CUDA是一套覆盖编程模型、编译器、算子库、调试工具和开发框架的完整软件体系，它让开发者用通用编程语言就能调用GPU的并行算力，不需要深入了解芯片底层的具体架构。

更关键的一点是，开发者基于CUDA写的程序，可以在英伟达不同代际的芯片上运行。当主流AI框架和大模型都优先基于CUDA开发之后，其他芯片厂商面临的挑战就不只是硬件性能，还有开发者的迁移成本。

迁移成本高，不代表没有办法降低，思路之一是，新平台主动兼容CUDA的编程模型，让开发者尽可能少改代码就能切换过来。

摩尔线程自研的MUSA架构，走的就是这条路。

目前国内大多数GPU厂商走的是GPGPU或ASIC路线，产品主要面向AI加速这一个方向，配套的软件栈通常只覆盖AI训练和推理场景。

摩尔线程的MUSA是国内目前唯一一套同时覆盖AI计算、物理仿真、图形渲染、视频编解码和科学计算等的全栈软件体系，也是国内兼容性做得最接近CUDA的系统架构。

MUSA的全称是“元计算统一系统架构”（Meta-computing Unified System Architecture）。

它不只是一颗芯片的设计方案，而是一套从底层到上层的完整技术体系：最底层是基于MUSA架构设计的全功能GPU芯片，中间层是包含驱动、编译器、算子库和开发工具在内的软件栈，最上层是基于MUSA开发的应用和开发者生态。

MUSA和CUDA采用兼容的编程模型。

开发者可以通过摩尔线程自研的MUSIFY工具，将基于CUDA编写的代码迁移到MUSA平台上运行。目前，MUSA已原生适配PyTorch、Megatron-LM、vLLM、SGLang等主流AI框架。

兼容CUDA解决的是开发者迁移的问题。

但要让开发者真正留下来，还需要解决另一个问题，代码的跨代兼容。

在GPU领域，有一个长期存在的痛点，开发者在当前这代芯片上写的程序，换了下一代芯片可能就无法运行，需要重新做适配。

每换一代芯片就重写一遍代码，这个成本会劝退很多开发者。

英伟达在2007年通过一套叫PTX的中间语言解决了这个问题，有了PTX之后，开发者写的代码会先被编译成PTX格式的中间指令，再由驱动程序翻译成具体某一代芯片能执行的指令。不管底层芯片怎么换代，开发者的代码都不需要重写。

2025年12月，MUSA 5.0发布了一项对标PTX的新技术，中间语言MTX。摩尔线程是国内第一家做中间语言的GPU厂商。

根据摩尔线程在首届MUSA开发者大会上的介绍，MTX计划在2026年上半年向开发者开放。

中间语言解决的是长期的问题。

在短期，生态能力最直观的体现是适配速度，一个新的大模型发布之后，芯片厂商多快能完成适配，直接决定了下游客户多快能用上这个模型。

2026年以来，摩尔线程对主流大模型的Day-0适配已经形成了稳定节奏，所谓Day-0适配，是指大模型发布当天就完成适配。

4月8日智谱GLM-5.1发布，当天适配完成。GLM-5.1是智谱迄今参数规模最大的旗舰模型，支持在单次任务中独立、持续工作超过8小时，对芯片的长上下文处理和持续推理能力要求很高。4月12日MiniMax M2.7发布，当天适配完成。4月24日，DeepSeek-V4发布，面对Deepseek-V4这类对底层精度能力、算子支持、编译优化与推理效率提出更高要求的先进模型，摩尔线程依托MTT S5000原生FP8能力与完善的软件生态，在同一天通过三条独立路径实现 Day0适配，进一步验证了国产GPU平台对前沿模型的快速承载能力。

在推理性能上，摩尔线程联合硅基流动，在DeepSeek R1 671B满血版上做到了MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s。

此外，TileLang-MUSA目前已成为TileLang官方主线版本，单元测试覆盖率超过95%。TileLang是一种面向GPU的编程语言，进入官方主线意味着摩尔线程的代码贡献已经被上游开源社区正式接纳，其他开发者可以直接使用。

适配大模型之外，摩尔线程的生态建设还在向具身智能方向延伸。

训练一个机器人，首先需要在仿真环境中完成大量的模拟训练，然后把训练好的策略部署到真机上执行。MuJoCo是机器人领域广泛使用的仿真引擎，由DeepMind维护。此前，MuJoCo的GPU加速版本只支持英伟达等国际厂商的芯片。摩尔线程为MuJoCo增加了MUSA架构的原生支持，并在3月30日将这项工作开源。

在宇树Go2四足机器狗的训练中，MTT S5000单卡同时处理4096个仿真环境，耗时7到8秒，较多核CPU加速约40倍。分布式GPU加速测试中，8卡训练收敛加速达到8倍以上，32卡最快约3.6小时完成训练。

截至目前，摩尔学院平台汇聚超过45万名开发者和学习者，覆盖全国200多所高校，2025年12月，摩尔线程举办了首届MUSA开发者大会，吸引海内外数千名产学研领域的专业人士和开发者参与。

根据年报披露，截至2025年底，摩尔线程研发团队1009人，占全部员工的79.2%，其中77.21%拥有硕士及以上学历。截至2025年底，累计专利申请2014项，其中发明专利1743项，累计授权806项。

弗若斯特沙利文预测，中国AI芯片市场规模将从2024年的1425亿元增长至2029年的1.3万亿元，年均复合增速54%。

未来拉动AI芯片增长的力量，将来自多个领域，而且每个领域对AI芯片的要求都在变得更复杂。

具身智能领域，训练一个机器人需要在仿真环境中模拟重力、摩擦力、碰撞等运动规律，再把训练好的策略部署到真机上执行，整个流程要求芯片同时具备AI推理和仿真计算的能力。

AI Agent领域，智能体需要在手机、PC或边缘设备上本地运行大模型，同时调用摄像头、麦克风等硬件完成感知和交互，对芯片的要求是在有限功耗下同时完成AI计算和多媒体处理。数字孪生领域，把一座工厂或一座城市在虚拟空间中实时还原，需要芯片同时完成三维场景的渲染和AI驱动的数据分析。

这些场景对芯片的要求高度一致，一颗芯片要能算、能渲染、能做仿真。

只会做AI加速的芯片，只能覆盖其中一部分需求。而全功能GPU从设计之初，就是为了同时满足这几类计算任务而存在的。

在国内，走这条路线并实现量产的公司，目前只有摩尔线程一家，1.3万亿元的市场还在展开，全功能GPU的收获期才刚刚开始。