热点新闻

编者按：面向AI时代，阿里云基础设施是如何创新与发展的？计算、网络、存储、服务器、集群、可观测等，阿里云全新升级的AIInfra到底有哪些重磅更新？基于阿里云副总裁、弹性计算和存储产品线负责人吴结生在2024云栖大会上的演讲，本文详解阿里云在AI时代的数字基础设施大布局和新进展。

AI时代需要什么样的云基础设施？

云计算一直在践行 Scaling Law，为千行百业的数字化升级提供大规模可扩展的算力、存力及网络等资源，满足客户业务规模的扩展、AI 模型的扩展等需求。云计算让AI变得更普惠，帮助客户在云上更加容易使用 AI 技术。

目前，中国有超过 50% 的大模型公司跑在阿里云上，80% 的科技企业运行在阿里云上。AI 发展对云基础设施提出了新要求：

首先，AI 负载对计算提出了更大需求。一些前沿的大模型训练，每一年对算力需求的增长大概有 4-5 倍。比如 Llama-3.1-405B，对算力的需求较 Llama2.0 提升了 50 倍。IDC 数据也显示，最近几年中国智算的算力复合增长率为 33.9%。

其次，AI 负载对存储也提出了更高的需求。随着模型参数每年 10 倍增长，模型的数据集每年达到 50 倍增长，都需要更高性能的存力。

在模型训练过程里面，需要不停去打一些 Checkpoint，大小从几GB到几十GB，再到今天的几十TB，频率从小时或者几十分钟，到现在可能每一分钟就要打一个 Checkpoint。同时，大模型文件不断更新，怎么样在一个大规模的环境里面去分发和同步这些模型文件，对整个存储提出了更高的要求。

所以，随着AI技术的发展，云计算跟 AI 更紧密地融合，对阿里云基础设施提出了更高的要求。作为一个新形态的阿里云的基础设施，要具备三个特征：

第一，大规模、高性价比的 AI 基础设施，满足训练和推理需求。

第二，高性能、高可用的基础设施，实现业务的发展，保障业务的连续性。

第三，更易用、更智能的基础设施，提高开发效率和运维效率。

AI Infra要大规模、高性价比

阿里云构建了完整的 AI 基础设施，来满足训练和推理的规模化发展需求：

计算、存储、网络和安全等产品和服务，是坚实的基础；在此之上，通过先进的容器化技术进行算力的编排和管理；进而，通过 AI 智算平台 PAI 来进行任务调度、编译优化，实现弹性扩展、容错以及迁移等能力，打造完整的阿里云 AI 技术服务栈。

在这个服务栈里面，阿里云进行了全栈优化，以提升系统稳定性和计算效率，整体AI基础设施的连续训练有效时长达到 99%，处于业界领先水平。

同时，通过通信、编译、显存使用等方面的优化来提升 GPU 使用的效率，整个 GPU 的使用效率 MFU（Model FLOPs Utilization）提升了 20% 以上。

为支撑大规模的模型训练和推理，阿里云打造了灵骏超级智算集群，主要包含四个重要组件：灵骏计算集群、HPN 高性能网络、磐久 AI 计算服务器，以及 CPFS 高性能存储集群。

灵骏计算集群提供可扩容到 10 万张 GPU 卡规模的能力，同时在万卡的规模下性能线性增长率达到了 96%，性能网络吞吐的有效使用率也达到了 99%。基于CPFS，灵骏可提供 20TB/S 的超高吞吐并行存储能力。

灵骏集群采用了 HPN7.0 网络架构。HPN7.0 架构是一个多轨和多平面的网络设计，可以支持单集群扩展到 10 万张卡的规模，并提升 GPU 计算效率。每台机器通过 3.2Tb/s 的高性能 RDMA 网络连接，保障了在大规模 GPU 集群联合的计算效率的提升。

同时，阿里云做了一系列网络方面的创新和优化，比如自研的 Solar RDMA 协议，提供了自适应的多路径的选择；自研 HPCC 的流控算法；网卡的自研和通信库的优化等等。通过这一系列网络的优化，实现在训练过程中最关键的集群通讯能力 1 倍的提升、对端到端的训练整体的性能提升 10% 以上的效果。

新升级磐久 AI 计算服务器。最新的磐久 AI 计算服务器支持 8 张或者 16 张 GPU 卡，每个服务器里面也配备了 3.2Tb/s 的 RDMA 网络能力，提供高性能网络，来形成一个超大规模的紧耦合的计算，提升 GPU 计算效率。

并且，每一台服务器还配有另外一张 400Gb/s 的网卡，来保障高效的访问存储以及通过 VPC 访问其他的云产品。

能效方面，磐久服务器使用了超钛金电源，能效比达到了 97%。同时，还研发一系列 AI 算法去预测 GPU 故障，故障预测准确率达到了 92%。通过这些努力，可实现主动性运维或者迁移，从而达到连续训练有效时长超过 99% 的高水平。

CPFS 端到端全链路性能提升。借助400Gb/s网卡以及RDMA通信的能力，CPFS可提供单个客户端25GB/s吞吐，支持更大及更加频繁的Checkpoint的写，这可以更好地防止数据丢失，并提升训练的稳定性和可靠性。

同时，CPFS 在计算侧构建了一个分布式缓存系统进行加速。在后端则提供了 400MB/s/TiB 并行扩展能力，性能随着容量的扩展而线性扩展，在一个超大集群里可整体提供 20TB/s 的吞吐能力，这样使得在大模型训练里面可以更快打 Checkpoint，或者更快读 Checkpoint，以降低意外中断对模型训练的整体影响。

另外，在今天多模态的训练里面，可能有大量的训练和推理数据在 OSS 里面，比如说客户的图片、视频。CPFS 既提供了相应的文件接口，同时也提供与 OSS 之间高效的数据流动能力，通过冷热数据分层进一步为客户节省成本。

云计算要高性能、高可用

对企业而言，云基础设施更是保障业务连续性的关键。阿里云以高性能、高可用为目标，持续夯实基础设施。

CIPU2.0全新升级

CIPU（Cloud Infrastructure Processing Unit）云基础设施处理器，是云的产物，是一个云技术发展的创举。从2017年开始阿里云就进行了探索，CIPU 成为阿里云基础设施的基石，也是差异化竞争力的一个来源。

最新发布的 CIPU2.0，在安全、稳定性、性能等方面全面提升。

首先，CIPU2.0 整机稳定性提升 20%，让服务器更加稳定；其次，CIPU2.0 的带宽从 1.0 的 200Gb/s 上升到 2.0 的 400Gb/s，大幅提升 VPC 和 eRDMA 的能力，使得应用在云上更加高效运行；同时，EBS 存储达到了 360 万 IOPS，从 1.0 的 100 万上升到 360 万，整体的吞吐也从原来的 20GB/s 上升到 50GB/s，处在业界领先水平。

并且，CIPU2.0 也全方位提升弹性计算的安全能力。CIPU2.0 支持了多种可信任根，同时提供数据硬件加密能力，比如 VPC 通信可以通过 CIPU2.0 加密，在整个数据中心里面数据都是加密的，而访问 EBS 的数据也是通过 CIPU2.0 进行了加密。在这之上，CIPU2.0 提供了整个可信的信任链以及可信的运行环境。

此外，CIPU2.0 应用在 GPU 服务器里可提升推理效率，通过网络和存储等能力的增强，跨机推理效率也会相应提升。

ECS九代企业级实例发布

在通用计算领域，阿里云与英特尔、AMD 紧密合作，基于最新芯片，融合CIPU2.0 的架构，即将发布第九代 ECS 企业实例。与第八代英特尔实例相比，第九代 g9i 实例在 Web 应用领域性能提升了 20%，在数据库领域性能提升了17%；与第八代 AMD 实例相比，第九代 g9a 实例在大数据场景领域里面提升了 20%，在搜索和推荐里面场景里面提升 30%。

除了 X86、英特尔和 AMD 实例以外，阿里云也不断在发展 ARM 实例，基于 ARM 的平头哥倚天 710 服务器芯片进行全栈优化，使得倚天在若干个典型场景里面获得性能优势。比如在大数据处理 Spark 场景下，倚天实例与第八代 X86 性能相比有 14% 的性能优势；在视频转码领域，有 30% 的性能优势。

容器计算为AI加速

容器改变了整个软件开发和部署的方式，成为一个新的开发范式。阿里云提供 ACS 容器计算服务以及 ACK 容器服务，帮助客户构建、部署和管理容器化的应用。

容器计算服务 ACS 是阿里云的一个创新，以 K8S 为用户界面，提供了一个Serverless 的容器服务。

ACS 提供更加弹性的和柔性的计算的实例规格，比如可以从 0.5 个 vCPU 这样一个小规模开始，以一个比较小的步长递进，从而更加贴近应用负载需求、降低成本；其次，创新支持 CPU 原地的热变配，比如说当你的应用负载下降的时候，相应的资源可动态下降达到既保障性能又降低成本的效果。

ACS 的弹性能力也进行了进一步的扩展，每分钟可以进行 1 万个 Pod 扩展。除了按量付费以外，阿里云还提供了按天的节省计划，费用最多可节省 50% 以上。除此之外，今年年底，阿里云将提供基于 GPU 的 ACS 容器计算服务，进一步提升 GPU 的使用效率，降低成本，提高开发和运维的效率。

ACK 容器服务能力全面升级。首先结合分布式缓存 Fluid，以及 ACI 容器镜像服务 P2P 分发能力，大规模训练冷启动时间降低 85% 以上。容器服务也深度集成了 ECS 的弹性 RDMA 的能力，总体上容器网络的吞吐提升了 30%。通过 ACK 扩展节点进行了一系列优化，弹性扩容的效率提升了 25%。同时，优化 K8S 管控链，整体上 ACK 可以去管控 15,000 个计算节点的规模。

存储面向AI深度优化

在存储领域，阿里云对象存储 OSS 面向不同计算引擎、面向多种 AI 框架进行了深度的集成，形成了统一的存储。

OSS 对象存储上跑有 2 万多个数据湖，可支持十余个不同的计算引擎及 AI 框架。OSS 提供不同类型的冷、热、归档存储，并提供自动的 Lifecycle（生命周期的管理）实现数据流转，实现成本优化。除此之外，OSS 针对 AI 及机器学习进行大量优化，并与大量开源分析引擎、阿里云分析产品等进行集成，实现了高性能和简单方便的集成。

面向 AI/ML 负载，OSS 进一步优化，并推出 4 个不同的能力：

第一，升级了整体上 SDK 的能力，特别对 Python 和 Go 语言的 SDK，性能提高 30 倍以上；

第二，OSS 通过 OSSFS 提供了一个文件接口的访问，直读模式性能提升了 3~6 倍，给中小模型文件的训练或者推理提供一个很好的选择；

第三，在 OSS 服务端提供 OSS 加速器，能够把一些热的数据放到 OSS 加速器里面，可以分发到更多的机器上面去；

第四，OSS 也做了很多 AI 框架的连接器，能够让更多数据的预处理、数据的打标、小模型的训练和推理变高效。

随着 AI 技术和应用的发展，使用 OSS 的模式发生了改变，OSS 全新推出资源池 QoS 能力。一个常见的场景是客户有多种不同的数据，分布在不同的存储桶（Bucket）里面，被多个业务方共享。这里需要提供多个桶之间性能的共享，但同时又保障不同业务的性能的隔离。

OSS 提供了资源池 QoS 功能，一方面多个存储桶形成一个资源池，共享叠加的性能；另一方面，灵活配置 QoS 策略，降低各个业务之间的相互影响。

高性能网络持续演进

在云网络方面，稳定的高性能至关重要，阿里云是如何破解高性能的稳定性难题的？这里重点介绍一个跨区域的主动式重路由的技术。

当网络通信有扰动产生时，系统会主动监测出来，然后去把它重新路由到另外一条路径上去。去年阿里云发布了跨区域的主动式重路由技术。现在，这一技术已运用到跨数据中心的通信里面来，从而在跨数据中心通信上，实现秒级内重新路由，提供一个更加稳定的网络通信延迟。

让基础设施更易用、更智能

云计算既为企业提供服务，同时也为开发者设计，用户的开发体验、开发效率、运维效率至关重要。阿里云不断演进基础设施、产品和服务，使其更易用、更智能。

控制台是用户上云第一入口。近年来，阿里云在控制台操作的简易性、效率等方面作了大量优化，让用户在使用控制台的时候有更好的体验。同时，推出多种 AI 助手，进行智能推荐和智能问答。此外，还提供了 Infrastructure as Code 等能力，通过构建更多的 Cloudops 工具，来帮助客户提升部署、管理和运维的效率。

对企业和开发者而言，会非常关心两件事情：第一件事情是自己的应用跑得怎么样？第二件事是使用阿里云的产品和服务，性能、容量、规模到底怎么样？这是可观测性的关注重点。通过一系列的 CloudLens 的服务，阿里云帮助客户分析可用性、性能、成本、容量、安全等，从而提升运维效率、提高业务系统稳定性、降低成本。

一文详解阿里云AI大基建

相关推荐