如何挑选AI伺服器电源供应器(PSU)?AI Server电源供应器解决方案
随着AI技术的迅速发展和普及,伺服器市场在最近几年裡已经产生了巨大变化。在OpenAI推出ChatGPT后,带起了语言模型、智能聊天机器人的风潮,而Chatgpt背后的运算是依赖强大的「AI Server(伺服器)」,从而让AI伺服器市场开始受到重视。
AI伺服器是甚麼?
AI伺服器是一种特殊设计和优化过的伺服器,这些伺服器可能会有一或多个高效能的GPU(图形处理单元)或专用AI加速器,如Google的Tensor Processing Units (TPU) 或 NVIDIA的AI加速卡等。这些硬体设备為AI应用提供了大量的并行处理能力。软体也是AI伺服器的重要组成部分。这可能包括专為AI和机器学习工作负载优化的作业系统,以及支援AI框架(如TensorFlow,PyTorch等)的程式库和工具。
為甚麼需要AI伺服器?AI伺服器应用
我们需要AI伺服器因為人工智慧(AI)的计算需求非常高。AI伺服器提供了专门优化的硬体与软体以存储和处理庞大数据,从而支援AI模型的训练与运行。AI伺服器的应用范围非常广泛,如图像和语音识别,自然语言处理,预测分析,个性化推荐系统,自动驾驶(影像辨识),医疗领域(智能诊断等)。
AI伺服器和一般伺服器差异
目前最新规格的 AI 伺服器,每台至少消耗高达 6000 瓦功率,数据中心的能源消耗更佔全球能源使用量的 2% 左右,不过 AI 伺服器的能源利用效率比一般伺服器更高、更环保,在模型训练、AI 推论 (Inference)、生成式 AI (GAI, Generative AI) 等应用上,处理速度更是大幅领先。训练 AI 模型背后的大型语言模型包含了十亿至千亿参数,今年(2024)可望突破万亿参数等级,AI 伺服器将是推动技术进展的关键角色。
AI 伺服器与一般伺服器的主要差异在於设计和用途,一般伺服器主要用於储存数据、执行程式、网络服务等,而 AI 伺服器的目的是专门為了满足人工智慧训练与运用,相较於一般伺服器,AI 伺服器配备了更强大的 CPU、GPU 或其他客製化加速器等,让 AI 伺服器拥有更强大的运算能力、大容量记忆体存储空间、高网路频宽与低延迟等特性,并且配备先进的热管理技术,以及超高效率的电源模组,究竟 AI 伺服器(AI Server)与过去传统使用的一般伺服器(General Server)还有哪些差别呢?我们进一步以表格进行比较。
The differences between AI servers and general servers can be summarized as follows |
|||
---|---|---|---|
|
General Server |
Entry-level Accelerated Server |
High-end Accelerated Server |
Workload |
Traditional Machine Learning |
Inference, Generative AI |
Inference, Training |
CPU |
1 or 2 CPUs |
1 CPU |
2 or more CPUs |
Accelerator |
CPU Built-In |
1-4 GPUs or other custom accelerators. |
4~10 GPUs or other custom accelerators. |
Memory |
Registered DDR Memory |
Registered DDR Memory+GDDR VRAM |
Registered DDR Memory+ HBM |
Network Transfer |
10 or 25 Gbps Ethernet |
100+ Gbps Ethernet |
400+ Gbps Ethernet NIC, Infiniband |
Power Module |
1300W~2000Wx2 |
2000Wx3 or 3000Wx4 |
3000Wx6 |
目前主流的 AI 伺服器為 NVIDIA 的 H100,採用 Hopper GPU 架构,為第九代资料中心 GPU,可以达到上一代 A100 效能的 30 倍,非常适合用来训练大型语言模型,不过其能耗也极為惊人,根据国际能源署(IEA)估计,训练一个 AI 模型使用的电量比 100 个家庭一年用电量还多,显示未来资料中心将成為用电大户。而 AI 伺服器重视系统可用性,若训练时电力中断,将导致成果流失,因此 AI 伺服器上,需配备多个高功率的电源模组并联使用,确保伺服器运作不中断。
FSP在高功率的电源模组开发已有多年经验,产品线可支援传统一般伺服器以至於最新的AI加速伺服器。也有多个品牌伺服器已经採用FSP产品。FSP电源模组採用全数位 (Full Digital) 设计,效率表现均达80PLUS鈦金级 (80PLUS Titanium)标準。当电源模组并联使用时,可以支援高阶AI伺服器,4~10个GPU同步运作,在满足AI算力需求的同时,极大程度达到节能的效果。
未来,在AI加速运算的领域,我们将继续看到更多创新迭代产品和新的架构发表,以支持人工智慧领域的持续发展。这些新技术将使计算变得更加高效,当然GPU功耗也必然持续增加,对电源模组的需求也会更多。FSP持续关注业界趋势以及推出对应产品。如果您想要了解更多相关讯息,请至 https://www.fsp-group.com/cn/product/IPCPSU.html。
AI伺服器优势与展望
随着VR/AR、超高画质、自驾技术等新兴技术的需求,现阶段全球已处於流量爆炸时代。根据IDC 统计: 全球云端资料量 由2013年4.4ZB到2023年>50ZB, 逾十倍成长。在全球云端资料量的飞快成长下,AI伺服器擅於同时处理大量资料且做為可以為企业储存大量数据的基础设备必然会成為各家兵家必争之地,而AI伺服器内的电源供应器(PSU),又是影响AI伺服器性能的一大关键。这是因為AI伺服器内的硬体组件对电力的需求远超过一般伺服器。因此,AI伺服器的电源供应器(PSU)相比於一般伺服器必须提供更多的电力来驱动这些高性能组件,同时还需要有足够的冗餘电力来应对负载变化,避免数据塞车。
AI伺服器电源的重要性 (电源瓦数、稳定性、可靠性)
要知道如何挑选一个好的AI伺服器电源供应器(PSU),需要先了解它。AI伺服器要能稳定工作,背后需依靠一个强大且稳定的电源供应器PSU。PSU是一个关键的组件,负责将来自电网的交流电(AC)转换為伺服器电子组件所需的直流电(DC)。对於高性能的AI伺服器,PSU需要提供足够且稳定的电力来驱动CPU、GPU或AI加速器。此外,PSU的效率也很关键,它会直接影响整体的能源消耗和散热需求,一个效率高的PSU可以最小化能源浪费,并减少散热需求,从而使伺服器在高负载运行时仍能保持稳定。同时,高效的PSU也可以延长电源供应器的寿命,并降低由於电源问题导致的伺服器停机时间。
如何挑选AI伺服器电源供应器(PSU)?
在了解 AI 伺服器电源供应器(PSU)的重要性之后,现在我们来看如何选择一个好的 PSU,我们可以从功率需求、效率等级、稳定性和可靠性、保护机制、连接器和尺寸、散热和噪音等方面进行考虑。
功率需求
首先要确保其提供足够的功率以供应所有硬体的需求,并防止任何可能导致系统故障的电力波动或中断,一般来说最好选择比需求高一些的瓦数,而不是刚好满足功率需求,越复杂的运算系统,其电供瓦数更高,AI 伺服器的总电供瓦数可以来到 18kW。
效率等级
效率等级也是重要的考量点之一,效率低落的产品会导致浪费电力、热能增加,可能耗损 PSU 的寿命,效率的评等系统主要為「80 Plus」能耗等级,代表电源供应器可以确保至少百分之 80 的效率。
80 PLUS Rating |
|
---|---|
Rating |
Typical Load Efficiency |
80 PLUS Bronze |
85% |
80 PLUS Silver |
89% |
80 PLUS Gold |
92% |
80 PLUS Platinum |
94% |
80 PLUS Titanium |
96% |
Source: Intel, compiled by the author |
稳定性和可靠性
一个良好的电源供应器必须具有优异的稳定性与可靠性,才能发挥关键的保护作用,优良的电源供应器製造商,会对 PSU 进行各种产品测试,包含输出电压调整、电源调整率、负载调整率等功能测试。
保护机制
要确保电源供应器具有良好的保护功能,如过载保护(OCP)、过热保护(OTP)和过压保护(OVP),这叁种保护功能都是电源供应器(PSU)内建的安全特性,用於防止硬体损坏并确保系统稳定运行。其中,过载保护(OCP)為当输出电流超限时,会关闭或限制电源供应器,以防止硬体损坏;过热保护(OTP)指的是当内部温度过高时,电源供应器会自动关闭,防止过热;过压保护(OVP)功能為当输出电压超限时,会关闭或限制电源供应器,以保护硬体不受高电压毁损。
连接器和尺寸
电源供应器的线材设计主要有叁种,分别是全模组设计、半模组设计以及非模组化设计,其差异在於线材可否拆装,攸关於能否客製化。而连接介面的选择也相当重要,用於正确连接主机板和其他硬件组件。另外 PSU 有许多不同的尺寸,选择适当的尺寸可以确保机壳内有足够的空间可以放置。
散热和噪音
电源供应器是需要配置散热风扇的硬体,因此风扇的散热效率与噪音成為选择 PSU 的考量点之一,电源供应器风扇的转速快,散热效率可能越好,但可能产生更大的噪音,因此消费者需在两者之间进行衡量,或选择电源供应器专业製造商生产的产品。
FSP AI伺服器电源供应解决方案
考虑到这些需求,FSP推出了一系列的AI伺服器电源供应器,其中最具代表性的是FSP3000-20FE。该产品具有极低的总谐波失真(iTHD)、0到55°C的工作温度范围、能适应海拔5,000米的设计,并能提供高达3000瓦的总电源容量。也就是说,即使处在恶劣极端的环境中,此产品依然能发挥作用,其适应力强的优势一览无遗。同时,此产品具有过电流保护(OCP)、过温保护(OTP)和过压保护(OVP)电路保护设计,以及输出端短路保护和可重置电源关闭功能使其能够与主板通信,安全性值得信赖。有了这些保护,再也不用担心机器过热或负载量过大而整台故障的问题。而针对AI伺服器,FSP也推出许多优秀的产品,如YSEC1600AM-2A00P10和YSEC2000AM-2A00P10,它们是AI伺服器专用电源供应器,具有80 PLUS® Platinum认证,最高效率达94%,并内置了PMBus 1.2技术。其优势在於体积小巧,适合安装在边缘运算设备中。同时,由於其具有高效能的转换效率和良好的散热性能,因此在长时间运行下,也能确保电源供应器和边缘运算设备的稳定运行。
未来,随着边缘运算和AI技术的进一步发展,这些硬体的需求将会越来越高。而这当中AI伺服器及其电源供应器将在未来扮演更重要的角色。选择适合的电源供应器,不仅可以确保AI伺服器的顺利运行,也為AI应用的持续发展和创新提供了保障。
- 低 iTHD
- 工作温度 : 0 to 55°C
- 符合海拔5,000米适用设计
- OCP, OTP与OVP电路保护设计
- 输出端短路保护
- 可重置电源关闭
- MTBF:250K小时 (75%输出功率 ,40℃条件下)
- N+1 Redundant
- Support PMBus 1.2
- Hight Power Density 39.5 W/in3
- Application for IPC/Storage/Embedded server/Networking
- N+1 Redundant
- Support PMBus 1.2
- Hight Power Density 48.3 W/in3
- Application for IPC/Storage/Embedded server/Networking
相关文章
关於FSP
全汉为全球电源供应器专业制造领导大厂,FSP Group自1993年成立以来,本着「服务、专业、创新」的经营理念,持续做好全方位绿色能源解决方案供应商。