AI网络[6]

NVIDIA Spectrum-X: 为AI定制的Ethernet网络平台

NVIDIA Spectrum-X: 基于Ethernet的AI加速网络平台 人工智能工作负载的特点是少量的任务处理大量的GPU之间的数据传输,尾延迟会对整体应用性能产生显著影响。使用传统的网络路由机制来处理这种流量模式可能导致GPU性能不一致和人工智能工作负载低利用率。 NVIDIA Spectr

如何解决AI/ML训练中负载不均问题?包转发还是流转发?

如何解决AI/ML训练中负载不均问题?包转发还是流转发? 引言 在AI/ML训练中,单个GPU与其他GPU同步训练数据时,通常发送多少个活动IP流? 答案是只有一个。而且流量以满接口速率发送,目前是400Gbps。 现在以太网架构,最常用的负载均衡方式是根据流负载均衡。这种方式在GPU训练场景(流数

Google AI/ML/HPC网络测量方案CSIG

随着对延迟和带宽敏感的应用程序的增加,例如AI/ML/HPC工作负载和基于RDMA的应用程序,在动态变化的流量模式下,仅依赖端到端信号是不够的。网络设备向终端主机提供简单而及时的信号可以增强和优化终端主机传输,充分利用数据中心的带宽。CSIG是一种在网络中分发拥塞信息的简单、实用和可部署的协议,它建立在先前工作的成功方面基础上,并以拥塞控制、流量管理和网络调试等使用案例为基础。

大模型中的互联技术

大模型中的互联技术 介绍 生成式人工智能(Generative AI)和大型语言模型(Large Language Models)以惊人的速度吸引了全世界的关注。 本文简要介绍LLM、训练这些模型所面临的硬件挑战,以及GPU和网络领域在优化训练AI方面所做的努力。 本文通过gpt4(gptschoo

RDMA网络趋势

RDMA网络趋势 简介 人工智能(AI)的崛起极大地提高了对强大、高效和可扩展的网络传输协议的需求。本文深入探讨了RDMA传输协议,重点介绍了ROCEv2协议,这是数据中心、HPC和企业网络中领先的RDMA传输协议。 基于ROCEv2的RDMA(远程直接内存访问)已经在超大规模数据中心的某些部分取代

谷歌向生态系统开放Falcon,一种可靠的低延迟硬件传输协议

2023年10月17日 谷歌云工程副总裁Dan Lenoski, 谷歌云首席软件工程师Nandita Dukkipati 谷歌长期以来一直使用以太网解决大规模问题,并重新思考传输层,以满足对高突发带宽、高消息速率和低延迟的要求。存储等工作负载长期以来一直需要其中一些特性,然而,随着新的用例如大规模A