大模型训练^[5]

Nvidia 数据包喷洒技术、自适应路由技术实验验证

数据包喷洒技术是一种保证网络链路均匀性的技术，它基于包或者cell进行负载均衡。本文基于Nvidia Connect X6 DX网卡，开启网卡无序报文接收功能，使用支持乱序传输的RoCEv2 RC协议，对该技术进行实验验证。

215

函数梯度是什么？

多变量函数梯度是什么？多个变量函数的梯度表示函数在每个变量方向上的偏导数。梯度是一个向量，其中每个分量表示函数在相应变量方向上的变化率。梯度的方向指向函数增长最快的方向，而梯度的模表示了函数增长的速率。通过计算梯度，可以找到函数的局部极值点和最小值点，并且可以在这些点上进行优化。假设有一个多变量

21

网络加速

NVIDIA Spectrum-X: 为AI定制的Ethernet网络平台

NVIDIA Spectrum-X: 基于Ethernet的AI加速网络平台人工智能工作负载的特点是少量的任务处理大量的GPU之间的数据传输，尾延迟会对整体应用性能产生显著影响。使用传统的网络路由机制来处理这种流量模式可能导致GPU性能不一致和人工智能工作负载低利用率。 NVIDIA Spectr

136

如何解决AI/ML训练中负载不均问题？包转发还是流转发？

如何解决AI/ML训练中负载不均问题？包转发还是流转发？引言在AI/ML训练中，单个GPU与其他GPU同步训练数据时，通常发送多少个活动IP流？答案是只有一个。而且流量以满接口速率发送，目前是400Gbps。现在以太网架构，最常用的负载均衡方式是根据流负载均衡。这种方式在GPU训练场景（流数

80

大模型数据集不分批次不行吗？

典型的深度学习模型训练涉及将数据集分成相等数量（B）的批次。每个批次进行一次训练迭代（对每个参数运行前向传递进行预测并运行后向传递计算梯度），更新参数，然后使用下一个批次再次进行训练。这个过程重复进行，直到所有批次完成。不分批次，即使用整个数据集进行每次迭代的训练，这种方法称为批量梯度下降（Bat

47