协议 [11]

RDMA协议详解

RDMA协议详解 RDMA,即 Remote Direct Memory Access,是一种绕过远程主机 OS kernel 访问其内存中数据的技术,概念源自于 DMA 技术。在 DMA 技术中,外部设备(PCIe 设备)能够绕过 CPU 直接访问 host memory;而 RDMA 则是指外部

如何解决AI/ML训练中负载不均问题?包转发还是流转发?

如何解决AI/ML训练中负载不均问题?包转发还是流转发? 引言 在AI/ML训练中,单个GPU与其他GPU同步训练数据时,通常发送多少个活动IP流? 答案是只有一个。而且流量以满接口速率发送,目前是400Gbps。 现在以太网架构,最常用的负载均衡方式是根据流负载均衡。这种方式在GPU训练场景(流数

RDMA(1)-RDMA是如何成为高速网络引擎的?

RDMA是如何成为高速网络引擎的? 两次偶然的邂逅使得远程直接内存访问(RDMA)从一个比较冷门的技术转变为了世界上最强大超级计算机的引擎。 这一幸运的机遇成就了以色列一家初创企业Melllanox的财富,该企业将赌注押在基于RDMA的InfiniBand网络上。 这一切始于2001年8月。俄亥俄州

Google AI/ML/HPC网络测量方案CSIG

随着对延迟和带宽敏感的应用程序的增加,例如AI/ML/HPC工作负载和基于RDMA的应用程序,在动态变化的流量模式下,仅依赖端到端信号是不够的。网络设备向终端主机提供简单而及时的信号可以增强和优化终端主机传输,充分利用数据中心的带宽。CSIG是一种在网络中分发拥塞信息的简单、实用和可部署的协议,它建立在先前工作的成功方面基础上,并以拥塞控制、流量管理和网络调试等使用案例为基础。

RDMA网络趋势

RDMA网络趋势 简介 人工智能(AI)的崛起极大地提高了对强大、高效和可扩展的网络传输协议的需求。本文深入探讨了RDMA传输协议,重点介绍了ROCEv2协议,这是数据中心、HPC和企业网络中领先的RDMA传输协议。 基于ROCEv2的RDMA(远程直接内存访问)已经在超大规模数据中心的某些部分取代

谷歌向生态系统开放Falcon,一种可靠的低延迟硬件传输协议

2023年10月17日 谷歌云工程副总裁Dan Lenoski, 谷歌云首席软件工程师Nandita Dukkipati 谷歌长期以来一直使用以太网解决大规模问题,并重新思考传输层,以满足对高突发带宽、高消息速率和低延迟的要求。存储等工作负载长期以来一直需要其中一些特性,然而,随着新的用例如大规模A

BBR拥塞控制协议

BBR拥塞控制 谷歌在2016年提出了基于拥塞的BBR(Bottleneck Bandwidth and Round-trip propagation time的缩写)拥塞控制算法,随后各路大佬对该算法进行了深度的分析,本文从原理、性能测试、源码实现、应用场景4个角度,全面分析BBR拥塞控制算法。

链路聚合原理

相关名词 链路聚合,是将多个物理二层链路绑为一个逻辑二层链路的技术。 不同的厂商有不同的叫法: ZTE: Smart Group, SG Cisco: Ether Channel, EC Brocade: Brocade LAG, LAG 华为、华三: Link Aggregation Group,

TCP之Time Wait漫谈

简单来说,TIME_WAIT存在的原因有两个: 防止一个连接中延迟的数据段会被后序的连接错误的解析。 为了实现TCP全双工连接的终止可靠性。 TIME_WAIT产生的过程与原因可以查看笔记:TCP有限状态机分析 TIME_WAIT状态的效果

TCP协议状态分析

状态解析 (1) CLOSED 状态时初始状态。 (2) LISTEN:被动打开,服务器端的 状态变为LISTEN(监听)。被动打开的概念:连接的一端的应用程序通知操作系统,希望建立一个传入的连接。这时候操作系统为连接的这一端建立一个连 接。与之对应的是主动连接:应用程序通过主动打开请求来告诉操作系

TCP滑动窗口

TCP滑动窗口 滑动窗口也称通告窗口,是传输层进行流控的一种措施,接收方通过通告发送方自己的窗口大小,从而控制发送方的发送速度,从而达到防止发送方发送速度过快而导致自己被淹没的目的。 TCP的滑动窗口解决了端到端的流量控制问题,允许接受方对传输进行限制,直到它拥有足够的缓冲空间来容纳更多的数据。 T