Inovação em Transferência de Memória: A Jornada a 3200 Gbps com AWS Sagemaker Hyperpod

Tecnologia Inovação Deep Learning

Em 10 de fevereiro de 2025, a equipe da Perplexity detalhou sua experiência inovadora em transferências de memória GPU em larga escala na plataforma AWS p5, alcançando uma notável taxa de transferência de 3108 Gbps, ou 97,1% da capacidade teórica da rede, através de uma solução customizada de alto desempenho.

Create a 2D, flat style, corporate vector image on a white, untextured background. The image depicts a technical illustration of large-scale GPU memory transfers on the AWS p5 platform. They've achieved a remarkable throughput of 3108 Gbps, 97.1% of the network's theoretical capacity on February 10, 2025, using a high-performance custom solution. It visualizes the architecture and data transfer between GPUs using RDMA, with detailed views of data paths, GPUs, and network structures to facilitate understanding of the process. The image also includes diagrams contrasting TCP/IP and RDMA, arrows indicating data flow between the GPUs, and labels for clearly identifying each part of the presented architecture.

Imagem gerada utilizando Dall-E 3

A infraestrutura moderna de deep learning exige a transferência eficiente de grandes volumes de dados entre GPUs, especialmente em ambientes de alta demanda. A Perplexity enfrentou o desafio de transferir regiões de memória GPU não contíguas entre máquinas, visando a velocidade máxima. Aproveitando a rede de 3200 Gbps da AWS p5, a equipe desenvolveu uma solução inovadora de redes de alto desempenho.

Os requisitos técnicos do projeto incluíam a criação de um sistema que suportasse transferências de memória não contíguas com altíssima largura de banda e a habilidade para adicionar ou remover nós em tempo real no Kubernetes. Embora a biblioteca NCCL da NVIDIA fosse uma opção padrão, suas limitações em relação à comunicação assíncrona e controle direto sobre os padrões de transferência levaram a equipe a desenvolver sua própria solução.

A equipe utilizou o framework libfabric para estabelecer uma comunicação RDMA (Remote Direct Memory Access), que permite a transferência direta de dados entre a memória GPU e o cartão de rede, eliminando a necessidade de intervenção da CPU. Com várias otimizações, como enfileiramento de operações e alocação de recursos ciente da arquitetura NUMA, conseguiram otimizar a comunicação entre 32 cartões de rede, alcançando 97,1% do desempenho teórico.

Implementação de comunicação bidirecional.
Adição de GPUDirect RDMA WRITE para transferências diretas entre GPUs.
Otimizando transferências simultâneas entre várias GPUs.
Introdução de técnicas de enfileiramento de operações.
Ajustes de alocação de recursos baseados em NUMA.

A jornada da Perplexity evidencia que, embora ferramentas existentes como a NCCL sejam eficazes para muitos cenários, a personalização é vital em contextos específicos. A equipe conseguiu não apenas otimizar a transferência de dados, mas também demonstrar um uso eficiente da infraestrutura de rede avançada da AWS, resultando em altas taxas de transferência e mostrando como otimizações no design do sistema podem levar a resultados significativos.

- Importância do design de sistemas para alta performance. - A relevância da customização em soluções de rede. - Impacto da tecnologia RDMA na eficiência da transferência de dados.

No geral, a experiência da Perplexity não apenas destaca o potencial da AWS e suas soluções de rede de alto desempenho, mas também incentiva outras empresas a explorarem soluções personalizadas que podem superar as limitações das abordagens padrões. Com o advento de tecnologias cada vez mais avançadas, a eficiência na transferência de dados se torna crítica para o sucesso de projetos em deep learning.

A jornada para construir uma rede de alto desempenho exige um entendimento profundo da arquitetura de hardware e dos princípios de design do sistema. As lições aprendidas pela Perplexity servem como um guia para outras empresas que buscam otimizar suas operações em ambientes de alta demanda. Os leitores são convidados a acompanhar mais conteúdos como este em nossa newsletter, que traz atualizações diárias sobre inovações tecnológicas e soluções em deep learning.

FONTES:

REDATOR

Gino AI

14 de fevereiro de 2025 às 10:20:02

PUBLICAÇÕES RELACIONADAS

Visual representation of Google Cloud's A4X VMs, revealed on February 19th, 2025. The platform, powered by NVIDIA GB200 NVL72, is designed to cater to the growing demands of complex reasoning and learning artificial intelligence models. Display the configuration of GPUs and CPUs prominently, symbolising innovation and efficiency in artificial intelligence. The design is to be in a 2D linear perspective with a flat, corporate appeal. Use a white, untextured background. Incorporate elements of connectivity to depict the interlinked nature of GPUs and CPUs. Use vibrant colors to convey innovation and technology. Also include performance graphics to illustrate efficiency and improved performance.

Google Cloud Lança A4X VMs com NVIDIA GB200 para Revolucionar a Inteligência Artificial

Imagine an illustrative, 2D, corporate flat style image set against a white, textureless background. In this image, visualize an auditorium filled with a diverse audience of developers and AI enthusiasts. They are of various descents like Hispanic, Caucasian, Black, Middle Eastern, and South Asian, both male and female, all attentively focused on a stage. On stage, a Black female speaker from a tech conglomerate presents. Large screens in the background filled with graphs and data detailing the progress and application of generative AI. The overall atmosphere exudes the essence of innovation and collaboration.

Meta Lança LlamaCon: Conferência Focada em IA Generativa

Illustrate a modern photonic chip in a 2D, flat, corporate-style vector drawing on a white, texture-less background. The chip should feature advanced light elements and communication symbols, conveying innovation in AI datacenter technology. Include a technological background to evoke a futuristic environment. Add data graphics representing the chip's efficiency. Please, do not include any logos in the illustration.

STMicroelectronics Lança Chip de Fotônica para Datacenters de IA em Parceria com a Amazon

Render a 2D, linear perspective, vetorial style image set in a cutting-edge semiconductor lab, foregrounding Lam Research's two new Artificial Intelligence chip-making tools. The clean, textureless background is pure white, highlighting the technical, corporate environment. Within the scene, operators from divergent descents and gender - a Hispanic female and a Caucasian male - confidently manage the machines, reinforcing the practical application of these innovative tools. The edge-of-industry fabrication equipment is prominently displayed, enhancing the advanced technology visible in the lab.

Lam Research Lança Novas Ferramentas para Chips de Inteligência Artificial