Acelerador PCIe para servidores: AMD Instinct MI210 64GB

AMD anuncia la disponibilidad del acelerador informático Instinct MI210. El acelerador, diseñado como una tarjeta enchufable para PCI Express 4.0, usa el mismo chip «Aldebaraan» con la arquitectura CDNA2 que ya se usa en el Instinct MI250 y MI250X para supercomputadoras y centros de datos, pero en un paquete doble. Las tarjetas tienen 64 GB de memoria, absorben hasta 300 W a través del conector EPS de 12 V y se supone que deben enfriarse mediante un (fuerte) flujo de aire del servidor.

Las tarjetas no tienen salida de gráficos, pero tienen conexiones para tres enlaces Infinity Fabric para un acoplamiento de caché coherente de hasta cuatro tarjetas. Estas transfieren hasta 300 GB/s entre dos GPU.

64 GB de memoria local están soldados en el paquete como chips de pila HBM2E y se logra una tasa de transferencia de 1,6 TB/s gracias a 4096 líneas de datos paralelas. La memoria y la caché, como es habitual en un centro de datos, cuentan con protección de memoria ECC.

Incluso con una sola GPU, AMD quiere colocar el chip Ampere A100 de la generación anterior de Nvidia en su lugar y depender por completo de la potencia informática de la arquitectura CDNA2 con sus motores de núcleo de matriz compatibles con FP32 y FP64. De acuerdo con los estándares internos del fabricante, es posible una ventaja de rendimiento del 30 al 110 por ciento sobre el A100 de Nvidia en aplicaciones informáticas de alto rendimiento, como HP Linpack, LAMMPS o nBody Solver.

El Instinct MI210 es compatible con la plataforma de software AMD ROCm 5 y obtiene controladores para distribuciones de Linux de 64 bits. Fabricantes como Asus, Dell, Gigabyte, HPE, Lenovo y Supermicro ofrecen entradas de servidor desde formato de código hasta formato 4U donde se pueden integrar tarjetas MI210.

READ  Sony: Parece que han despedido al jefe de producción de PlayStation - Noticias de Gameswelt

Más de la revista c't.

Más de la revista c't.

Más de la revista c't.

AMD solo ha optimizado la arquitectura CDNA2 para cargas de trabajo informáticas, por lo que no tiene el peso de un chip que también es adecuado para aplicaciones gráficas, pero todavía llama a los chips «Graphics Compute Die» (GCD).

Según AMD, el Instinct MI210 debería ser más rápido que el A100 de Nvidia a pesar de tener solo un chip CDNA2.

(Foto: AMD)

Se utiliza tecnología de producción moderna de chips «Aldebaran». Los procesadores de TSMC se fabrican en estructuras de al menos 6 nm. Esto aumenta la velocidad de reloj máxima posible hasta 1,7 GHz y permite que AMD instale 128 unidades de cómputo, cada una con 64 procesadores de flujo, en el GCD. 104 de estos están activos en MI210, y el MI250 o MI250X consta de dos chips, con un total de 208 o 220 unidades de cómputo activas.

Luego están los núcleos matriciales que, al igual que los módulos vectoriales FP32 y FP64, pueden procesar a la misma velocidad, pero son el doble de rápidos con la multiplicación matricial y las matemáticas PackedFP32. Con hasta 45,3 FP64/FP32 TFlops empaquetados, supera con creces a otros aceleradores como el A100 de Nvidia, cuyos núcleos tensoriales que contienen formatos de datos patentados como el TF32 se están poniendo al día e incluso avanzan en el rango adecuado para la inferencia de IA.

Instinto MI210 (PCIe)

Instinto MI250X (OAM)

MI250 Instinto
(OAM)

Instinto MI100 (PCIe)

A100 (SXM)

el creador

AMD

AMD

AMD

AMD

nvidia

GPU

CDNA2 Aldebarán

2x CDNA2 Aldebarán

2x CDNA2 Aldebarán

CDNA Arcturo

A100 (amperios)

CU / SM

104

220

208

120

108

Núcleos FP32/CU.

64

64

64

64

64

Núcleos FP32/GPU

6656

14080

13312

7680

6912

Núcleos FP64/CU.

64

64

64

32

32

Núcleos FP64/GPU

6656

14080

13312

3840

3456

Multiplicación de matriz de motores/GPU
(núcleo de unidad de matriz/núcleos de tensor)

416

880

832

480

432

Aumentar la velocidad de reloj de la GPU

1700MHz

1700MHz

1700MHz

1502

número

Pico FP32/FP64 TFlops

22,6 / 22,6

47,9/47,9

45,3 / 45,3

23.07 / 11.54

19,5 / 9,7

Núcleos Tensor Peak TFlops / Matrix Core Engine

45.3 (FP32 y FP64)

95,7 (FP32 y FP64)

90,5 (FP32 y FP64)

46.1 (FP32)

156 (TF32) / 312 (TF32 Variación estructural)

Pico FP16/BF16 TFlops

181/181

308/308

362/362

184,6 / 92,3

312/312 (624/624 Variación estructural)

Pico INT8 / INT4 TOps

número

308/308

362/362

184,6 / 184,6

624/1248 (1248/2496 dispersión)

interfaz de memoria

HBM2E de 4096 bits

2 x 4096 bits HBM2E

2 x 4096 bits HBM2E

4096 bits HBM2

HBM2 de 5120 bits

Tamaño de la memoria

64GB

128 GB

128 GB

32GB

40-80GB

tasa de transferencia de memoria

1,6 TB/s

3,2 TB/s

3,2 TB/s

1,2 TB/s

1,55 – 2,0 TB/s

TDP

300 vatios

560 W (refrigeración líquida) / 500 W (flujo de aire)

560 W (refrigeración líquida) / 500 W (flujo de aire)

300 vatios

400 vatios (SXM)

transistores (mil millones)

58 mil millones

58 mil millones (por GPU)

58 mil millones (por GPU)

número

54 mil millones

Produce

6nm

6nm

6nm

7nm

7nm


(csp)

a la página de inicio

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *