AMD anuncia la disponibilidad del acelerador informático Instinct MI210. El acelerador, diseñado como una tarjeta enchufable para PCI Express 4.0, usa el mismo chip «Aldebaraan» con la arquitectura CDNA2 que ya se usa en el Instinct MI250 y MI250X para supercomputadoras y centros de datos, pero en un paquete doble. Las tarjetas tienen 64 GB de memoria, absorben hasta 300 W a través del conector EPS de 12 V y se supone que deben enfriarse mediante un (fuerte) flujo de aire del servidor.
Las tarjetas no tienen salida de gráficos, pero tienen conexiones para tres enlaces Infinity Fabric para un acoplamiento de caché coherente de hasta cuatro tarjetas. Estas transfieren hasta 300 GB/s entre dos GPU.
64 GB de memoria local están soldados en el paquete como chips de pila HBM2E y se logra una tasa de transferencia de 1,6 TB/s gracias a 4096 líneas de datos paralelas. La memoria y la caché, como es habitual en un centro de datos, cuentan con protección de memoria ECC.
Incluso con una sola GPU, AMD quiere colocar el chip Ampere A100 de la generación anterior de Nvidia en su lugar y depender por completo de la potencia informática de la arquitectura CDNA2 con sus motores de núcleo de matriz compatibles con FP32 y FP64. De acuerdo con los estándares internos del fabricante, es posible una ventaja de rendimiento del 30 al 110 por ciento sobre el A100 de Nvidia en aplicaciones informáticas de alto rendimiento, como HP Linpack, LAMMPS o nBody Solver.
El Instinct MI210 es compatible con la plataforma de software AMD ROCm 5 y obtiene controladores para distribuciones de Linux de 64 bits. Fabricantes como Asus, Dell, Gigabyte, HPE, Lenovo y Supermicro ofrecen entradas de servidor desde formato de código hasta formato 4U donde se pueden integrar tarjetas MI210.
Descripción general de CDNA2
AMD solo ha optimizado la arquitectura CDNA2 para cargas de trabajo informáticas, por lo que no tiene el peso de un chip que también es adecuado para aplicaciones gráficas, pero todavía llama a los chips «Graphics Compute Die» (GCD).
Se utiliza tecnología de producción moderna de chips «Aldebaran». Los procesadores de TSMC se fabrican en estructuras de al menos 6 nm. Esto aumenta la velocidad de reloj máxima posible hasta 1,7 GHz y permite que AMD instale 128 unidades de cómputo, cada una con 64 procesadores de flujo, en el GCD. 104 de estos están activos en MI210, y el MI250 o MI250X consta de dos chips, con un total de 208 o 220 unidades de cómputo activas.
Luego están los núcleos matriciales que, al igual que los módulos vectoriales FP32 y FP64, pueden procesar a la misma velocidad, pero son el doble de rápidos con la multiplicación matricial y las matemáticas PackedFP32. Con hasta 45,3 FP64/FP32 TFlops empaquetados, supera con creces a otros aceleradores como el A100 de Nvidia, cuyos núcleos tensoriales que contienen formatos de datos patentados como el TF32 se están poniendo al día e incluso avanzan en el rango adecuado para la inferencia de IA.
Instinto MI210 (PCIe) |
Instinto MI250X (OAM) |
MI250 Instinto |
Instinto MI100 (PCIe) |
A100 (SXM) |
|
el creador |
AMD |
AMD |
AMD |
AMD |
nvidia |
GPU |
CDNA2 Aldebarán |
2x CDNA2 Aldebarán |
2x CDNA2 Aldebarán |
CDNA Arcturo |
A100 (amperios) |
CU / SM |
104 |
220 |
208 |
120 |
108 |
Núcleos FP32/CU. |
64 |
64 |
64 |
64 |
64 |
Núcleos FP32/GPU |
6656 |
14080 |
13312 |
7680 |
6912 |
Núcleos FP64/CU. |
64 |
64 |
64 |
32 |
32 |
Núcleos FP64/GPU |
6656 |
14080 |
13312 |
3840 |
3456 |
Multiplicación de matriz de motores/GPU |
416 |
880 |
832 |
480 |
432 |
Aumentar la velocidad de reloj de la GPU |
1700MHz |
1700MHz |
1700MHz |
1502 |
número |
Pico FP32/FP64 TFlops |
22,6 / 22,6 |
47,9/47,9 |
45,3 / 45,3 |
23.07 / 11.54 |
19,5 / 9,7 |
Núcleos Tensor Peak TFlops / Matrix Core Engine |
45.3 (FP32 y FP64) |
95,7 (FP32 y FP64) |
90,5 (FP32 y FP64) |
46.1 (FP32) |
156 (TF32) / 312 (TF32 Variación estructural) |
Pico FP16/BF16 TFlops |
181/181 |
308/308 |
362/362 |
184,6 / 92,3 |
312/312 (624/624 Variación estructural) |
Pico INT8 / INT4 TOps |
número |
308/308 |
362/362 |
184,6 / 184,6 |
624/1248 (1248/2496 dispersión) |
interfaz de memoria |
HBM2E de 4096 bits |
2 x 4096 bits HBM2E |
2 x 4096 bits HBM2E |
4096 bits HBM2 |
HBM2 de 5120 bits |
Tamaño de la memoria |
64GB |
128 GB |
128 GB |
32GB |
40-80GB |
tasa de transferencia de memoria |
1,6 TB/s |
3,2 TB/s |
3,2 TB/s |
1,2 TB/s |
1,55 – 2,0 TB/s |
TDP |
300 vatios |
560 W (refrigeración líquida) / 500 W (flujo de aire) |
560 W (refrigeración líquida) / 500 W (flujo de aire) |
300 vatios |
400 vatios (SXM) |
transistores (mil millones) |
58 mil millones |
58 mil millones (por GPU) |
58 mil millones (por GPU) |
número |
54 mil millones |
Produce |
6nm |
6nm |
6nm |
7nm |
7nm |
(csp)
«Erudito en viajes incurable. Pensador. Nerd zombi certificado. Pionero de la televisión extrema. Explorador general. Webaholic».