Acelerador PCIe para servidores: AMD Instinct MI210 64GB

Posted On: marzo 22, 2022
Posted By: Gaspar Siguenza
Comments: 0

AMD anuncia la disponibilidad del acelerador informático Instinct MI210. El acelerador, diseñado como una tarjeta enchufable para PCI Express 4.0, usa el mismo chip «Aldebaraan» con la arquitectura CDNA2 que ya se usa en el Instinct MI250 y MI250X para supercomputadoras y centros de datos, pero en un paquete doble. Las tarjetas tienen 64 GB de memoria, absorben hasta 300 W a través del conector EPS de 12 V y se supone que deben enfriarse mediante un (fuerte) flujo de aire del servidor.

Las tarjetas no tienen salida de gráficos, pero tienen conexiones para tres enlaces Infinity Fabric para un acoplamiento de caché coherente de hasta cuatro tarjetas. Estas transfieren hasta 300 GB/s entre dos GPU.

64 GB de memoria local están soldados en el paquete como chips de pila HBM2E y se logra una tasa de transferencia de 1,6 TB/s gracias a 4096 líneas de datos paralelas. La memoria y la caché, como es habitual en un centro de datos, cuentan con protección de memoria ECC.

Incluso con una sola GPU, AMD quiere colocar el chip Ampere A100 de la generación anterior de Nvidia en su lugar y depender por completo de la potencia informática de la arquitectura CDNA2 con sus motores de núcleo de matriz compatibles con FP32 y FP64. De acuerdo con los estándares internos del fabricante, es posible una ventaja de rendimiento del 30 al 110 por ciento sobre el A100 de Nvidia en aplicaciones informáticas de alto rendimiento, como HP Linpack, LAMMPS o nBody Solver.

El Instinct MI210 es compatible con la plataforma de software AMD ROCm 5 y obtiene controladores para distribuciones de Linux de 64 bits. Fabricantes como Asus, Dell, Gigabyte, HPE, Lenovo y Supermicro ofrecen entradas de servidor desde formato de código hasta formato 4U donde se pueden integrar tarjetas MI210.

READ Sony: Parece que han despedido al jefe de producción de PlayStation - Noticias de Gameswelt

Descripción general de CDNA2

AMD solo ha optimizado la arquitectura CDNA2 para cargas de trabajo informáticas, por lo que no tiene el peso de un chip que también es adecuado para aplicaciones gráficas, pero todavía llama a los chips «Graphics Compute Die» (GCD).

Según AMD, el Instinct MI210 debería ser más rápido que el A100 de Nvidia a pesar de tener solo un chip CDNA2.

(Foto: AMD)

Se utiliza tecnología de producción moderna de chips «Aldebaran». Los procesadores de TSMC se fabrican en estructuras de al menos 6 nm. Esto aumenta la velocidad de reloj máxima posible hasta 1,7 GHz y permite que AMD instale 128 unidades de cómputo, cada una con 64 procesadores de flujo, en el GCD. 104 de estos están activos en MI210, y el MI250 o MI250X consta de dos chips, con un total de 208 o 220 unidades de cómputo activas.

Luego están los núcleos matriciales que, al igual que los módulos vectoriales FP32 y FP64, pueden procesar a la misma velocidad, pero son el doble de rápidos con la multiplicación matricial y las matemáticas PackedFP32. Con hasta 45,3 FP64/FP32 TFlops empaquetados, supera con creces a otros aceleradores como el A100 de Nvidia, cuyos núcleos tensoriales que contienen formatos de datos patentados como el TF32 se están poniendo al día e incluso avanzan en el rango adecuado para la inferencia de IA.

	Instinto MI210 (PCIe)	Instinto MI250X (OAM)	MI250 Instinto (OAM)	Instinto MI100 (PCIe)	A100 (SXM)
el creador	AMD	AMD	AMD	AMD	nvidia
GPU	CDNA2 Aldebarán	2x CDNA2 Aldebarán	2x CDNA2 Aldebarán	CDNA Arcturo	A100 (amperios)
CU / SM	104	220	208	120	108
Núcleos FP32/CU.	64	64	64	64	64
Núcleos FP32/GPU	6656	14080	13312	7680	6912
Núcleos FP64/CU.	64	64	64	32	32
Núcleos FP64/GPU	6656	14080	13312	3840	3456
Multiplicación de matriz de motores/GPU (núcleo de unidad de matriz/núcleos de tensor)	416	880	832	480	432
Aumentar la velocidad de reloj de la GPU	1700MHz	1700MHz	1700MHz	1502	número
Pico FP32/FP64 TFlops	22,6 / 22,6	47,9/47,9	45,3 / 45,3	23.07 / 11.54	19,5 / 9,7
Núcleos Tensor Peak TFlops / Matrix Core Engine	45.3 (FP32 y FP64)	95,7 (FP32 y FP64)	90,5 (FP32 y FP64)	46.1 (FP32)	156 (TF32) / 312 (TF32 Variación estructural)
Pico FP16/BF16 TFlops	181/181	308/308	362/362	184,6 / 92,3	312/312 (624/624 Variación estructural)
Pico INT8 / INT4 TOps	número	308/308	362/362	184,6 / 184,6	624/1248 (1248/2496 dispersión)
interfaz de memoria	HBM2E de 4096 bits	2 x 4096 bits HBM2E	2 x 4096 bits HBM2E	4096 bits HBM2	HBM2 de 5120 bits
Tamaño de la memoria	64GB	128 GB	128 GB	32GB	40-80GB
tasa de transferencia de memoria	1,6 TB/s	3,2 TB/s	3,2 TB/s	1,2 TB/s	1,55 – 2,0 TB/s
TDP	300 vatios	560 W (refrigeración líquida) / 500 W (flujo de aire)	560 W (refrigeración líquida) / 500 W (flujo de aire)	300 vatios	400 vatios (SXM)
transistores (mil millones)	58 mil millones	58 mil millones (por GPU)	58 mil millones (por GPU)	número	54 mil millones
Produce	6nm	6nm	6nm	7nm	7nm

(csp)

Gaspar Siguenza

«Erudito en viajes incurable. Pensador. Nerd zombi certificado. Pionero de la televisión extrema. Explorador general. Webaholic».

Acelerador PCIe para servidores: AMD Instinct MI210 64GB

Descripción general de CDNA2

El próximo cambio en WhatsApp: se conocen los primeros detalles sobre la nueva funcionalidad

El próximo cambio en WhatsApp: se conocen los primeros detalles sobre la nueva funcionalidad

El próximo cambio en WhatsApp: se conocen los primeros detalles sobre la nueva funcionalidad

WhatsApp facilita su uso en PC con nuevas funciones

Muchos smartphones reciben una segunda actualización de software

WhatsApp facilita su uso en PC con nuevas funciones

Deja una respuesta Cancelar la respuesta

Páginas

Entradas recientes