Estación NVIDIA DGX: Comparación de modelos nuevos y antiguos

¿Cuáles son las diferencias clave en el ancho de banda de memoria entre la estación DGX y los modelos DGX anteriores?

La estación DGX NVIDIA y los modelos DGX anteriores, como la estación DGX A100 y la estación DGX más antigua con GPU Tesla V100, exhiben diferencias significativas en el ancho de banda de memoria y la arquitectura general.

Estación DGX (nuevo modelo)

La nueva estación DGX está equipada con el GB300 Grace Blackwell Ultra Desktop Superchip, que incluye una CPU de Grace de 72 núcleos y una GPU Blackwell Ultra. Este sistema presenta hasta 288 GB de memoria GPU HBM3E y hasta 496 GB de memoria CPU LPDDR5X. El ancho de banda de memoria para la memoria GPU no se establece explícitamente en términos de GB/S, pero el sistema admite hasta 8 TB/s de ancho de banda de memoria, que es significativamente más alto que los modelos anteriores. El ancho de banda de memoria de la CPU es de hasta 396 GB/S ** [5] [8].

Estación DGX A100

La estación DGX A100 utiliza cuatro GPU NVIDIA A100 SXM4, cada una con 40 GB u 80 GB de memoria HBM2. Si bien el ancho de banda de memoria específico para este modelo no se detalla, las GPU A100 son conocidas por su alto ancho de banda de memoria, típicamente alrededor de 1,555 GB/s por GPU para la memoria HBM2, lo que totalizaría a aproximadamente 6,220 GB/s para todo el sistema [10].

Estación DGX con Tesla V100 GPU

El modelo de estación DGX más antiguo con cuatro GPU TESLA V100 presenta 16 GB de memoria HBM2 por GPU, por un total de 64 GB de memoria GPU. El ancho de banda de memoria para cada GPU V100 es de 900 GB/s, lo que resulta en un ancho de banda de memoria total de GPU de 3.6 TB/s. Además, el sistema incluye 256 GB de memoria del sistema DDR4, pero su ancho de banda no es tan alto como la memoria GPU [2] [9].

Diferencias clave

- Tipo de memoria y ancho de banda: la nueva estación DGX utiliza HBM3E para la memoria de GPU, que ofrece un ancho de banda significativamente mayor en comparación con HBM2 utilizado en modelos más antiguos. El ancho de banda de memoria de la CPU también se mejora con LPDDR5X.
- Arquitectura: la nueva estación DGX integra una CPU de Grace con una GPU Ultra Blackwell, que proporciona una arquitectura más cohesiva y eficiente para las cargas de trabajo de IA en comparación con los modelos anteriores.
- Escalabilidad: la nueva estación DGX está diseñada para admitir cargas de trabajo de IA más extensas con su capacidad de memoria más alta e interconexiones más rápidas como NVLink-C2C, que ofrece siete veces el ancho de banda de PCIe Gen 5 [5] [8].

Citas:
[1] https://www.reddit.com/r/localllama/comments/1jedy17/nvidia_digits_specs_releed_and_renamed_to_dgx/
[2] https://images.nvidia.com/content/newsletters/email/pdf/dgx-station-wp.pdf
[3] https://opentools.ai/news/nvidia-unleashes-the-future-with-personal-ai-superComputers
[4] https://www.youtube.com/watch?v=krbh0von-2a
[5] https://www.notebookcheck.net/nvidia-unveils-dgx-station-disktop-ai-supercomputer-with-72-core-cpu-andan-flackwell-ultra-gpu.981669.0.html
[6] https://docs.nvidia.com/dgx/dgxa100-user-guide/introduction-to-dgxa100.html
[7] https://www.techpowerup.com/forums/threads/nvidia-nounces-dgx-park-and-dgx-station-personal-ai-computers.334300/
[8] https://www.nvidia.com/en-us/products/workstations/dgx-station/
[9] https://xenon.com.au/product/nvidia-dgx-station/
[10] https://mcomputers.cz/en/products-and-services/nvidia/dgx-systems/nvidia-dgx-station-a100/