consulting

Construir clústeres HPC en la nube: Arquitectura y rendimiento

Durante décadas, el Alto Rendimiento de la Computación (HPC) era el dominio exclusivo de organizaciones con el capital necesario para construir y mantener superordenadores complejos y de alto consumo energético. Las barreras de entrada – costos de adquisición masivos, largos ciclos de implementación y la gestión especializada de instalaciones – mantenían fuera de alcance para muchas, tareas intensivas en cómputo como la secuenciación genética, la dinámica de fluidos computacional (CFD) y la modelización financiera compleja.

La computación de alto rendimiento (HPC) se ha democratizado fundamentalmente gracias a la nube. Al proporcionar acceso bajo demanda a un rendimiento "bare-metal", aceleradores especializados (GPUs, FPGAs) y redes de ultra baja latencia, las plataformas en la nube (AWS, GCP, Azure) permiten a los ingenieros configurar y desmontar complejos grupos de nodos en minutos, no en meses. Este modelo de "HPC elástica" (E-HPC) desplaza el principal desafío de la gestión de la infraestructura física hacia la sofisticada orquestación.

Este artículo es una guía técnica para directores de tecnología (CTOs) e ingenieros senior. Analizaremos los componentes arquitectónicos, los pasos prácticos de implementación y las consideraciones críticas de rendimiento para construir un clúster HPC robusto, escalable y rentable en un entorno en la nube. Nos enfocaremos en las decisiones de ingeniería necesarias para el éxito, evitando el marketing de alto nivel.

Pilares Arquitectónicos Fundamentales de un Clúster de Alto Rendimiento en la Nube

Un clúster de alto rendimiento en la nube funcional no es un único servicio, sino un sistema integrado de cuatro componentes clave. El rendimiento del sistema depende del componente más débil.

Equipo de Ingeniería de Software Compartido Bajo Demanda, mediante Suscripción.

Acceda a un equipo flexible y compartido de ingeniería de software bajo demanda a través de una suscripción mensual predecible. Desarrolladores, diseñadores, ingenieros de QA y un gestor de proyectos gratuito le ayudan a crear MVPs, escalar productos e innovar con tecnologías modernas como React, Node.js y más.

Try 4Geeks Teams

Computación: Máquinas Virtuales Especializadas

El núcleo del clúster es su infraestructura de cómputo. Las máquinas virtuales genéricas no serán suficientes. Debe seleccionar familias de instancias específicamente diseñadas para cargas de trabajo de alto rendimiento.

Orientado a CPU: Busque instancias con altas velocidades de reloj, un alto número de núcleos y una asignación fija y no hiperentrelazada de núcleos físicos a vCPU.
- AWS: hpc7g, c7g (Graviton), c6i (Intel), c6a (AMD)
- Azure: HBv3, HBv4, HC series (AMD)
- GCP: c2, c2d, h3 series
Orientado a GPU (IA/ML/Renderizado): Instancias equipadas con GPUs de nivel de centro de datos y conectividad de alta velocidad como NVLink.
- AWS: p4, p5 series (NVIDIA A100/H100)
- GCP: a2, a3 (A100), g2 (L4)
- Azure: ND series (A100/H100)

Consideración crucial: Grupos de despliegue (AWS), Grupos de despliegue cercanos (Azure), o Políticas de despliegue compactas (GCP) son indispensables. Estas políticas aseguran que sus instancias de cómputo estén físicamente ubicadas juntas dentro del centro de datos (por ejemplo, en el mismo rack) para garantizar la latencia mínima entre nodos.

Redes: La infraestructura de baja latencia

La conectividad estándar TCP/IP, incluso con interfaces de 100 Gbps, introduce una latencia y una sobrecarga de CPU inaceptables para cargas de trabajo de alto rendimiento (HPC) altamente acopladas que dependen de la Interfaz de Comunicación Mensajera (MPI). La solución es una "red" de alta velocidad y baja latencia que evita el kernel.

Adaptador de red Elastic Fabric de AWS (EFA): Una interfaz de red personalizada que evita el sistema operativo y que utiliza el protocolo Scalable Reliable Datagram (SRD). Está diseñado para cargas de trabajo de MPI y ML y expone una API libfabric.
InfiniBand de Azure: Los modelos HB y HC proporcionan acceso directo a redes InfiniBand (HDR) dedicadas de baja latencia, que es el estándar de facto en el supercomputing en sitio.
Redes de alto rendimiento de GCP: Las h3 VMs de GCP utilizan la Google Virtual NIC (gVNIC) y una "red de soporte" "Jupiter", que, aunque sigue siendo basada en Ethernet, está altamente optimizada para el tráfico de HPC y MPI.

Su elección de instancia (Pilar 2.1) suele estar determinada por la infraestructura de red (Pilar 2.2) que soporta.

Almacenamiento: El Sistema de Archivos Paralelo

Una característica clave de un clúster de alto rendimiento es un sistema de archivos compartido, de alto rendimiento y compatible con POSIX, accesible por todos los nodos de cómputo. Es aquí donde residen sus datos de entrada y donde se escriben los resultados de las simulaciones.

Requisito: Alto rendimiento (IOPS altos, alta capacidad de transferencia - cientos de GB/s) y baja latencia de metadatos para gestionar operaciones de miles de clientes concurrentes.
Solución principal: Sistemas de archivos paralelos.
- Amazon FSx para Lustre: Un servicio completamente gestionado que proporciona un sistema de archivos Lustre, el sistema de archivos paralelo más popular en el ámbito de la computación de alto rendimiento (HPC). Se integra con S3, permitiéndole "cargar de forma selectiva" los datos del almacenamiento de objetos en la primera lectura y "escribir los resultados de vuelta".
- Alternativas: BeeGFS gestionado (Azure) o GlusterFS o WekaIO gestionados por el usuario en una flota de máquinas virtuales optimizadas para el almacenamiento.
Jerarquía de almacenamiento:
1. Almacenamiento de objetos (S3/GCS/Blob): La capa persistente "fría" para sus conjuntos de datos principales.
2. Sistema de archivos paralelo (FSx para Lustre): El directorio de trabajo "activo" para el clúster, vinculado a S3.
3. Almacenamiento local de instancia (NVMe): El espacio "de borrador" en cada nodo de cálculo para I/O de alta velocidad y temporal.

Orquestación: El Administrador de Carga de Trabajo

No se puede administrar manualmente miles de núcleos. Un administrador de tareas (o programador de trabajos) es el cerebro del clúster. Gestiona la cola de trabajos, asigna/desasigna recursos y asigna nodos a tareas específicas.

Slurm (Simple Linux Utility for Resource Management): El estándar de código abierto. Es potente, altamente configurable, y lo que la mayoría de investigadores e ingenieros conocen.
Orquestadores nativos en la nube:
- AWS ParallelCluster: Una herramienta de código abierto que abstrae todo el despliegue del clúster (VPC, Slurm, FSx, Grupos de Auto Escalado) en un único archivo de configuración YAML.Este es el punto de partida recomendado en AWS.
- Azure CycleCloud: Una herramienta gráfica para orquestar y gestionar clústeres de alto rendimiento (HPC) utilizando varios programadores (Slurm, PBS Pro, etc.).
- GCP Batch: Un servicio gestionado para enviar y ejecutar trabajos por lotes, que pueden provisionar y gestionar clústeres de estilo HPC en segundo plano.

Equipo de Ingeniería de Software Compartido Bajo Demanda, Con Suscripción.

Acceda a un equipo flexible y compartido de ingeniería de software bajo demanda a través de una suscripción mensual predecible. Desarrolladores, diseñadores, ingenieros de control de calidad y un gerente de proyectos gratuito le ayudan a crear MVPs, escalar productos e innovar con tecnologías modernas como React, Node.js y más.

Try 4Geeks Teams

Plan de implementación: Construir un clúster Slurm con AWS ParallelCluster

Utilizaremos AWS ParallelCluster como nuestro ejemplo principal porque estandariza las mejores prácticas para la mayoría de los componentes discutidos.

Fase 1: Configuración (cluster-config.yaml)

ParallelCluster utiliza un único archivo YAML para definir toda la pila.

# cluster-config.yaml
# This configuration defines a scalable Slurm cluster with an FSx for Lustre file system.

Region: us-east-1
Image:
  Os: alinux2 # Amazon Linux 2
HeadNode:
  InstanceType: c6i.xlarge
  Networking:
    SubnetId: subnet-0123456789abcdef0 # A public subnet for SSH access
  Ssh:
    KeyName: my-hpc-key

Scheduling:
  Scheduler: slurm
  SlurmQueues:
    - Name: compute-queue
      ComputeResources:
        - Name: hpc-nodes
          InstanceType: hpc6a.48xlarge # HPC-optimized instance
          MinCount: 0
          MaxCount: 16 # Scale up to 16 nodes (1536 cores)
          DisableSimultaneousMultithreading: true # Critical for HPC: 1 core = 1 vCPU
      Networking:
        SubnetIds:
          - subnet-fedcba9876543210f # A private subnet
        PlacementGroup:
          Enabled: true # Automatically create and manage a Placement Group
        ComputeNetwork:
          Efa:
            Enabled: true # Enable Elastic Fabric Adapter
SharedStorage:
  - Name: fsx-lustre
    StorageType: FsxLustre
    MountDir: /fsx
    FsxLustreSettings:
      StorageCapacity: 1200 # 1.2 TiB
      DeploymentType: SCRATCH_2 # High-performance scratch file system
      DataRepositoryConfiguration:
        ImportPath: s3://my-hpc-data-bucket/ # Link to S3 bucket
        AutoImport: true

Fase 2: Implementación

El despliegue es un único comando de línea de comandos.

# Ensure you have the AWS CLI and ParallelCluster installed
# pip install aws-parallelcluster
pcluster create-cluster --cluster-name my-hpc-cluster --cluster-configuration cluster-config.yaml

Este comando tardará entre 15 y 20 minutos en configurar la VPC (si no ya está creada), el nodo principal, el sistema de archivos FSx y las configuraciones del grupo de Auto Scaling. Inicialmente, Mínimo: 0MinCount: 0

Fase 3: Ejemplo de Ejecución de Empleo (MPI)

Enviar la solicitud:

[ec2-user@head-node ~]$ cd /fsx
[ec2-user@head-node fsx]$ sbatch submit_job.sh
Submitted batch job 1234

Cree un script de envío para Slurm: Este script indica al programador qué recursos son necesarios.

# /fsx/submit_job.sh

#!/bin/bash

#SBATCH --job-name=mpi-hello
#SBATCH --output=/fsx/mpi-hello-%j.out  # %j is the job ID
#SBATCH --error=/fsx/mpi-hello-%j.err
#SBATCH --nodes=4                       # Request 4 nodes
#SBATCH --ntasks-per-node=96            # hpc6a.48xlarge has 96 physical cores
#SBATCH --cpus-per-task=1
#SBATCH --partition=compute-queue       # The queue defined in our YAML

# Load the MPI module environment
module load openmpi

# Run the MPI application
# srun will coordinate with Slurm to launch the processes across the 4 nodes
echo "Starting MPI job on $SLURM_JOB_NUM_NODES nodes..."
srun python3 /fsx/hello_mpi.py
echo "MPI job finished."

Cree un programa MPI: Usaremos un ejemplo sencillo en Python con mpi4py. El nodo principal (a través de ParallelCluster) viene con MPI y Slurm preconfigurados. Python

# /fsx/hello_mpi.py
# This file is on the shared file system, accessible by all nodes.

from mpi4py import MPI

comm = MPI.COMM_WORLD
rank = comm.Get_rank()
size = comm.Get_size()

print(f"Hello from rank {rank} of {size} on host {MPI.Get_processor_name()}", flush=True)

Conéctate mediante SSH al nodo principal: Este es tu nodo de envío y control.

pcluster ssh --cluster-name my-hpc-cluster -i ~/.ssh/my-hpc-key.pem

¿Qué ocurre a continuación? (La parte de "Elastic")

Slurm recibe la tarea y determina que necesita 4 nodos.
La cola de procesamiento actualmente tiene 0 nodos.
Slurm se comunica con los demonios de ParallelCluster, que a su vez realizan una llamada a la API al Grupo de Autoescalado.
El ASG aprovisiona 4 nuevas hpc6a.48xlarge instancias dentro del Grupo de Colocación especificado..
A medida que estos nodos se inician, sus scripts de usuario los configuran automáticamente, instalan los controladores EFA, montan /fsx, y se unen al clúster de Slurm.
Una vez que los nodos están LISTOS, Slurm asigna la tarea.srun ejecuta el script de Python en todos los 384 núcleos (4 nodos * 96 núcleos/nodo).
La salida se escribe en /fsx/mpi-hello-1234.out.
Después de que la tarea se complete, el temporizador inactivo del clúster se inicia. Si no hay nuevas tareas en la cola (por ejemplo, durante 10 minutos), ParallelCluster termina los 4 nodos de procesamiento, reduciendo el costo a cero.

Equipo de Ingeniería de Software Compartido Bajo Demanda, Por Suscripción.

Acceda a un equipo flexible y compartido de ingeniería de software bajo demanda a través de una suscripción mensual predecible. Desarrolladores, diseñadores, ingenieros de control de calidad y un gestor de proyectos gratuito le ayudan a crear MVPs, escalar productos e innovar con tecnologías modernas como React, Node.js y más.

Try 4Geeks Teams

Consideraciones cruciales a nivel de Director de Tecnología (CTO)

Costo frente a rendimiento: El dilema de las instancias Spot

Las cargas de trabajo de alto rendimiento son a menudo ideales para las Instancias Spot, que pueden ofrecer ahorros de hasta un 90% en costes. Sin embargo, esto introduce el riesgo de su terminación.

Estrategia: Implemente el control de checkpoints dentro de su aplicación. La simulación debe ser capaz de guardar su estado periódicamente en el sistema de archivos paralelo.
Slurm & Spot: Configure Slurm para detectar la finalización de nodos (interrupción) y re-programar automáticamente la tarea. AWS ParallelCluster ofrece esta funcionalidad de forma nativa. Puede crear una cola "Spot" y una cola "On-Demand", permitiendo a los usuarios elegir entre ahorro de costes y tiempo de ejecución garantizado.

Gravedad de los datos y entrada/salida de datos

Su clúster de cómputo es rápido, pero, ¿cómo lo alimentas? Un conjunto de datos de 50 TB no puede ser transferido a través de una conexión a internet estándar.

Ingreso: Utilice dispositivos de transferencia física (AWS Snowball, Azure Data Box) o interconexiones de alta velocidad dedicadas (AWS Direct Connect, Azure ExpressRoute) para enviar datos directamente desde su entorno local a almacenamiento de objetos (S3).
Salida: Los costos de salida son una importante consideración financiera. Planee realizar la mayor cantidad posible de procesamiento y visualización dentro de la nube posible. Genere informes, gráficos o conjuntos de datos reducidos antes de recuperar los datos de nuevo en su entorno local.

Entorno de Software y Reproducibilidad

Una tarea MPI compilada en el nodo principal puede no ejecutarse en un nodo de cálculo si las bibliotecas son diferentes.

Solución 1: Contenedización. Utilice Singularity/Apptainer(preferido en entornos de alto rendimiento (HPC) sobre Docker debido a su modelo sin raíz y más seguro). Cree un contenedor con todo su conjunto de software (por ejemplo, versiones específicas de Python, MPI y bibliotecas), guárdelo en /fsx, y ejecútelo a través de Slurm.
Solución 2: Módulos de Entorno. Utilice spack o easybuild para crear archivos de módulo (module load ...) que aseguren un entorno de software consistente y reproducible. Las AMIs de AWS ParallelCluster vienen preconfiguradas con esto.

Conclusión

Construir un clúster de alto rendimiento en la nube redefine fundamentalmente el desafío de ingeniería. El enfoque se desplaza de la adquisición de hardware y la gestión física del centro de datos hacia la automatización, la orquestación y la ingeniería financiera.

Al aprovechar herramientas nativas en la nube como AWS ParallelCluster o Azure CycleCloud, un pequeño equipo de ingenieros puede controlar un superordenador que rivaliza con los laboratorios nacionales, pagando solo por los femtosegundos de cómputo que consumen. El esquema arquitectónico es claro: combinar instancias optimizadas para HPC, una red de baja latencia, un sistema de archivos paralelo de alta velocidad y un gestor de cargas de trabajo inteligente. El éxito ya no se mide únicamente en FLOPS, sino en la elasticidad de su infraestructura y en la velocidad con la que su organización puede pasar de los datos brutos a la información útil.

Preguntas frecuentes

¿Qué es un clúster de Alto Rendimiento en la Nube (HPC)?

Un clúster de HPC en la nube es un sistema bajo demanda que utiliza los recursos del proveedor de la nube (como AWS, GCP o Azure) para realizar tareas complejas y que requieren un alto nivel de procesamiento. A diferencia de los superordenadores tradicionales, que requieren una gran inversión inicial y largos ciclos de implementación, un modelo basado en la nube o "HPC Elástico" (E-HPC) permite a los ingenieros aprovisionar y desmantelar clústeres complejos con aceleradores especializados (GPUs) y redes de baja latencia en cuestión de minutos, pagando únicamente por los recursos que consumen.

¿Cuáles son las cuatro pilares arquitectónicos fundamentales de un clúster de alto rendimiento en la nube?

Una arquitectura robusta de alto rendimiento en la nube se basa en cuatro componentes integrados:

Computación: Máquinas virtuales (VM) especializadas diseñadas para el HPC, como instancias con alta frecuencia de reloj y limitadas por la CPU (por ejemplo, AWS c6i) o instancias con GPU para IA/ML (por ejemplo, la serie AWS p5),
Red: Una red de baja latencia, como el AWS Elastic Fabric Adapter (EFA) o Azure InfiniBand, que evita el núcleo del sistema operativo para permitir una comunicación de alta velocidad y baja latencia entre nodos, lo cual es crucial para las aplicaciones de Message Passing Interface (MPI).
Almacenamiento: Un sistema de archivos paralelo de alto rendimiento, como Amazon FSx for Lustre, que es compatible con POSIX y puede ser accedido simultáneamente por todas las instancias de computación para gestionar grandes conjuntos de datos y resultados de simulación.
Orquestación: Un administrador de trabajos (o programador de trabajos), como el de código abierto Slurm, que gestiona la cola de trabajos y orquesta la asignación (escalado) y liberación (desescalado) de las instancias de computación.

¿Cómo puede automatizarse la implementación de un clúster HPC en AWS?

El método más eficaz es utilizar una herramienta nativa de la nube, como AWS ParallelCluster. Esta herramienta de código abierto abstrae toda la implementación del clúster en un único archivo de configuración YAML. En este archivo, define todos los elementos arquitectónicos: el nodo principal, las colas de cálculo (por ejemplo, hpc-nodes), el programador (Slurm), los tipos de instancia, las reglas de red (como habilitar EFA y Grupos de Colocación para baja latencia) y el almacenamiento compartido (como FsxLustre). Un único comando de línea de comandos (pcluster create-cluster) lee este archivo y aprovisiona automáticamente todo el entorno HPC elástico y escalable.