Faciliter des simulations CFD évolutives dans le cloud

Issu d’une collaboration entre EDF R&D MFEE, NVIDIA, AWS et ANEO, ce livre blanc explique comment porter et optimiser code_saturne sur des instances GPU AWS — de la mise en place d’une architecture HPC dans le cloud (ParallelCluster, Terraform, Amazon DCV) au réglage précis des noyaux avec Nsight Systems & Nsight Compute. Vous découvrirez des enseignements concrets sur les gains, les compromis et les bonnes pratiques, ainsi que des benchmarks sur L40S (G6e) et H100 (P5/P5en).

Au programme

Pourquoi et comment passer aux GPU sur AWS ? Motivations, architecture cible, et outils pour exécuter code_saturne de manière fiable et reproductible dans le cloud.

Architecture et déploiement : AWS ParallelCluster v3.12 (Slurm, EFA), poste de développement GPU via Amazon DCV, IaC avec Terraform et portail d’accès (profils Admin / Utilisateur final).

Méthodologie d’optimisation GPU : Profilage top-down (Nsight Systems) et bottom-up (Nsight Compute), gestion mémoire (Unified Memory, préchargement), maintien des données sur le GPU, réduction des allocations.

Résultats, benchmarks et bonnes pratiques : Cas C016/F128, comparatifs L40S vs H100, goulots d’étranglement MPI/halo-exchange, leviers d’accélération (noyaux critiques, précision simple/mixte lorsque pertinent) et feuille de route pour les prochaines étapes.

Télécharger le livre blanc en anglais