Le 18 juin dernier, j’ai eu l’honneur de participer à une table ronde scientifique lors du workshop DP2E-AI 2025 sur les futurs de l’intelligence artificielle à très grande échelle.
Animée par Ian Foster (Argonne National Laboratory), cette session réunissait Torsten Hoefler (ETH Zurich), Horst Simon (ex-LBNL), Kun Tan (Huawei) et moi-même pour explorer les pistes d’évolution au-delà des modèles de langage et des agents autonomes.
Voici une synthèse des échanges, structurée autour d’un enjeu central : comment continuer à faire progresser l’IA tout en maîtrisant ses coûts ?
L’IA actuelle, en particulier les grands modèles de langage (LLMs), repose sur l’entraînement par descente de gradient stochastique. Cette méthode nécessite :
Ce processus est extrêmement coûteux, en temps, en énergie, en matériel, et donc en argent. Un seul entrainement peut coûter plusieurs centaines de millions de dollars. Réduire ces coûts sans dégrader la performance est devenu une priorité stratégique.
Il y a une vingtaine d’années, les GPU étaient exclusivement utilisés pour les graphismes (jeux vidéo, visualisation 3D…).
Mais la communauté HPC, toujours en quête de puissance de calcul, a ouvert une voie nouvelle : utiliser les GPU pour effectuer des calculs scientifiques généraux — c'est le mouvement GPGPU (General Purpose GPU).
L’une des premières opérations exploitées à grande échelle a été le produit de matrices, fondement de nombreux algorithmes scientifiques… et aujourd’hui au cœur de tous les réseaux de neurones.
Les modèles d’IA s’appuyant sur le produit de matrices ont ainsi pu bénéficier immédiatement des progrès des GPU, sans nécessiter de matériel spécialisé.
Cela a permis d’entraîner des modèles de plus en plus grands, avec une performance croissante… à un coût raisonnable, du moins au départ.
C’est cette convergence — GPU, calcul scientifique, IA — qui a permis l’émergence des premières grandes architectures de deep learning.
Les techniques issues du HPC ont ensuite été largement réinvesties dans les pipelines IA, permettant une optimisation extrême des calculs :
Ces trois leviers ont chacun apporté un facteur x10 de réduction de coût, soit x1000 au total. Ces techniques sont aujourd’hui bien connues, largement utilisées, et montrent leurs limites. La question se pose alors : comment ajouter un nouveau facteur x1000 ?
Face à la demande exponentielle de l’IA, les fabricants de puces ont adapté leurs architectures :
Ces évolutions matérielles, pensées initialement pour l’IA, offrent aujourd’hui de nouvelles perspectives au calcul scientifique.
Par exemple, émuler des opérations haute précision (FP64) sur du matériel FP16 devient envisageable (cf. travaux de Jack Dongarra), ouvrant la voie à un HPC plus rapide et plus économe.
Cette spécialisation du matériel a un revers : elle enferme l’IA dans un paradigme fortement contraint.
Tout algorithme performant doit être exprimé comme une suite de produits de matrices, faute de quoi il ne pourra bénéficier du matériel existant.
Ce verrou limite l’exploration d’approches nouvelles, pourtant essentielles pour franchir les prochaines étapes.
Pour explorer de nouvelles stratégies — raisonnement, coordination, collaboration — les modèles récents tendent vers une logique multi-agents, où plusieurs IA interagissent, se complètent, voire s’auto-évaluent. En combinant des approches comme le "chain-of-thought" et le test-time compute, ces techniques nécessitent de multiplier drastiquement les tokens calculés pour obtenir une seule réponse. Ces systèmes sont encore plus consommateurs en ressources, car ils multiplient les calculs parallèles et les combinaisons d’hypothèses.
Les limites économiques et écologiques de cette trajectoire commencent à se faire sentir.
Comme l’a souligné Torsten Hoefler, toutes les idées simples pour accélérer ou améliorer les modèles ont déjà été explorées :
Pour continuer à progresser, il faudra sans doute changer de perspective. Cela implique de mieux comprendre ce qu’est réellement l’information, comment elle est représentée, structurée et manipulée par un réseau de neurones.
Une direction explorée : connecter l’IA au monde physique pour qu’elle apprenne par l’action et l’observation, et plus seulement à partir de données textuelles ou d’images statiques.
Deux approches complémentaires :
Cette confrontation au réel permettrait à l’IA de générer ses propres données, de découvrir de nouvelles régularités, voire de formuler des hypothèses.
Comme l’a résumé Horst Simon en clôture de la table ronde : l’IA est aujourd’hui la “killer app” du HPC — l’application qui pousse le calcul extrême à innover et se réinventer.
Mais malgré les progrès réalisés, nous ne faisons qu’effleurer le champ des possibles.
Il reste de nombreux défis à relever, et avec eux de formidables opportunités d’innovation, de créativité et de recherche.
L’IA de demain se construira dans l’hybridation des savoirs : algorithmie, physique, ingénierie, et plus largement, notre capacité à penser autrement.