Retour sur la table ronde "The Future of AI: From LLMs to Agents and Beyond" – DP2E-AI 2025
Le 18 juin dernier, j’ai eu l’honneur de participer à une table ronde scientifique lors du workshop DP2E-AI 2025 sur les futurs de l’intelligence artificielle à très grande échelle.
Animée par Ian Foster (Argonne National Laboratory), cette session réunissait Torsten Hoefler (ETH Zurich), Horst Simon (ex-LBNL), Kun Tan (Huawei) et moi-même pour explorer les pistes d’évolution au-delà des modèles de langage et des agents autonomes.
Voici une synthèse des échanges, structurée autour d’un enjeu central : comment continuer à faire progresser l’IA tout en maîtrisant ses coûts ?
🧮 L’IA moderne a un besoin massif de puissance de calcul
L’IA actuelle, en particulier les grands modèles de langage (LLMs), repose sur l’entraînement par descente de gradient stochastique. Cette méthode nécessite :
- d’énormes quantités de données, typiquement 15 trillions de tokens soit environ 45To pour du texte, soit tout internet.
- des centaines de milliards de paramètres, environ 600 milliards pour DeepSeek
- et surtout de nombreuses passes d’apprentissage pour ajuster les poids du réseau.
Ce processus est extrêmement coûteux, en temps, en énergie, en matériel, et donc en argent. Un seul entrainement peut coûter plusieurs centaines de millions de dollars. Réduire ces coûts sans dégrader la performance est devenu une priorité stratégique.
🧠 Le rôle fondateur du HPC dans la démocratisation des GPU pour le calcul
Il y a une vingtaine d’années, les GPU étaient exclusivement utilisés pour les graphismes (jeux vidéo, visualisation 3D…).
Mais la communauté HPC, toujours en quête de puissance de calcul, a ouvert une voie nouvelle : utiliser les GPU pour effectuer des calculs scientifiques généraux — c'est le mouvement GPGPU (General Purpose GPU).
L’une des premières opérations exploitées à grande échelle a été le produit de matrices, fondement de nombreux algorithmes scientifiques… et aujourd’hui au cœur de tous les réseaux de neurones.
⚡ L’IA a su tirer parti de cette avancée pour accéder à une puissance de calcul bon marché
Les modèles d’IA s’appuyant sur le produit de matrices ont ainsi pu bénéficier immédiatement des progrès des GPU, sans nécessiter de matériel spécialisé.
Cela a permis d’entraîner des modèles de plus en plus grands, avec une performance croissante… à un coût raisonnable, du moins au départ.
C’est cette convergence — GPU, calcul scientifique, IA — qui a permis l’émergence des premières grandes architectures de deep learning.
🔧 Les savoir-faire du HPC ont permis une réduction spectaculaire des coûts de l’IA
Les techniques issues du HPC ont ensuite été largement réinvesties dans les pipelines IA, permettant une optimisation extrême des calculs :
- réduction de la précision flottante (ex. FP32 → FP16 → FP4),
- exploitation de matrices creuses (sparsity),
- nouvelles topologie réseau pour réduire les points de contention.
Ces trois leviers ont chacun apporté un facteur x10 de réduction de coût, soit x1000 au total. Ces techniques sont aujourd’hui bien connues, largement utilisées, et montrent leurs limites. La question se pose alors : comment ajouter un nouveau facteur x1000 ?
🔁 En retour, l’IA a transformé le matériel… et relancé l’innovation en HPC
Face à la demande exponentielle de l’IA, les fabricants de puces ont adapté leurs architectures :
- accélérateurs dédiés au produit de matrices (ex. Tensor Cores, TPUs),
- interconnexions haute performance,
- unités de calcul spécialisées à très faible précision.
Ces évolutions matérielles, pensées initialement pour l’IA, offrent aujourd’hui de nouvelles perspectives au calcul scientifique.
Par exemple, émuler des opérations haute précision (FP64) sur du matériel FP16 devient envisageable (cf. travaux de Jack Dongarra), ouvrant la voie à un HPC plus rapide et plus économe.
⛓️ Mais l’IA s’est aussi enfermée dans un modèle technique rigide
Cette spécialisation du matériel a un revers : elle enferme l’IA dans un paradigme fortement contraint.
Tout algorithme performant doit être exprimé comme une suite de produits de matrices, faute de quoi il ne pourra bénéficier du matériel existant.
Ce verrou limite l’exploration d’approches nouvelles, pourtant essentielles pour franchir les prochaines étapes.
📈 Les besoins en calcul explosent avec les approches multi-agents
Pour explorer de nouvelles stratégies — raisonnement, coordination, collaboration — les modèles récents tendent vers une logique multi-agents, où plusieurs IA interagissent, se complètent, voire s’auto-évaluent. En combinant des approches comme le "chain-of-thought" et le test-time compute, ces techniques nécessitent de multiplier drastiquement les tokens calculés pour obtenir une seule réponse. Ces systèmes sont encore plus consommateurs en ressources, car ils multiplient les calculs parallèles et les combinaisons d’hypothèses.
Les limites économiques et écologiques de cette trajectoire commencent à se faire sentir.
🧠 Les idées “intuitives” ont été exploitées : une rupture conceptuelle est nécessaire
Comme l’a souligné Torsten Hoefler, toutes les idées simples pour accélérer ou améliorer les modèles ont déjà été explorées :
- compresser les poids,
- simplifier les architectures,
- optimiser l’infrastructure…
Pour continuer à progresser, il faudra sans doute changer de perspective. Cela implique de mieux comprendre ce qu’est réellement l’information, comment elle est représentée, structurée et manipulée par un réseau de neurones.
🌍 Une piste prometteuse : permettre à l’IA d’interagir avec le monde réel
Une direction explorée : connecter l’IA au monde physique pour qu’elle apprenne par l’action et l’observation, et plus seulement à partir de données textuelles ou d’images statiques.
Deux approches complémentaires :
- les robots apprenants, qui interagissent avec leur environnement physique et en déduisent des lois de comportement plus générales que ce qui est appris à partir de contenus d'origine humaine;
- les agents scientifiques, capables de concevoir et piloter des expériences en laboratoire (cf. les travaux d’Ian Foster à Argonne).
Cette confrontation au réel permettrait à l’IA de générer ses propres données, de découvrir de nouvelles régularités, voire de formuler des hypothèses.
🧠 En conclusion : une nouvelle frontière pour l’IA… et pour le HPC
Comme l’a résumé Horst Simon en clôture de la table ronde : l’IA est aujourd’hui la “killer app” du HPC — l’application qui pousse le calcul extrême à innover et se réinventer.
Mais malgré les progrès réalisés, nous ne faisons qu’effleurer le champ des possibles.
Il reste de nombreux défis à relever, et avec eux de formidables opportunités d’innovation, de créativité et de recherche.
L’IA de demain se construira dans l’hybridation des savoirs : algorithmie, physique, ingénierie, et plus largement, notre capacité à penser autrement.