Entraîner un grand modèle de langage demande aujourd'hui plusieurs dizaines de millions d'heures-GPU, et chaque requête envoyée à un chatbot consomme un ordre de grandeur supérieur à une recherche web classique.
Selon l'Agence internationale de l'énergie (AIE, rapport Electricity 2024), la consommation mondiale des data centers pourrait plus que doubler d'ici 2026 par rapport à 2022, portée principalement par l'IA générative.
Comprendre pourquoi les LLM consomment autant suppose de distinguer deux phases (entraînement et inférence), les ordres de grandeur réels, et les leviers techniques qui commencent à infléchir la courbe.
Décryptage chiffré, sources publiques à l'appui, et impacts pour les métiers de l'efficience énergétique des data centers.
1. Pourquoi la consommation explose : scaling laws et déploiement de masse
Jusqu'en 2018, la majorité des modèles de NLP comptaient quelques centaines de millions de paramètres. En quelques années, l'échelle a changé d'ordre de grandeur : GPT-3 (2020) avec 175 milliards de paramètres, Llama 3.1 405B (2024) et les grands modèles propriétaires (GPT-4, Claude, Gemini) estimés au-delà de la barre des centaines de milliards, avec des architectures denses ou en mélange d'experts (MoE).
Cette inflation est documentée par les travaux dits de scaling laws : Kaplan et al. (2020) chez OpenAI, puis Hoffmann et al. (2022, Chinchilla) chez DeepMind, ont montré que la performance d'un modèle suit une loi de puissance dépendant à la fois de la taille du modèle, du volume de données d'entraînement et du compute total. En pratique, doubler la performance d'un LLM impose souvent de quadrupler le compute.
À cette explosion du compute d'entraînement s'ajoute la massification de l'inférence : chatbots grand public, copilotes intégrés dans les suites bureautiques, agents IA, génération d'images et de vidéo. Cette double dynamique — modèles plus gros et usage de masse — explique pourquoi l'IA est devenue le premier moteur de croissance de la demande électrique des data centers selon l'AIE.
Cette mécanique change la nature du problème : ce n'est plus seulement l'entraînement (ponctuel, programmable la nuit, planifiable géographiquement) qui pèse, mais l'inférence en continu, qui suit la courbe d'usage 24/7 — avec des pics de demande qui sollicitent le réseau électrique exactement au mauvais moment.
2. Phase d'entraînement : combien consomme réellement un LLM ?
Les chiffres publics sur la consommation d'entraînement sont rares, mais quelques jalons existent. Le papier original de GPT-3 (Brown et al., 2020) et l'analyse de Patterson et al. (2021, Google/Berkeley) évaluent l'entraînement de GPT-3 à environ 1 287 MWh d'électricité, pour une empreinte d'environ 552 tCO₂e selon le mix électrique utilisé.
Pour Llama 3.1 (405B), Meta a déclaré officiellement dans la model card publiée en juillet 2024 un total cumulé de ~30,84 millions d'heures-GPU H100-80GB pour l'ensemble de la famille Llama 3, pour une empreinte estimée à environ 11 390 tCO₂e (avant compensations). Pour GPT-4, OpenAI n'a pas publié de chiffre officiel, mais les estimations indépendantes situent l'entraînement dans la fourchette de plusieurs GWh, soit un ordre de grandeur au-dessus de GPT-3.
Le poste dominant reste les GPU : un H100 affiche un TDP de ~700 W, un H200 environ 1 000 W, et la nouvelle génération GB200 Grace Blackwell de NVIDIA monte au-delà. À ce socle s'ajoutent la mémoire HBM, les interconnects haut débit (NVLink, NVSwitch, InfiniBand), le refroidissement et les pertes onduleur/transformateur — soit, à l'échelle d'un cluster d'entraînement de plusieurs dizaines de milliers de GPU, des dizaines de MW en pointe.
| Modèle | Paramètres | Énergie d'entraînement (estimée) | Source |
|---|---|---|---|
| GPT-3 | 175 Md | ~1 287 MWh | Patterson et al. 2021 |
| Llama 3 (famille) | jusqu'à 405 Md | ~30,8 M h-GPU H100 ≈ plusieurs dizaines de GWh selon PUE et utilisation effective | Meta, Llama 3.1 model card (juil. 2024) |
| GPT-4 | non communiqué | Plusieurs GWh (estimations indépendantes) | Analyses SemiAnalysis, presse spécialisée |
| BLOOM (176B) | 176 Md | ~433 MWh (mix bas-carbone, IDRIS/CNRS) | Luccioni et al. 2022, BigScience |
Note méthodologique : ces chiffres incluent l'électricité GPU + overhead datacenter (PUE). Les estimations varient selon le PUE retenu, le mix électrique du site et la prise en compte ou non du fine-tuning.
3. Phase d'inférence : peu par requête, beaucoup au total
Une seule requête à un chatbot consomme peu — quelques wattheures selon les estimations publiées — mais multipliée par des centaines de millions de requêtes quotidiennes, l'inférence devient la principale source de demande électrique des modèles d'IA. Plusieurs travaux convergent : McKinsey, Goldman Sachs Energy Research et l'AIE estiment que l'inférence représente déjà la majorité du compute IA mondial déployé en production.
Les travaux de Sasha Luccioni (Hugging Face) et al. (« Power Hungry Processing », 2023-2024) ont produit l'une des premières mesures empiriques systématiques par type de tâche. Ils confirment que la nature de la tâche compte autant que la taille du modèle : générer une image ou une vidéo consomme un à plusieurs ordres de grandeur de plus qu'une requête texte.
| Type de tâche IA | Ordre de grandeur (Wh / requête) | Référence comparée |
|---|---|---|
| Recherche Google « classique » (historique) | ~0,3 Wh | Google, communications historiques |
| Requête conversationnelle texte (chatbot, courte) | ~1 à 3 Wh (ordres de grandeur publiés) | Estimations IEA, presse spécialisée |
| Génération texte longue (résumé, code) | ~3 à 10 Wh | Luccioni et al. 2024 |
| Classification d'image | ~0,002 à 0,03 Wh | Luccioni et al. 2024 |
| Génération d'image (diffusion) | ~1 à 3 Wh par image | Luccioni et al. 2024 |
| Génération vidéo (texte → vidéo) | plusieurs dizaines à centaines de Wh (estimations indicatives) | Estimations sectorielles, à confirmer |
À l'échelle d'un produit grand public, l'inférence se traduit par une consommation annuelle qui peut dépasser celle de l'entraînement initial en quelques mois d'exploitation. C'est pourquoi les efforts d'optimisation (quantification INT8/FP8/INT4, distillation, mixture of experts, caching) se concentrent désormais sur l'inférence plus que sur l'entraînement.
4. Empreinte des data centers IA : PUE, densité, eau
La consommation d'un cluster IA ne se limite pas aux GPU. Le PUE (Power Usage Effectiveness) mesure le ratio entre énergie totale consommée et énergie utile aux serveurs : un PUE de 1,5 signifie que pour 1 kWh d'IT, 0,5 kWh part dans le refroidissement, l'éclairage et les pertes. Selon l'Uptime Institute Global Data Center Survey, le PUE moyen mondial s'est stabilisé autour de 1,5-1,6 ces dernières années. L'ADEME retient une valeur proche pour la France (~1,55).
Les nouveaux data centers IA visent des PUE bien plus bas — 1,1 à 1,2 — grâce au refroidissement liquide direct (Direct Liquid Cooling) et à l'immersion cooling. La densité par rack a explosé : autour de 5-15 kW/rack pour un data center cloud généraliste, contre 30 à 100 kW/rack voire plus pour les baies NVIDIA DGX/HGX/GB200. C'est cette densité qui rend l'air conditionné traditionnel inopérant.
WUE : la question de l'eau
Le Water Usage Effectiveness mesure les litres d'eau par kWh IT. Le refroidissement adiabatique (évaporatif) consomme de l'eau pour gagner en efficacité électrique. Selon les opérateurs, le WUE moyen se situe entre 0,2 et 1,8 L/kWh. Dans les régions tendues sur l'eau, c'est un point bloquant.
Intensité carbone du réseau
À PUE équivalent, l'empreinte CO₂ d'une même heure-GPU varie d'un facteur 10 selon la localisation. La France (~57 gCO₂e/kWh, RTE Bilan électrique), la Norvège, l'Islande et le Québec attirent ainsi les fermes IA cherchant un mix bas-carbone, à l'inverse de régions au mix charbon/gaz dominant.
5. Projections agrégées : AIE, McKinsey, Goldman Sachs, RTE
Le rapport AIE Electricity 2024 a publié l'une des premières fourchettes officielles : la consommation mondiale des data centers (IA, cryptomonnaies incluses) pourrait passer d'environ 460 TWh en 2022 à une fourchette de 620 à 1 050 TWh d'ici 2026, soit l'équivalent de la consommation annuelle de pays entiers comme le Japon dans le scénario haut.
Cette fourchette large s'explique par les incertitudes sur la vitesse de déploiement de l'IA générative et sur les gains d'efficience matériels et logiciels. Goldman Sachs (rapport 2024) anticipe une hausse de +160 % de la demande data centers d'ici 2030, et McKinsey converge vers un doublement à 2030. SemiAnalysis et IDC partagent cette tendance.
Projection de la consommation électrique mondiale des data centers (TWh). Source : AIE Electricity 2024, fourchette basse / haute à 2026.
En France, la consommation des data centers est estimée aujourd'hui à environ 10 TWh/an, soit ~2 % de la consommation électrique nationale (sources : RTE, France Datacenter, ADEME). Les scénarios RTE Futurs Énergétiques 2050 et les bilans annuels prévoient un quasi-doublement à horizon 2030, vers 20-25 TWh selon le rythme d'implantation des projets annoncés.
6. Solutions techniques et nouveaux métiers de l'efficience
Plusieurs leviers se déploient en parallèle pour infléchir la trajectoire énergétique. Aucun ne suffit seul ; c'est leur combinaison qui détermine la pente réelle de la courbe à 2030.
Mix électrique décarboné
PPA renouvelables, contrats long terme nucléaire, implantation sur réseaux à faible intensité carbone (France, Nordiques, Québec).
Modèles plus petits + RAG
Distillation, quantification INT8/FP8/INT4, Mixture-of-Experts (MoE), retrieval augmented generation : même qualité avec moins de paramètres actifs.
Edge AI
Inférence sur NPU intégrés (smartphones, PC), évitant un aller-retour data center pour les tâches simples.
Refroidissement liquide
DLC, immersion biphasique, échangeurs sur boucle d'eau. Cible : PUE 1,1-1,2 sur baies à 50-100 kW.
Récupération de chaleur fatale
Chauffage urbain (projets Île-de-France, piscines), serres agricoles. Valorisation imposée par la loi française pour les nouvelles installations.
Réglementation
CSRD (scope 2 électricité + scope 3 usage produits), directive EED art. 12, décret tertiaire en France.
Nouveaux métiers : efficience énergétique data center
Cette pression réglementaire et économique fait émerger des profils hybrides à la croisée de l'énergétique du bâtiment, du génie thermique, du data engineering et de la finance. Quelques exemples observés sur le marché français :
| Métier | Mission | Salaire brut annuel (estimation) |
|---|---|---|
| Ingénieur efficience énergétique data center (junior) | Suivi PUE/WUE, audit consommation, optimisation cooling | ~40-55 k€ |
| Ingénieur cooling / thermique data center (confirmé) | Conception DLC, immersion, récupération chaleur fatale | ~60-85 k€ |
| Responsable efficience / GreenOps (expert) | Pilotage stratégie carbone, conformité CSRD/EED, PPA | ~90-130 k€+ |
| MLOps « green » / FinOps + GreenOps | Optimisation coût + carbone des pipelines IA | ~55-95 k€ |
Estimations indicatives basées sur les offres publiées par France Datacenter, l'APEC et les retours de cabinets de recrutement spécialisés (2024-2025). À nuancer selon la région, la taille de l'opérateur et l'ancienneté.
Conclusion : une trajectoire à infléchir, pas une fatalité
La consommation électrique de l'IA générative est aujourd'hui dominée par l'inférence plus que par l'entraînement, et la trajectoire pointée par l'AIE, Goldman Sachs, McKinsey et RTE va dans le sens d'un quasi-doublement à horizon 2030. Mais les fourchettes restent larges : la pente effective dépendra des gains matériels (Blackwell, refroidissement liquide), des ruptures algorithmiques (MoE, quantification, modèles spécialisés petits) et du cadre réglementaire européen (EED, CSRD).
Pour les professionnels de l'industrie et des data centers, cette pression ouvre un champ d'opportunités métiers — efficience énergétique, cooling, GreenOps — où la demande dépasse déjà l'offre. La question stratégique n'est plus « combien consomme l'IA ? » mais « où et comment la consomme-t-on, et que fait-on de la chaleur fatale ? ».