Combien délectricité consomme une requête ChatGPT ?

Les ordres de grandeur publiés situent une requête conversationnelle texte autour de 1 à 3 Wh, contre environ 0,3 Wh historique pour une recherche Google. Ces chiffres varient dun facteur 10 selon le modèle, la longueur de la réponse et la méthodologie de mesure (sources : IEA, Hugging Face/Luccioni et al. 2024).

Combien a consommé lentraînement de GPT-3 et GPT-4 ?

Lentraînement de GPT-3 est estimé à environ 1287 MWh délectricité par Patterson et al. 2021. GPT-4 na pas fait lobjet dune publication officielle dOpenAI, mais les estimations indépendantes situent lentraînement dans la fourchette de plusieurs GWh, soit un ordre de grandeur supérieur.

Quelle part de la consommation mondiale les data centers représentent-ils ?

Selon le rapport AIE Electricity 2024, les data centers (IA, cloud, crypto inclus) représentaient environ 460 TWh en 2022, soit ~2 % de la consommation électrique mondiale. La fourchette projetée à 2026 est de 620 à 1050 TWh, soit jusquà 4 % du total.

Combien consomment les data centers en France ?

La consommation des data centers en France est estimée aujourdhui autour de 10 TWh par an, soit environ 2 % de la consommation électrique nationale. Les scénarios RTE prévoient un quasi-doublement à horizon 2030, vers 20 à 25 TWh, selon le rythme dimplantation des projets annoncés.

Quest-ce que le PUE dun data center ?

Le Power Usage Effectiveness (PUE) est le ratio entre lénergie totale consommée par un data center et lénergie utile aux serveurs. Le PUE moyen mondial se situe autour de 1,5-1,6 (Uptime Institute), tandis que les data centers IA modernes en refroidissement liquide visent 1,1-1,2.

Quels métiers émergent autour de lefficience énergétique data center ?

Plusieurs profils hybrides apparaissent : ingénieur efficience énergétique (40-55 k€ junior), ingénieur cooling/thermique (60-85 k€ confirmé), responsable GreenOps/CSRD (90-130 k€+), ainsi que MLOps/FinOps orientés réduction dempreinte carbone (55-95 k€).

IA générative et électricité : pourquoi ça consomme autant [Chiffres]

Entraîner un grand modèle de langage demande aujourd'hui plusieurs dizaines de millions d'heures-GPU, et chaque requête envoyée à un chatbot consomme un ordre de grandeur supérieur à une recherche web classique.

Selon l'Agence internationale de l'énergie (AIE, rapport Electricity 2024), la consommation mondiale des data centers pourrait plus que doubler d'ici 2026 par rapport à 2022, portée principalement par l'IA générative.

Comprendre pourquoi les LLM consomment autant suppose de distinguer deux phases (entraînement et inférence), les ordres de grandeur réels, et les leviers techniques qui commencent à infléchir la courbe.

Décryptage chiffré, sources publiques à l'appui, et impacts pour les métiers de l'efficience énergétique des data centers.

1. Pourquoi la consommation explose : scaling laws et déploiement de masse

Jusqu'en 2018, la majorité des modèles de NLP comptaient quelques centaines de millions de paramètres. En quelques années, l'échelle a changé d'ordre de grandeur : GPT-3 (2020) avec 175 milliards de paramètres, Llama 3.1 405B (2024) et les grands modèles propriétaires (GPT-4, Claude, Gemini) estimés au-delà de la barre des centaines de milliards, avec des architectures denses ou en mélange d'experts (MoE).

Cette inflation est documentée par les travaux dits de scaling laws : Kaplan et al. (2020) chez OpenAI, puis Hoffmann et al. (2022, Chinchilla) chez DeepMind, ont montré que la performance d'un modèle suit une loi de puissance dépendant à la fois de la taille du modèle, du volume de données d'entraînement et du compute total. En pratique, doubler la performance d'un LLM impose souvent de quadrupler le compute.

À cette explosion du compute d'entraînement s'ajoute la massification de l'inférence : chatbots grand public, copilotes intégrés dans les suites bureautiques, agents IA, génération d'images et de vidéo. Cette double dynamique — modèles plus gros et usage de masse — explique pourquoi l'IA est devenue le premier moteur de croissance de la demande électrique des data centers selon l'AIE.

À retenir : la demande énergétique d'un LLM ne dépend pas uniquement de sa taille, mais du produit taille × données × utilisation. Un modèle plus petit déployé à très large échelle peut consommer davantage qu'un modèle géant utilisé occasionnellement.

Cette mécanique change la nature du problème : ce n'est plus seulement l'entraînement (ponctuel, programmable la nuit, planifiable géographiquement) qui pèse, mais l'inférence en continu, qui suit la courbe d'usage 24/7 — avec des pics de demande qui sollicitent le réseau électrique exactement au mauvais moment.

2. Phase d'entraînement : combien consomme réellement un LLM ?

Les chiffres publics sur la consommation d'entraînement sont rares, mais quelques jalons existent. Le papier original de GPT-3 (Brown et al., 2020) et l'analyse de Patterson et al. (2021, Google/Berkeley) évaluent l'entraînement de GPT-3 à environ 1 287 MWh d'électricité, pour une empreinte d'environ 552 tCO₂e selon le mix électrique utilisé.

Pour Llama 3.1 (405B), Meta a déclaré officiellement dans la model card publiée en juillet 2024 un total cumulé de ~30,84 millions d'heures-GPU H100-80GB pour l'ensemble de la famille Llama 3, pour une empreinte estimée à environ 11 390 tCO₂e (avant compensations). Pour GPT-4, OpenAI n'a pas publié de chiffre officiel, mais les estimations indépendantes situent l'entraînement dans la fourchette de plusieurs GWh, soit un ordre de grandeur au-dessus de GPT-3.

Le poste dominant reste les GPU : un H100 affiche un TDP de ~700 W, un H200 environ 1 000 W, et la nouvelle génération GB200 Grace Blackwell de NVIDIA monte au-delà. À ce socle s'ajoutent la mémoire HBM, les interconnects haut débit (NVLink, NVSwitch, InfiniBand), le refroidissement et les pertes onduleur/transformateur — soit, à l'échelle d'un cluster d'entraînement de plusieurs dizaines de milliers de GPU, des dizaines de MW en pointe.

Modèle	Paramètres	Énergie d'entraînement (estimée)	Source
GPT-3	175 Md	~1 287 MWh	Patterson et al. 2021
Llama 3 (famille)	jusqu'à 405 Md	~30,8 M h-GPU H100 ≈ plusieurs dizaines de GWh selon PUE et utilisation effective	Meta, Llama 3.1 model card (juil. 2024)
GPT-4	non communiqué	Plusieurs GWh (estimations indépendantes)	Analyses SemiAnalysis, presse spécialisée
BLOOM (176B)	176 Md	~433 MWh (mix bas-carbone, IDRIS/CNRS)	Luccioni et al. 2022, BigScience

Note méthodologique : ces chiffres incluent l'électricité GPU + overhead datacenter (PUE). Les estimations varient selon le PUE retenu, le mix électrique du site et la prise en compte ou non du fine-tuning.

Attention : les chiffres d'entraînement publiés excluent souvent la R&D amont (hyperparameter search, expériences abandonnées), qui peut représenter plusieurs fois la dépense de l'entraînement final retenu. L'empreinte réelle d'un modèle est donc systématiquement sous-estimée par les model cards.

3. Phase d'inférence : peu par requête, beaucoup au total

Une seule requête à un chatbot consomme peu — quelques wattheures selon les estimations publiées — mais multipliée par des centaines de millions de requêtes quotidiennes, l'inférence devient la principale source de demande électrique des modèles d'IA. Plusieurs travaux convergent : McKinsey, Goldman Sachs Energy Research et l'AIE estiment que l'inférence représente déjà la majorité du compute IA mondial déployé en production.

Les travaux de Sasha Luccioni (Hugging Face) et al. (« Power Hungry Processing », 2023-2024) ont produit l'une des premières mesures empiriques systématiques par type de tâche. Ils confirment que la nature de la tâche compte autant que la taille du modèle : générer une image ou une vidéo consomme un à plusieurs ordres de grandeur de plus qu'une requête texte.

Type de tâche IA	Ordre de grandeur (Wh / requête)	Référence comparée
Recherche Google « classique » (historique)	~0,3 Wh	Google, communications historiques
Requête conversationnelle texte (chatbot, courte)	~1 à 3 Wh (ordres de grandeur publiés)	Estimations IEA, presse spécialisée
Génération texte longue (résumé, code)	~3 à 10 Wh	Luccioni et al. 2024
Classification d'image	~0,002 à 0,03 Wh	Luccioni et al. 2024
Génération d'image (diffusion)	~1 à 3 Wh par image	Luccioni et al. 2024
Génération vidéo (texte → vidéo)	plusieurs dizaines à centaines de Wh (estimations indicatives)	Estimations sectorielles, à confirmer

Important : ces chiffres varient d'un facteur 10 selon la méthodologie retenue (modèle utilisé, longueur de la sortie, matériel, PUE, taux d'utilisation du GPU). Toute comparaison hors contexte est trompeuse. Les system cards d'OpenAI, Anthropic et Google fournissent désormais des éléments mais restent incomplètes.

À l'échelle d'un produit grand public, l'inférence se traduit par une consommation annuelle qui peut dépasser celle de l'entraînement initial en quelques mois d'exploitation. C'est pourquoi les efforts d'optimisation (quantification INT8/FP8/INT4, distillation, mixture of experts, caching) se concentrent désormais sur l'inférence plus que sur l'entraînement.

4. Empreinte des data centers IA : PUE, densité, eau

La consommation d'un cluster IA ne se limite pas aux GPU. Le PUE (Power Usage Effectiveness) mesure le ratio entre énergie totale consommée et énergie utile aux serveurs : un PUE de 1,5 signifie que pour 1 kWh d'IT, 0,5 kWh part dans le refroidissement, l'éclairage et les pertes. Selon l'Uptime Institute Global Data Center Survey, le PUE moyen mondial s'est stabilisé autour de 1,5-1,6 ces dernières années. L'ADEME retient une valeur proche pour la France (~1,55).

Les nouveaux data centers IA visent des PUE bien plus bas — 1,1 à 1,2 — grâce au refroidissement liquide direct (Direct Liquid Cooling) et à l'immersion cooling. La densité par rack a explosé : autour de 5-15 kW/rack pour un data center cloud généraliste, contre 30 à 100 kW/rack voire plus pour les baies NVIDIA DGX/HGX/GB200. C'est cette densité qui rend l'air conditionné traditionnel inopérant.

WUE : la question de l'eau

Le Water Usage Effectiveness mesure les litres d'eau par kWh IT. Le refroidissement adiabatique (évaporatif) consomme de l'eau pour gagner en efficacité électrique. Selon les opérateurs, le WUE moyen se situe entre 0,2 et 1,8 L/kWh. Dans les régions tendues sur l'eau, c'est un point bloquant.

Intensité carbone du réseau

À PUE équivalent, l'empreinte CO₂ d'une même heure-GPU varie d'un facteur 10 selon la localisation. La France (~57 gCO₂e/kWh, RTE Bilan électrique), la Norvège, l'Islande et le Québec attirent ainsi les fermes IA cherchant un mix bas-carbone, à l'inverse de régions au mix charbon/gaz dominant.

Bon à savoir : la directive européenne EED révisée (2023/1791, art. 12) impose désormais aux data centers de plus de 500 kW de publier annuellement leur consommation, PUE, WUE, taux d'énergies renouvelables et chaleur récupérée. Cette transparence va structurer le marché européen à partir de 2024-2025.

5. Projections agrégées : AIE, McKinsey, Goldman Sachs, RTE

Le rapport AIE Electricity 2024 a publié l'une des premières fourchettes officielles : la consommation mondiale des data centers (IA, cryptomonnaies incluses) pourrait passer d'environ 460 TWh en 2022 à une fourchette de 620 à 1 050 TWh d'ici 2026, soit l'équivalent de la consommation annuelle de pays entiers comme le Japon dans le scénario haut.

Cette fourchette large s'explique par les incertitudes sur la vitesse de déploiement de l'IA générative et sur les gains d'efficience matériels et logiciels. Goldman Sachs (rapport 2024) anticipe une hausse de +160 % de la demande data centers d'ici 2030, et McKinsey converge vers un doublement à 2030. SemiAnalysis et IDC partagent cette tendance.

Projection de la consommation électrique mondiale des data centers (TWh). Source : AIE Electricity 2024, fourchette basse / haute à 2026.

En France, la consommation des data centers est estimée aujourd'hui à environ 10 TWh/an, soit ~2 % de la consommation électrique nationale (sources : RTE, France Datacenter, ADEME). Les scénarios RTE Futurs Énergétiques 2050 et les bilans annuels prévoient un quasi-doublement à horizon 2030, vers 20-25 TWh selon le rythme d'implantation des projets annoncés.

À nuancer : ces projections sont des fourchettes, pas des certitudes. Elles supposent que la trajectoire actuelle de croissance de l'IA se poursuit et que les gains d'efficience matériels (Blackwell, refroidissement liquide) ne compensent qu'en partie l'effet rebond. Une rupture algorithmique (modèles bien plus petits à performance équivalente) pourrait inverser la tendance.

6. Solutions techniques et nouveaux métiers de l'efficience

Plusieurs leviers se déploient en parallèle pour infléchir la trajectoire énergétique. Aucun ne suffit seul ; c'est leur combinaison qui détermine la pente réelle de la courbe à 2030.

Mix électrique décarboné

PPA renouvelables, contrats long terme nucléaire, implantation sur réseaux à faible intensité carbone (France, Nordiques, Québec).

Modèles plus petits + RAG

Distillation, quantification INT8/FP8/INT4, Mixture-of-Experts (MoE), retrieval augmented generation : même qualité avec moins de paramètres actifs.

Edge AI

Inférence sur NPU intégrés (smartphones, PC), évitant un aller-retour data center pour les tâches simples.

Refroidissement liquide

DLC, immersion biphasique, échangeurs sur boucle d'eau. Cible : PUE 1,1-1,2 sur baies à 50-100 kW.

Récupération de chaleur fatale

Chauffage urbain (projets Île-de-France, piscines), serres agricoles. Valorisation imposée par la loi française pour les nouvelles installations.

Réglementation

CSRD (scope 2 électricité + scope 3 usage produits), directive EED art. 12, décret tertiaire en France.

Nouveaux métiers : efficience énergétique data center

Cette pression réglementaire et économique fait émerger des profils hybrides à la croisée de l'énergétique du bâtiment, du génie thermique, du data engineering et de la finance. Quelques exemples observés sur le marché français :

Métier	Mission	Salaire brut annuel (estimation)
Ingénieur efficience énergétique data center (junior)	Suivi PUE/WUE, audit consommation, optimisation cooling	~40-55 k€
Ingénieur cooling / thermique data center (confirmé)	Conception DLC, immersion, récupération chaleur fatale	~60-85 k€
Responsable efficience / GreenOps (expert)	Pilotage stratégie carbone, conformité CSRD/EED, PPA	~90-130 k€+
MLOps « green » / FinOps + GreenOps	Optimisation coût + carbone des pipelines IA	~55-95 k€

Estimations indicatives basées sur les offres publiées par France Datacenter, l'APEC et les retours de cabinets de recrutement spécialisés (2024-2025). À nuancer selon la région, la taille de l'opérateur et l'ancienneté.

Conclusion : une trajectoire à infléchir, pas une fatalité

La consommation électrique de l'IA générative est aujourd'hui dominée par l'inférence plus que par l'entraînement, et la trajectoire pointée par l'AIE, Goldman Sachs, McKinsey et RTE va dans le sens d'un quasi-doublement à horizon 2030. Mais les fourchettes restent larges : la pente effective dépendra des gains matériels (Blackwell, refroidissement liquide), des ruptures algorithmiques (MoE, quantification, modèles spécialisés petits) et du cadre réglementaire européen (EED, CSRD).

Pour les professionnels de l'industrie et des data centers, cette pression ouvre un champ d'opportunités métiers — efficience énergétique, cooling, GreenOps — où la demande dépasse déjà l'offre. La question stratégique n'est plus « combien consomme l'IA ? » mais « où et comment la consomme-t-on, et que fait-on de la chaleur fatale ? ».

Pourquoi l'IA générative consomme autant d'électricité (chiffres clés et projections)

1. Pourquoi la consommation explose : scaling laws et déploiement de masse

2. Phase d'entraînement : combien consomme réellement un LLM ?

3. Phase d'inférence : peu par requête, beaucoup au total