Simulateur des émissions de GES de l’IA générative

Ce simulateur propose une estimation des émissions de gaz à effet de serre (CO₂e) générées par les systèmes d’IA générative, à partir de la méthode de modélisation TokenFlop développée par Digital4Better. Il couvre les phases d’entraînement et d’inférence, intègre l’empreinte de fabrication et d’usage du matériel, et prend en charge les modalités texte, image, audio et vidéo.

La méthode TokenFlop est issue du programme de recherche Data4Impact, lauréat du concours d’innovation BPI/ADEME, mené par Digital4Better pour développer des outils rigoureux d’évaluation de l’impact environnemental du numérique.

Découvrir la méthodologie TokenFlop complète

Token

Unité universelle : ~4 caractères pour du texte, patchs spatiaux pour les images, frames temporels pour la vidéo/audio.

FLOPs

Charge de calcul estimée selon le cas d’usage (6×P pour l’entraînement, 2×P×tokens pour l’inférence).

Temps GPU

FLOPs ÷ (capacité GPU × MFU). MFU entre 25% et 50%, défaut 40%.

Énergie

Puissance GPU × temps × PUE (efficacité datacenter, défaut 1.2).

Carbone

Énergie × facteur d’émission régional + fabrication matériel amortie sur 5 ans.

Modèle IA

Tokens par jour

Région datacenter

0.0e+0

kg CO₂e / mois

0.0e+0

kWh / mois

0.0M

tokens / mois

—

0% opérationnel, 100% fabrication (carbone embarqué).

Les résultats sont des ordres de grandeur issus d’une modélisation théorique à partir de données publiques. Ils ne constituent pas une mesure directe des émissions réelles. Les résultats dépendent des paramètres saisis et des hypothèses ; consultez la méthodologie pour connaître le périmètre et les limites.

Méthodologie TokenFlop

Modélisation bottom-up : estimation de la charge de calcul (FLOPs) à partir de l’usage du modèle, conversion en temps GPU, puis en consommation énergétique et émissions GES. Intégration de l’empreinte de fabrication selon une logique ACV (ISO 14040 / ITU L.1410).^[3][4]

Unité de base et données d’entrée

L’unité de base est le token — unité discrète que le modèle manipule en entrée/sortie. Selon la modalité, ce token peut être un fragment de mot, une position spatiale, ou une unité temporelle codée.

Modalité	Ce qu’est un token	Exemple
Texte	Fragment de mot (3-4 caractères en moyenne)	1 000 tokens ≈ 750 mots en anglais
Image	Patch spatial (ex. 16×16 px)
Audio	Token temporel (codec, ex. EnCodec)
Vidéo	Token spatial par frame × nombre de frames

Estimation de la charge de calcul (FLOPs)

La charge de calcul est estimée selon la phase d’utilisation :^[1]

Phase	Formule
Entraînement
Fine-tuning
Inférence — prompt
Inférence — génération texte
Génération d’image
Génération vidéo

Hypothèse d’inférence : présence systématique d’un cache KV, réduisant le coût du prompt à ~1 FLOP par paramètre/token.

Conversion en temps GPU (GPUh)

Les FLOPs sont convertis en temps de calcul effectif :

: Capacité théorique du GPU en FLOP/h (ex. 989 TFLOPS FP8 pour un H100)
MFU : Model FLOP Utilization — pourcentage de la capacité réellement exploitable, estimé entre 25% et 50%. Valeur par défaut : 40%.^[8]

Conversion en consommation énergétique

Le temps GPU est traduit en énergie consommée :

: Puissance du GPU en watts (ex. 700 W pour un H100)
PUE : Power Usage Effectiveness — efficacité énergétique du datacenter. Valeur par défaut : 1.2

Impact environnemental opérationnel

L’énergie est convertie en émissions GES via le facteur d’émission du mix électrique régional :

: facteur d’émission par région, issu du référentiel open data Digital4Better (ex. 0,420 kgCO₂e/kWh pour les États-Unis, 0,040 kgCO₂e/kWh pour la France).^[6]

Impact de fabrication (empreinte intrinsèque)

L’empreinte de fabrication du matériel est allouée proportionnellement au temps d’usage :

Durée de vie par défaut : 5 ans. Les composants serveur hors GPU (CPU, RAM, stockage, châssis) sont distribués proportionnellement au nombre de GPU par serveur, selon une logique ACV (ISO 14040 / ITU L.1410).^[3][4]

Validation — Llama 3.1 405B

Pour vérifier la cohérence, TokenFlop a été appliqué au modèle open-source Llama 3.1 (405B paramètres), entraîné sur ~15 000 milliards de tokens avec 24 576 GPU H100 :

Modèle	Temps GPU estimé	Émissions estimées
Llama 3.1 8B	1,46 M GPUh	~420 tCO₂e
Llama 3.1 70B	7,0 M GPUh	~2 040 tCO₂e
Llama 3.1 405B	30,84 M GPUh	~8 930 tCO₂e

Écart avec les données Hugging Face : < 2%, validant la cohérence de la modélisation. Pour l’inférence, avec un prompt moyen de 400 tokens sur Llama 3.1 405B : ~0,1 gCO₂e par requête.^[5]

Hypothèses et limites

Les résultats sont des estimations par modélisation théorique et ne constituent pas une mesure directe des émissions réelles. Principales sources d’incertitude :

Caractéristiques réelles des modèles souvent confidentielles (données d’entraînement, MFU effectif, nombre de couches).
Absence de données ACV fiables sur certains équipements spécifiques à l’IA.
Spécificités des TPU, FPGA et ASIC non prises en compte.
L’adéquation mémoire modèle/matériel n’est pas vérifiée.

La méthode est adaptée à la comparaison relative de scénarios, au cadrage de projets et à l’évaluation prospective — pas au reporting certifié d’émissions.

Bibliographie

Schwartz, R., et al. (2020). Green AI. Communications of the ACM. arXiv: 1907.10597
IEA (2024). Energy and AI.
ISO 14040/14044. Environmental management — Life Cycle Assessment.
ITU L.1410. Methodology for the assessment of the environmental life cycle impact of ICT goods, networks and services.
Meta (2024). The Llama 3 Herd of Models. arXiv: 2407.21783
Digital4Better. Open Data Repository. digital4better.github.io/data
Digital4Better. Open Methodology for Generative AI. digital4better.github.io/methodology/ai
NVIDIA (2025). Llama 3.1 70B DGXC Benchmarking.