Simulateur des émissions de GES de l’IA générative
Ce simulateur propose une estimation des émissions de gaz à effet de serre (CO₂e) générées par les systèmes d’IA générative, à partir de la méthode de modélisation TokenFlop développée par Digital4Better. Il couvre les phases d’entraînement et d’inférence, intègre l’empreinte de fabrication et d’usage du matériel, et prend en charge les modalités texte, image, audio et vidéo.
La méthode TokenFlop est issue du programme de recherche Data4Impact, lauréat du concours d’innovation BPI/ADEME, mené par Digital4Better pour développer des outils rigoureux d’évaluation de l’impact environnemental du numérique.
Simulateur d’impact IA
Estimez l’empreinte environnementale de votre usage IA en temps réel.
0% opérationnel, 100% fabrication (carbone embarqué).
Méthodologie TokenFlop
Modélisation bottom-up : estimation de la charge de calcul (FLOPs) à partir de l’usage du modèle, conversion en temps GPU, puis en consommation énergétique et émissions GES. Intégration de l’empreinte de fabrication selon une logique ACV (ISO 14040 / ITU L.1410).[3][4]
Unité de base et données d’entrée
L’unité de base est le token — unité discrète que le modèle manipule en entrée/sortie. Selon la modalité, ce token peut être un fragment de mot, une position spatiale, ou une unité temporelle codée.
| Modalité | Ce qu’est un token | Exemple |
|---|---|---|
| Texte | Fragment de mot (3-4 caractères en moyenne) | 1 000 tokens ≈ 750 mots en anglais |
| Image | Patch spatial (ex. 16×16 px) | |
| Audio | Token temporel (codec, ex. EnCodec) | |
| Vidéo | Token spatial par frame × nombre de frames |
Estimation de la charge de calcul (FLOPs)
La charge de calcul est estimée selon la phase d’utilisation :[1]
| Phase | Formule |
|---|---|
| Entraînement | |
| Fine-tuning | |
| Inférence — prompt | |
| Inférence — génération texte | |
| Génération d’image | |
| Génération vidéo |
Hypothèse d’inférence : présence systématique d’un cache KV, réduisant le coût du prompt à ~1 FLOP par paramètre/token.
Conversion en temps GPU (GPUh)
Les FLOPs sont convertis en temps de calcul effectif :
- : Capacité théorique du GPU en FLOP/h (ex. 989 TFLOPS FP8 pour un H100)
- MFU : Model FLOP Utilization — pourcentage de la capacité réellement exploitable, estimé entre 25% et 50%. Valeur par défaut : 40%.[8]
Conversion en consommation énergétique
Le temps GPU est traduit en énergie consommée :
- : Puissance du GPU en watts (ex. 700 W pour un H100)
- PUE : Power Usage Effectiveness — efficacité énergétique du datacenter. Valeur par défaut : 1.2
Impact environnemental opérationnel
L’énergie est convertie en émissions GES via le facteur d’émission du mix électrique régional :
- : facteur d’émission par région, issu du référentiel open data Digital4Better (ex. 0,420 kgCO₂e/kWh pour les États-Unis, 0,040 kgCO₂e/kWh pour la France).[6]
Impact de fabrication (empreinte intrinsèque)
L’empreinte de fabrication du matériel est allouée proportionnellement au temps d’usage :
Durée de vie par défaut : 5 ans. Les composants serveur hors GPU (CPU, RAM, stockage, châssis) sont distribués proportionnellement au nombre de GPU par serveur, selon une logique ACV (ISO 14040 / ITU L.1410).[3][4]
Validation — Llama 3.1 405B
Pour vérifier la cohérence, TokenFlop a été appliqué au modèle open-source Llama 3.1 (405B paramètres), entraîné sur ~15 000 milliards de tokens avec 24 576 GPU H100 :
| Modèle | Temps GPU estimé | Émissions estimées |
|---|---|---|
| Llama 3.1 8B | 1,46 M GPUh | ~420 tCO₂e |
| Llama 3.1 70B | 7,0 M GPUh | ~2 040 tCO₂e |
| Llama 3.1 405B | 30,84 M GPUh | ~8 930 tCO₂e |
Écart avec les données Hugging Face : < 2%, validant la cohérence de la modélisation. Pour l’inférence, avec un prompt moyen de 400 tokens sur Llama 3.1 405B : ~0,1 gCO₂e par requête.[5]
Hypothèses et limites
Les résultats sont des estimations par modélisation théorique et ne constituent pas une mesure directe des émissions réelles. Principales sources d’incertitude :
- Caractéristiques réelles des modèles souvent confidentielles (données d’entraînement, MFU effectif, nombre de couches).
- Absence de données ACV fiables sur certains équipements spécifiques à l’IA.
- Spécificités des TPU, FPGA et ASIC non prises en compte.
- L’adéquation mémoire modèle/matériel n’est pas vérifiée.
La méthode est adaptée à la comparaison relative de scénarios, au cadrage de projets et à l’évaluation prospective — pas au reporting certifié d’émissions.
Bibliographie
- Schwartz, R., et al. (2020). Green AI. Communications of the ACM. arXiv: 1907.10597
- IEA (2024). Energy and AI.
- ISO 14040/14044. Environmental management — Life Cycle Assessment.
- ITU L.1410. Methodology for the assessment of the environmental life cycle impact of ICT goods, networks and services.
- Meta (2024). The Llama 3 Herd of Models. arXiv: 2407.21783
- Digital4Better. Open Data Repository. digital4better.github.io/data
- Digital4Better. Open Methodology for Generative AI. digital4better.github.io/methodology/ai
- NVIDIA (2025). Llama 3.1 70B DGXC Benchmarking.


