Avec l’arrivée des modèles de raisonnement, de code et des systèmes autonomes, la consommation de l’intelligence artificielle par les entreprises augmente. Le coût à la fin du mois, lui, est de plus en plus difficile à prévoir.
« On est le 10 du mois et j’ai déjà consommé tous mes crédits sur Claude Code. Avez-vous des conseils pour demander une rallonge à mon manager ? » Sur Reddit, le réseau social des anonymes, les témoignages pullulent.
Nombre de développeurs décrivent leurs difficultés actuelles face à leur consommation croissante de « tokens » d’intelligence artificielle (IA), ces unités de données traitées par les modèles d’IA pendant l’entraînement et l’inférence, et leurs astuces pour réduire la facture.
Car si l’usage des modèles d’IA pour répondre à un mail, écrire du code ou programmer des agents autonomes grandit au sein des entreprises, la tarification, elle aussi, évolue. Et l’augmentation spectaculaire des capacités des « modèles frontières » va de pair avec une facture de plus en plus dodue.
A tel point que certains directeurs financiers pourraient bientôt s’arracher les cheveux devant les dépenses internes, si les « crédits » ne sont pas correctement contrôlés. L’addition est désormais nettement moins facile à prévoir que pour une classique licence Microsoft 365 ou Salesforce.
La peur d’un « chèque en blanc »
« L’évolution des prix devient difficilement contrôlable à l’échelle d’une entreprise, confirme Charlotte Seguin, associée stratégie IA et transformation augmentée chez Magellan Consulting. Les entreprises auront de quoi investir dans l’IA, mais désormais, la question est plutôt celle du pilotage concret de ce budget. Les organisations ne peuvent pas faire un chèque en blanc. »
Il y a trois ans, avec les premiers modèles d’IA, les prix étaient clairs et alignés selon les fournisseurs : Google, OpenAI et consorts proposaient le plus souvent une offre gratuite grand public, une offre payante accessible entre 10 et 20 dollars par mois et une offre professionnelle entre 100 et 200 dollars par utilisateur. Côté développeurs, ils payaient déjà au « token » pour accéder à l’interface de l’application (API).
Désormais, avec le traitement de tâches plus complexes – résoudre un problème de recherche, créer des fichiers de calcul, construire une application de bout en bout -, la demande en capacités de calcul du modèle est plus élevée. Ainsi, quand il a utilisé tous les crédits affiliés à son abonnement, un développeur peut payer à l’unité token (ou plutôt par paquet d’un million), ce qui peut rapidement gonfler la facture, jusqu’à plusieurs milliers de dollars par mois pour les plus gourmands.
Réflexes de frugalité
« Depuis trois ans, le prix au token pour une tâche donnée n’a fait que baisser. Mais comme les usages sont bien plus complexes, la facture, elle, augmente significativement », résume Julien Laugel, directeur data au sein du cabinet Ekino.
Le prix du token est divisé par dix en moyenne chaque année. Alors que la consommation, elle, grandit avec l’arrivée des modèles de raisonnement et de l’agentique. « Les développeurs deviennent des machines à consommer du token. On commence donc à avoir des réflexes de frugalité, mais la question va devenir de plus en plus prégnante à mesure que les organisations adoptent l’IA », ajoute l’expert.
Désormais, les entreprises doivent donc choisir à qui elles attribuent les licences les plus coûteuses et qui les exploitera au mieux. Elles s’interrogent aussi sur la rentabilité de ces dépenses. « Dans le cas des développeurs, on peut évaluer relativement facilement le retour sur investissement. Pour la plupart des autres usages, c’est beaucoup plus compliqué », fait valoir Charlotte Seguin, qui raconte que ses clients font désormais face à une galaxie de choix de technologies, de fournisseurs et de prix dans laquelle il n’est pas simple de se retrouver.
Optimiser la consommation
Et la tendance s’accélère. « Nos modèles propriétaires traitent plus de 16 milliards de tokens par minute via l’utilisation directe de l’API par nos clients, contre 10 milliards au quatrième trimestre 2025 », précise-t-on chez Google.
Pour les fournisseurs, le basculement progressif vers une consommation au token se généralise car elle résout un problème fondamental : comment facturer un service dont la consommation de ressources est extrêmement variable d’une requête à l’autre, contrairement aux logiciels traditionnels ?
Cette nouvelle donne permet aux fournisseurs de réduire la surcharge sur les serveurs. Comme chaque mot se paie, les développeurs utilisent des techniques d’optimisation de leur consommation. « Aujourd’hui, ma première limite d’innovation et d’expérimentation sur l’IA, c’est clairement ma réserve de tokens », glisse un développeur.
Le prix payé par les utilisateurs d’IA demeure néanmoins inférieur à ce que déboursent les grands fournisseurs (puces, data centers, entraînement), qui brûlent des milliards de dollars de cash chaque année.






































