Le hardware IA : beaucoup de marketing, un peu de réalité

On a tous vu passer les publicités récentes : Apple qui met de l’avant ses iPhone compatibles avec Apple Intelligence, Microsoft qui ajoute un bouton Copilot sur certains claviers, et tout le monde qui parle soudainement de machines “AI ready”.

Soyons honnêtes : une partie de ce discours donne vraiment l’impression qu’on essaie de nous vendre de l’IA comme on vendrait une meilleure carte graphique pour jouer à des jeux vidéo. Plus de FPS, plus de pixels, plus d’IA. Sauf que ce n’est pas aussi simple.

L’intelligence artificielle, surtout les grands modèles de langage comme ChatGPT, Claude ou Gemini, est une des charges de calcul les plus exigeantes que l’informatique grand public ait eu à digérer. Pour répondre à un simple prompt, il faut faire passer des milliards de paramètres dans des GPU ou des accélérateurs spécialisés. Ça chauffe, ça consomme, ça demande de la mémoire, et ça ne ressemble pas vraiment à l’usage normal d’un téléphone.

La comparaison avec le jeu vidéo

Il faut quand même corriger une intuition : un prompt n’est pas littéralement équivalent à une partie complète de GTA V.

Un PC de jeu qui tire environ 250 W pendant une heure consomme autour de 250 Wh. Une requête texte sur un gros modèle cloud, selon la longueur du prompt, la longueur de la réponse et le modèle utilisé, peut plutôt se situer dans une fourchette de fractions de Wh à quelques Wh. Une étude sur l’énergie de l’inférence LLM estimait par exemple une médiane de 0,34 Wh pour une requête sur des modèles frontier, et 4,32 Wh pour des requêtes beaucoup plus longues avec plus de calcul au moment de répondre.

Donc non, un seul prompt n’est pas nécessairement “plus lourd” qu’une soirée de gaming. Le vrai problème, c’est l’échelle. Si une personne pose une question, ce n’est pas dramatique. Si des centaines de millions de personnes posent des milliards de questions, génèrent des images, résument des vidéos, font tourner des agents, et recommencent le lendemain, là, ça devient une infrastructure énergétique sérieuse.

L’Agence internationale de l’énergie estimait que les centres de données représentaient environ 415 TWh de consommation électrique mondiale en 2024, et que ce chiffre pourrait dépasser 900 TWh d’ici 2030. L’IA n’est pas la seule cause, mais elle est clairement un des gros moteurs de cette croissance.

Le téléphone n’est pas un centre de données

C’est là que le marketing devient bizarre.

Déjà que nos téléphones peuvent encore avoir de la difficulté à faire tourner longtemps un jeu exigeant sans chauffer, il faut être prudent quand on laisse entendre qu’un téléphone va soudainement faire rouler un équivalent complet de ChatGPT ou Claude localement.

Oui, les puces modernes ont des NPU, des Neural Processing Units. Oui, elles peuvent accélérer certaines tâches : reconnaissance d’image, transcription, correction photo, résumé local, effets de caméra, petites fonctions d’assistance. Et oui, Apple liste officiellement Apple Intelligence sur les iPhone 15 Pro, les iPhone 16 et les modèles plus récents, avec des modèles qui se téléchargent sur l’appareil.

Mais ça ne veut pas dire que le téléphone remplace l’infrastructure derrière un grand LLM. Dans beaucoup de cas, le hardware aide surtout à l’interaction, à la confidentialité pour certaines tâches locales, ou à l’efficacité de petites fonctions. Le traitement lourd, lui, reste souvent dans des machines infiniment plus puissantes que ce qu’on met dans une poche.

Bref : un bouton, une caméra ou un raccourci ne transforment pas magiquement un appareil en serveur IA.

Le bouton Copilot et le bouton caméra

Le bouton Copilot de Microsoft est un bon exemple. Microsoft a présenté le bouton comme une nouvelle porte d’entrée vers l’IA sur Windows, et il existe aussi une vraie catégorie de Copilot+ PC avec un NPU de plus de 40 TOPS. Ce n’est donc pas complètement du vent : il y a bien du hardware spécialisé derrière certaines fonctions.

Mais un bouton reste un bouton.

Il peut rendre l’accès plus rapide. Il peut encourager un nouveau réflexe utilisateur. Il peut même avoir du sens si l’OS est construit autour de fonctions IA locales. Mais ce n’est pas le bouton qui fait l’intelligence artificielle. C’est l’écosystème de modèles, de logiciels, de puces, de serveurs, de données et d’intégrations derrière.

Même chose pour l’iPhone 16 et ses contrôles liés à la caméra ou à Visual Intelligence. Personnellement, je ne trouve pas ça révolutionnaire, mais je peux reconnaître que ça se tient dans le même spectre : si l’interface sert à capturer plus vite du contexte pour une IA, on peut dire que le hardware participe à l’expérience.

Mais à ce compte-là, n’importe quelle bonne interface pourrait être appelée “AI ready”. Si une application de téléphone me permet de parler plus vite à un modèle, est-ce que l’application devient soudainement une révolution hardware IA ? Je trouve ça un peu exagéré.

Le marketing est allé trop vite

C’est exactement là que le malaise arrive. Les grandes compagnies mettent parfois le hardware IA tellement en avant qu’on a l’impression que la machine elle-même est transformée, alors que dans plusieurs cas, on parle surtout d’une combinaison de logiciel, de cloud et de quelques accélérations locales.

Apple s’est d’ailleurs retrouvée dans une controverse majeure sur ce terrain. En mai 2026, l’entreprise a accepté de payer 250 millions de dollars pour régler une action collective américaine liée au marketing de Siri et d’Apple Intelligence autour de l’iPhone 16 et de certains iPhone compatibles. Apple n’a pas admis de faute, mais le signal est quand même clair : vendre des promesses IA avant que les fonctions soient réellement prêtes, ça peut finir par coûter cher.

Ce n’est pas que les téléphones récents sont identiques aux anciens. Les puces changent, la mémoire change, les accélérateurs changent. Mais entre “ce téléphone peut exécuter certaines fonctions IA” et “ce téléphone est une machine IA révolutionnaire”, il y a une grosse marge.

La nuance : les LLM locaux arrivent

Là où je veux apporter de la nuance, c’est que les choses changent vite.

Il y a deux ans, dire qu’un consommateur normal allait faire tourner un LLM localement ressemblait presque à de la science-fiction. Aujourd’hui, ce n’est plus vrai. On peut faire tourner des modèles plus petits, comme Gemma, Phi, Qwen ou Llama, sur des ordinateurs personnels assez puissants. Google documente par exemple des modèles Gemma allant de 270M à 27B paramètres, avec des besoins mémoire qui varient énormément selon la taille et la quantification.

Petite astérisque : quand je dis “ordinateur personnel assez puissant”, je ne parle pas du vieux portable familial qui sert à envoyer des courriels. Pour avoir une expérience correcte, on parle souvent d’une machine avec 16 à 32 Go de RAM, parfois plus, et idéalement un GPU ou une puce très efficace. Pour un développeur, c’est réaliste. Pour un utilisateur normal, c’est encore beaucoup.

Et même là, installer un LLM local n’est pas comme ouvrir ChatGPT et choisir un modèle dans un menu. Il faut comprendre la taille du modèle, la quantification, la mémoire disponible, la vitesse d’inférence, la longueur du contexte, les benchmarks, et surtout l’usage réel. Si l’ordinateur passe son temps à swapper ou si le modèle mange toute la mémoire, l’expérience devient pénible très vite.

Donc oui, le hardware IA devient réel. Mais il n’est pas encore aussi simple, aussi invisible et aussi grand public que le marketing veut parfois nous le faire croire.

Je reste optimiste, mais prudent

Je ne suis pas contre l’idée du hardware spécialisé pour l’IA. Au contraire. Les NPU, les GPU plus efficaces, la mémoire unifiée, les modèles plus petits et mieux optimisés : tout ça va probablement rendre l’IA locale beaucoup plus utile dans les prochaines années.

Je ne serais pas surpris que dans cinq ans, ou même moins, on parle de hardware IA de façon beaucoup plus concrète. Des modèles locaux capables, de vraies fonctions hors ligne, de meilleures garanties de confidentialité, des assistants qui ne dépendent pas toujours du cloud : là, oui, ça devient intéressant.

Mais pour l’instant, j’ai encore l’impression qu’on vend souvent la révolution avant qu’elle soit vraiment livrée. L’IA fait avancer le hardware, c’est vrai. Mais le hardware qu’on vend aujourd’hui comme “IA” est parfois surtout une interface vers des systèmes beaucoup plus gros, beaucoup plus chers et beaucoup plus énergivores.

Et vous, est-ce que vous êtes déjà tombés dans le piège du marketing IA un peu trop enthousiaste ?