Faire tourner un modèle d'IA sur sa propre machine plutôt que dans le cloud n'est plus réservé aux laboratoires. Avec les modèles ouverts et les bons outils, un serveur — voire un poste de travail bien dimensionné — suffit. Pour qui accorde de l'importance à la souveraineté des données, c'est souvent l'option la plus cohérente.

Le principe : vos prompts, vos documents, vos embeddings ne quittent jamais votre infrastructure. Pas d'API tierce, pas de facturation à l'usage, pas de fuite possible.

Pourquoi faire de l'IA en local ?

Argument En clair
🔒 Confidentialité Les données restent chez vous — RGPD-friendly par construction
🇪🇺 Souveraineté Aucune dépendance à un fournisseur cloud étranger
💸 Coût Pas de facturation par token ; le matériel est amorti une fois
📴 Hors-ligne Fonctionne sans Internet, dans un réseau isolé
🎛️ Contrôle Vous choisissez le modèle, la version, le réglage — rien ne change sans votre validation

Quand l'utiliser (et quand non)

L'IA locale brille quand :

  • les données sont sensibles (santé, juridique, RH, secrets industriels) ;
  • le volume est élevé et répétitif (classification, extraction, embeddings de masse) ;
  • vous voulez une brique stable qui ne dépend pas d'une API qui change.

Le cloud reste pertinent quand :

  • vous avez besoin du meilleur raisonnement disponible (gros modèles propriétaires) ;
  • la charge est ponctuelle et ne justifie pas d'investir dans du matériel ;
  • vous prototypez vite sans gérer d'infrastructure.

En pratique, beaucoup d'architectures sont hybrides : le local pour le volume et le sensible, le cloud pour les tâches de pointe.

Les outils pour démarrer

Outil Pour quoi
Ollama Lancer un LLM local en une commande (ollama run mistral)
llama.cpp Le moteur d'inférence C/C++ ultra-portable (CPU/GPU)
LM Studio Interface graphique pour tester des modèles locaux
vLLM Service d'inférence haute performance pour la production
text-embeddings-inference Servir des modèles d'embeddings (recherche sémantique)

Quels modèles ?

L'écosystème ouvert est riche — et la France y occupe une place solide :

  • Mistral / Mixtral (🇫🇷 Mistral AI) — excellents modèles ouverts, performants et légers.
  • Llama (Meta) — la famille de référence, multilingue.
  • Qwen — très bon rapport taille/qualité, fort en code.
  • e5 / BGE — pour les embeddings (recherche sémantique, RAG).

Pour de la recherche sémantique souveraine, un modèle d'embeddings local comme e5 couplé à une base vectorielle (MariaDB VECTOR, pgvector, Qdrant…) permet d'indexer et d'interroger ses documents sans qu'aucune donnée ne sorte.

Un mot sur le matériel

  • CPU seul : suffisant pour des petits modèles (≤ 7B quantifiés) et des embeddings.
  • GPU : indispensable pour des modèles plus gros ou un débit élevé. La quantification (4-bit, 5-bit) divise les besoins en mémoire par 3 à 4 sans trop perdre en qualité.
  • RAM : comptez en gros la taille du modèle quantifié + une marge.

Les cartes pour l'IA embarquée / edge

Pour de l'inférence locale ou embarquée, il n'est pas nécessaire de viser une machine surdimensionnée : l'offre va du microcontrôleur à quelques euros au module plus robuste (prix approximatifs 2026, HT) :

Référence Type Prix ~ Pour quoi
ESP32-S3 Microcontrôleur + mini-NPU 3-8 € Détection simple, mots-clés, mouvement
Sipeed Maix (Kendryte K210) Module IA 10-30 € Vision légère, détection d'objets basique
Google Coral USB Accelerator Accélérateur Edge TPU (USB) 60-80 € Booste un Raspberry Pi pour l'inférence
Raspberry Pi 5 + HAT Hailo-8L SBC + accélérateur 70 € + 70 € Vision temps réel, combo polyvalent
Orange Pi 5 / Rockchip RK3588 SBC avec NPU (~6 TOPS) 80-150 € Bon rapport perf/prix, sans NVIDIA
NVIDIA Jetson Orin Nano Module IA (standard robot/drone) 250-400 € Navigation autonome, modèles plus lourds
NVIDIA Jetson Orin NX Module IA haut de gamme 500-700 € Multi-caméras, IA exigeante

Où acheter (France/EU) : Kubii, Gotronic, Génération Robots (FR) · Reichelt, Mouser, DigiKey, RS (EU) · Seeed Studio, Sipeed (modules). NVIDIA Jetson via distributeurs agréés.

À l'autre extrême : le serveur d'IA à 1 million d'euros

Pour bien situer l'échelle, regardons ce que les grands labos (Anthropic, OpenAI…) empilent par milliers pour entraîner leurs modèles. Rien à voir avec l'inférence locale.

Une configuration type à ~1 M€ (2026), en mode devis :

Réf Libellé Qté Prix unitaire Total
NV-B200 GPU NVIDIA B200 — 192 Go HBM3e, 20 PFLOPS FP4 16 50 000 € 800 000 €
CPU-SRV Processeur serveur (Grace ARM / EPYC) 4 8 000 € 32 000 €
RAM-1TB RAM DDR5 ECC (module 1 To) 4 11 000 € 44 000 €
IB-NIC Carte réseau InfiniBand 400 Gb/s 8 2 500 € 20 000 €
NVMe-30 Stockage NVMe 30 To 7 4 500 € 31 500 €
HGX-BB Baseboard HGX + châssis + alimentations 2 28 000 € 56 000 €
COOL-LIQ Refroidissement liquide (1000 W/GPU) 1 25 000 € 25 000 €
SW-IB Switch InfiniBand 400-800 Gb/s 1 28 000 € 28 000 €
TOTAL HT ≈ 1 036 500 €

Interconnexion NVLink / NVSwitch entre GPU incluse dans le baseboard HGX. Et ce devis ne couvre qu'un seul nœud.

Repères : un serveur 8× B200 coûte ~450 000 € ; un rack complet GB200 NVL72 (72 GPU + 36 CPU Grace, 13,4 To de mémoire unifiée, 1,44 exaflops FP4) tourne autour de 3 millions d'€. Et les laboratoires en déploient… des milliers.

La morale de l'échelle :

ESP32 (5 €)  ───►  Jetson (300 €)  ───►  PC GPU (3-5 000 €)  ───►  Serveur B200 (1 M€)  ───►  Rack GB200 (3 M€)
   IA embarquée          edge / robot          IA locale costaud         entraînement labo        cluster frontier
  • Entraîner un modèle de pointe → c'est le monde du million d'euros (réservé aux géants).
  • Faire tourner un modèle ouvert (Mistral, Llama…) en local → quelques centaines à quelques milliers d'euros suffisent.

🎯 La bonne nouvelle pour la souveraineté : vous n'avez pas besoin d'une telle infrastructure. L'entraînement relève des laboratoires ; l'usage, lui, reste accessible. Un modèle ouvert quantifié, sur une machine modeste, fonctionne chez vous, sans cloud et sans facturation à l'usage.

Le bon setup pour un développeur

Entre le drone à 5 € et le serveur à 1 M€, voici le poste réaliste pour développer avec l'IA locale : faire tourner des modèles ouverts (Mistral, Llama quantifiés) et prototyper de l'edge AI. Sous Linux, naturellement.

🖥️ Le PC (sous Linux)

Réf Libellé Qté Prix unitaire Total
OS Debian ou Ubuntu (Linux) 1 0 € 0 €
CPU AMD Ryzen 7/9 ou Intel Core i7/i9 1 450 € 450 €
GPU NVIDIA RTX 4080/4090 — 16-24 Go de VRAM 1 1 600 € 1 600 €
RAM 64 Go DDR5 1 250 € 250 €
SSD NVMe 2 To 1 150 € 150 €
CM+ALIM Carte mère + alim 850 W + boîtier 1 400 € 400 €
Sous-total PC ≈ 2 850 €

🔑 Le critère n°1 pour l'IA locale : la VRAM du GPU. ~12 Go pour des modèles 7B quantifiés, 24 Go pour du 13B-34B. NVIDIA (CUDA) reste le plus simple à mettre en œuvre.

🖥️ L'écran

Réf Libellé Qté Prix unitaire Total
ECRAN Écran 27" QHD/4K (code · doc · terminal/monitoring) 3 300 € 900 €
PERIPH Clavier mécanique + souris + casque 1 200 € 200 €

🔌 Le matériel de test (edge / embarqué)

Réf Libellé Qté Prix unitaire Total
RPI5 Raspberry Pi 5 + HAT Hailo-8L (tester l'edge AI) 1 140 € 140 €
JETSON NVIDIA Jetson Orin Nano (IA embarquée) 1 300 € 300 €
CORAL Google Coral USB (accélérateur TPU) 1 70 € 70 €
MCU ESP32-S3 + Sipeed Maix (microcontrôleurs IA) 1 40 € 40 €
LABO Alim de labo + multimètre + câbles + lecteur SD 1 120 € 120 €

💾 Le NAS — sauvegarde & Git local (RAID 6)

La souveraineté s'étend jusqu'au versioning : un NAS en RAID 6 pour les sauvegardes locales et un Git auto-hébergé — les dépôts restent chez soi, pas sur GitHub.

Réf Libellé Qté Prix unitaire Total
NAS Boîtier NAS 4 baies (Synology/QNAP) ou TrueNAS maison 1 550 € 550 €
HDD Disque dur NAS 8 To (grappe RAID 6) 4 180 € 720 €
Sous-total NAS ≈ 1 270 €

RAID 6 = 2 disques de parité → on peut en perdre 2 d'un coup sans rien perdre. Avec 4× 8 To : 16 To utiles. Usage : sauvegarde locale (restic, Borg, Time Machine…) + Git auto-hébergé (Gitea / Forgejo) — l'alternative souveraine à GitHub, sur sa propre machine.

Poste complet + matériel de test + NAS : ≈ 5 900 €. Soit toujours moins cher qu'un seul GPU de datacenter (~50 000 € la carte B200). De quoi développer, tester de l'edge AI, faire tourner des modèles souverains et héberger son code chez soi — sans cloud, sans abonnement.

Et Claude Code dans tout ça ?

Claude Code, lui, s'appuie sur des modèles cloud très puissants (voir la catégorie suivante). Les deux mondes ne s'opposent pas : on peut développer avec un agent cloud de pointe, tout en faisant tourner en production des modèles locaux souverains pour traiter ses données sensibles. Le bon outil, au bon endroit.


L'IA locale n'est pas « moins bien que le cloud » : c'est un autre compromis. Un peu moins de puissance brute, mais beaucoup plus de contrôle, de confidentialité et d'indépendance. Pour qui construit une infrastructure souveraine, c'est souvent le bon choix.