Faire tourner un modèle d'IA sur sa propre machine plutôt que dans le cloud n'est plus réservé aux laboratoires. Avec les modèles ouverts et les bons outils, un serveur — voire un poste de travail bien dimensionné — suffit. Pour qui accorde de l'importance à la souveraineté des données, c'est souvent l'option la plus cohérente.
Le principe : vos prompts, vos documents, vos embeddings ne quittent jamais votre infrastructure. Pas d'API tierce, pas de facturation à l'usage, pas de fuite possible.
Pourquoi faire de l'IA en local ?
| Argument | En clair |
|---|---|
| 🔒 Confidentialité | Les données restent chez vous — RGPD-friendly par construction |
| 🇪🇺 Souveraineté | Aucune dépendance à un fournisseur cloud étranger |
| 💸 Coût | Pas de facturation par token ; le matériel est amorti une fois |
| 📴 Hors-ligne | Fonctionne sans Internet, dans un réseau isolé |
| 🎛️ Contrôle | Vous choisissez le modèle, la version, le réglage — rien ne change sans votre validation |
Quand l'utiliser (et quand non)
L'IA locale brille quand :
- les données sont sensibles (santé, juridique, RH, secrets industriels) ;
- le volume est élevé et répétitif (classification, extraction, embeddings de masse) ;
- vous voulez une brique stable qui ne dépend pas d'une API qui change.
Le cloud reste pertinent quand :
- vous avez besoin du meilleur raisonnement disponible (gros modèles propriétaires) ;
- la charge est ponctuelle et ne justifie pas d'investir dans du matériel ;
- vous prototypez vite sans gérer d'infrastructure.
En pratique, beaucoup d'architectures sont hybrides : le local pour le volume et le sensible, le cloud pour les tâches de pointe.
Les outils pour démarrer
| Outil | Pour quoi |
|---|---|
| Ollama | Lancer un LLM local en une commande (ollama run mistral) |
| llama.cpp | Le moteur d'inférence C/C++ ultra-portable (CPU/GPU) |
| LM Studio | Interface graphique pour tester des modèles locaux |
| vLLM | Service d'inférence haute performance pour la production |
| text-embeddings-inference | Servir des modèles d'embeddings (recherche sémantique) |
Quels modèles ?
L'écosystème ouvert est riche — et la France y occupe une place solide :
- Mistral / Mixtral (🇫🇷 Mistral AI) — excellents modèles ouverts, performants et légers.
- Llama (Meta) — la famille de référence, multilingue.
- Qwen — très bon rapport taille/qualité, fort en code.
- e5 / BGE — pour les embeddings (recherche sémantique, RAG).
Pour de la recherche sémantique souveraine, un modèle d'embeddings local comme e5 couplé à une base vectorielle (MariaDB
VECTOR, pgvector, Qdrant…) permet d'indexer et d'interroger ses documents sans qu'aucune donnée ne sorte.
Un mot sur le matériel
- CPU seul : suffisant pour des petits modèles (≤ 7B quantifiés) et des embeddings.
- GPU : indispensable pour des modèles plus gros ou un débit élevé. La quantification (4-bit, 5-bit) divise les besoins en mémoire par 3 à 4 sans trop perdre en qualité.
- RAM : comptez en gros la taille du modèle quantifié + une marge.
Les cartes pour l'IA embarquée / edge
Pour de l'inférence locale ou embarquée, il n'est pas nécessaire de viser une machine surdimensionnée : l'offre va du microcontrôleur à quelques euros au module plus robuste (prix approximatifs 2026, HT) :
| Référence | Type | Prix ~ | Pour quoi |
|---|---|---|---|
| ESP32-S3 | Microcontrôleur + mini-NPU | 3-8 € | Détection simple, mots-clés, mouvement |
| Sipeed Maix (Kendryte K210) | Module IA | 10-30 € | Vision légère, détection d'objets basique |
| Google Coral USB Accelerator | Accélérateur Edge TPU (USB) | 60-80 € | Booste un Raspberry Pi pour l'inférence |
| Raspberry Pi 5 + HAT Hailo-8L | SBC + accélérateur | 70 € + 70 € | Vision temps réel, combo polyvalent |
| Orange Pi 5 / Rockchip RK3588 | SBC avec NPU (~6 TOPS) | 80-150 € | Bon rapport perf/prix, sans NVIDIA |
| NVIDIA Jetson Orin Nano | Module IA (standard robot/drone) | 250-400 € | Navigation autonome, modèles plus lourds |
| NVIDIA Jetson Orin NX | Module IA haut de gamme | 500-700 € | Multi-caméras, IA exigeante |
Où acheter (France/EU) : Kubii, Gotronic, Génération Robots (FR) · Reichelt, Mouser, DigiKey, RS (EU) · Seeed Studio, Sipeed (modules). NVIDIA Jetson via distributeurs agréés.
À l'autre extrême : le serveur d'IA à 1 million d'euros
Pour bien situer l'échelle, regardons ce que les grands labos (Anthropic, OpenAI…) empilent par milliers pour entraîner leurs modèles. Rien à voir avec l'inférence locale.
Une configuration type à ~1 M€ (2026), en mode devis :
| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---|---|---|
NV-B200 |
GPU NVIDIA B200 — 192 Go HBM3e, 20 PFLOPS FP4 | 16 | 50 000 € | 800 000 € |
CPU-SRV |
Processeur serveur (Grace ARM / EPYC) | 4 | 8 000 € | 32 000 € |
RAM-1TB |
RAM DDR5 ECC (module 1 To) | 4 | 11 000 € | 44 000 € |
IB-NIC |
Carte réseau InfiniBand 400 Gb/s | 8 | 2 500 € | 20 000 € |
NVMe-30 |
Stockage NVMe 30 To | 7 | 4 500 € | 31 500 € |
HGX-BB |
Baseboard HGX + châssis + alimentations | 2 | 28 000 € | 56 000 € |
COOL-LIQ |
Refroidissement liquide (1000 W/GPU) | 1 | 25 000 € | 25 000 € |
SW-IB |
Switch InfiniBand 400-800 Gb/s | 1 | 28 000 € | 28 000 € |
| TOTAL HT | ≈ 1 036 500 € |
Interconnexion NVLink / NVSwitch entre GPU incluse dans le baseboard HGX. Et ce devis ne couvre qu'un seul nœud.
Repères : un serveur 8× B200 coûte ~450 000 € ; un rack complet GB200 NVL72 (72 GPU + 36 CPU Grace, 13,4 To de mémoire unifiée, 1,44 exaflops FP4) tourne autour de 3 millions d'€. Et les laboratoires en déploient… des milliers.
La morale de l'échelle :
ESP32 (5 €) ───► Jetson (300 €) ───► PC GPU (3-5 000 €) ───► Serveur B200 (1 M€) ───► Rack GB200 (3 M€)
IA embarquée edge / robot IA locale costaud entraînement labo cluster frontier
- Entraîner un modèle de pointe → c'est le monde du million d'euros (réservé aux géants).
- Faire tourner un modèle ouvert (Mistral, Llama…) en local → quelques centaines à quelques milliers d'euros suffisent.
🎯 La bonne nouvelle pour la souveraineté : vous n'avez pas besoin d'une telle infrastructure. L'entraînement relève des laboratoires ; l'usage, lui, reste accessible. Un modèle ouvert quantifié, sur une machine modeste, fonctionne chez vous, sans cloud et sans facturation à l'usage.
Le bon setup pour un développeur
Entre le drone à 5 € et le serveur à 1 M€, voici le poste réaliste pour développer avec l'IA locale : faire tourner des modèles ouverts (Mistral, Llama quantifiés) et prototyper de l'edge AI. Sous Linux, naturellement.
🖥️ Le PC (sous Linux)
| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---|---|---|
OS |
Debian ou Ubuntu (Linux) | 1 | 0 € | 0 € |
CPU |
AMD Ryzen 7/9 ou Intel Core i7/i9 | 1 | 450 € | 450 € |
GPU |
NVIDIA RTX 4080/4090 — 16-24 Go de VRAM | 1 | 1 600 € | 1 600 € |
RAM |
64 Go DDR5 | 1 | 250 € | 250 € |
SSD |
NVMe 2 To | 1 | 150 € | 150 € |
CM+ALIM |
Carte mère + alim 850 W + boîtier | 1 | 400 € | 400 € |
| Sous-total PC | ≈ 2 850 € |
🔑 Le critère n°1 pour l'IA locale : la VRAM du GPU. ~12 Go pour des modèles 7B quantifiés, 24 Go pour du 13B-34B. NVIDIA (CUDA) reste le plus simple à mettre en œuvre.
🖥️ L'écran
| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---|---|---|
ECRAN |
Écran 27" QHD/4K (code · doc · terminal/monitoring) | 3 | 300 € | 900 € |
PERIPH |
Clavier mécanique + souris + casque | 1 | 200 € | 200 € |
🔌 Le matériel de test (edge / embarqué)
| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---|---|---|
RPI5 |
Raspberry Pi 5 + HAT Hailo-8L (tester l'edge AI) | 1 | 140 € | 140 € |
JETSON |
NVIDIA Jetson Orin Nano (IA embarquée) | 1 | 300 € | 300 € |
CORAL |
Google Coral USB (accélérateur TPU) | 1 | 70 € | 70 € |
MCU |
ESP32-S3 + Sipeed Maix (microcontrôleurs IA) | 1 | 40 € | 40 € |
LABO |
Alim de labo + multimètre + câbles + lecteur SD | 1 | 120 € | 120 € |
💾 Le NAS — sauvegarde & Git local (RAID 6)
La souveraineté s'étend jusqu'au versioning : un NAS en RAID 6 pour les sauvegardes locales et un Git auto-hébergé — les dépôts restent chez soi, pas sur GitHub.
| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---|---|---|
NAS |
Boîtier NAS 4 baies (Synology/QNAP) ou TrueNAS maison | 1 | 550 € | 550 € |
HDD |
Disque dur NAS 8 To (grappe RAID 6) | 4 | 180 € | 720 € |
| Sous-total NAS | ≈ 1 270 € |
RAID 6 = 2 disques de parité → on peut en perdre 2 d'un coup sans rien perdre. Avec 4× 8 To : 16 To utiles. Usage : sauvegarde locale (restic, Borg, Time Machine…) + Git auto-hébergé (Gitea / Forgejo) — l'alternative souveraine à GitHub, sur sa propre machine.
Poste complet + matériel de test + NAS : ≈ 5 900 €. Soit toujours moins cher qu'un seul GPU de datacenter (~50 000 € la carte B200). De quoi développer, tester de l'edge AI, faire tourner des modèles souverains et héberger son code chez soi — sans cloud, sans abonnement.
Et Claude Code dans tout ça ?
Claude Code, lui, s'appuie sur des modèles cloud très puissants (voir la catégorie suivante). Les deux mondes ne s'opposent pas : on peut développer avec un agent cloud de pointe, tout en faisant tourner en production des modèles locaux souverains pour traiter ses données sensibles. Le bon outil, au bon endroit.
L'IA locale n'est pas « moins bien que le cloud » : c'est un autre compromis. Un peu moins de puissance brute, mais beaucoup plus de contrôle, de confidentialité et d'indépendance. Pour qui construit une infrastructure souveraine, c'est souvent le bon choix.