L'IA en local : souveraineté, confidentialité, autonomie

Faire tourner un modèle d'IA sur sa propre machine plutôt que dans le cloud n'est plus réservé aux laboratoires. Avec les modèles ouverts et les bons outils, un serveur — voire un poste de travail bien dimensionné — suffit. Pour qui accorde de l'importance à la souveraineté des données, c'est souvent l'option la plus cohérente.

Le principe : vos prompts, vos documents, vos embeddings ne quittent jamais votre infrastructure. Pas d'API tierce, pas de facturation à l'usage, pas de fuite possible.

Pourquoi faire de l'IA en local ?

Argument	En clair
🔒 Confidentialité	Les données restent chez vous — RGPD-friendly par construction
🇪🇺 Souveraineté	Aucune dépendance à un fournisseur cloud étranger
💸 Coût	Pas de facturation par token ; le matériel est amorti une fois
📴 Hors-ligne	Fonctionne sans Internet, dans un réseau isolé
🎛️ Contrôle	Vous choisissez le modèle, la version, le réglage — rien ne change sans votre validation

Quand l'utiliser (et quand non)

L'IA locale brille quand :

les données sont sensibles (santé, juridique, RH, secrets industriels) ;
le volume est élevé et répétitif (classification, extraction, embeddings de masse) ;
vous voulez une brique stable qui ne dépend pas d'une API qui change.

Le cloud reste pertinent quand :

vous avez besoin du meilleur raisonnement disponible (gros modèles propriétaires) ;
la charge est ponctuelle et ne justifie pas d'investir dans du matériel ;
vous prototypez vite sans gérer d'infrastructure.

En pratique, beaucoup d'architectures sont hybrides : le local pour le volume et le sensible, le cloud pour les tâches de pointe.

Les outils pour démarrer

Outil	Pour quoi
Ollama	Lancer un LLM local en une commande (`ollama run mistral`)
llama.cpp	Le moteur d'inférence C/C++ ultra-portable (CPU/GPU)
LM Studio	Interface graphique pour tester des modèles locaux
vLLM	Service d'inférence haute performance pour la production
text-embeddings-inference	Servir des modèles d'embeddings (recherche sémantique)

Quels modèles ?

L'écosystème ouvert est riche — et la France y occupe une place solide :

Mistral / Mixtral (🇫🇷 Mistral AI) — excellents modèles ouverts, performants et légers.
Llama (Meta) — la famille de référence, multilingue.
Qwen — très bon rapport taille/qualité, fort en code.
e5 / BGE — pour les embeddings (recherche sémantique, RAG).

Pour de la recherche sémantique souveraine, un modèle d'embeddings local comme e5 couplé à une base vectorielle (MariaDB VECTOR, pgvector, Qdrant…) permet d'indexer et d'interroger ses documents sans qu'aucune donnée ne sorte.

Un mot sur le matériel

CPU seul : suffisant pour des petits modèles (≤ 7B quantifiés) et des embeddings.
GPU : indispensable pour des modèles plus gros ou un débit élevé. La quantification (4-bit, 5-bit) divise les besoins en mémoire par 3 à 4 sans trop perdre en qualité.
RAM : comptez en gros la taille du modèle quantifié + une marge.

Les cartes pour l'IA embarquée / edge

Pour de l'inférence locale ou embarquée, il n'est pas nécessaire de viser une machine surdimensionnée : l'offre va du microcontrôleur à quelques euros au module plus robuste (prix approximatifs 2026, HT) :

Référence	Type	Prix ~	Pour quoi
ESP32-S3	Microcontrôleur + mini-NPU	3-8 €	Détection simple, mots-clés, mouvement
Sipeed Maix (Kendryte K210)	Module IA	10-30 €	Vision légère, détection d'objets basique
Google Coral USB Accelerator	Accélérateur Edge TPU (USB)	60-80 €	Booste un Raspberry Pi pour l'inférence
Raspberry Pi 5 + HAT Hailo-8L	SBC + accélérateur	70 € + 70 €	Vision temps réel, combo polyvalent
Orange Pi 5 / Rockchip RK3588	SBC avec NPU (~6 TOPS)	80-150 €	Bon rapport perf/prix, sans NVIDIA
NVIDIA Jetson Orin Nano	Module IA (standard robot/drone)	250-400 €	Navigation autonome, modèles plus lourds
NVIDIA Jetson Orin NX	Module IA haut de gamme	500-700 €	Multi-caméras, IA exigeante

Où acheter (France/EU) : Kubii, Gotronic, Génération Robots (FR) · Reichelt, Mouser, DigiKey, RS (EU) · Seeed Studio, Sipeed (modules). NVIDIA Jetson via distributeurs agréés.

À l'autre extrême : le serveur d'IA à 1 million d'euros

Pour bien situer l'échelle, regardons ce que les grands labos (Anthropic, OpenAI…) empilent par milliers pour entraîner leurs modèles. Rien à voir avec l'inférence locale.

Une configuration type à ~1 M€ (2026), en mode devis :

Réf	Libellé	Qté	Prix unitaire	Total
`NV-B200`	GPU NVIDIA B200 — 192 Go HBM3e, 20 PFLOPS FP4	16	50 000 €	800 000 €
`CPU-SRV`	Processeur serveur (Grace ARM / EPYC)	4	8 000 €	32 000 €
`RAM-1TB`	RAM DDR5 ECC (module 1 To)	4	11 000 €	44 000 €
`IB-NIC`	Carte réseau InfiniBand 400 Gb/s	8	2 500 €	20 000 €
`NVMe-30`	Stockage NVMe 30 To	7	4 500 €	31 500 €
`HGX-BB`	Baseboard HGX + châssis + alimentations	2	28 000 €	56 000 €
`COOL-LIQ`	Refroidissement liquide (1000 W/GPU)	1	25 000 €	25 000 €
`SW-IB`	Switch InfiniBand 400-800 Gb/s	1	28 000 €	28 000 €
	TOTAL HT			≈ 1 036 500 €

Interconnexion NVLink / NVSwitch entre GPU incluse dans le baseboard HGX. Et ce devis ne couvre qu'un seul nœud.

Repères : un serveur 8× B200 coûte ~450 000 € ; un rack complet GB200 NVL72 (72 GPU + 36 CPU Grace, 13,4 To de mémoire unifiée, 1,44 exaflops FP4) tourne autour de 3 millions d'€. Et les laboratoires en déploient… des milliers.

La morale de l'échelle :

ESP32 (5 €)  ───►  Jetson (300 €)  ───►  PC GPU (3-5 000 €)  ───►  Serveur B200 (1 M€)  ───►  Rack GB200 (3 M€)
   IA embarquée          edge / robot          IA locale costaud         entraînement labo        cluster frontier

Entraîner un modèle de pointe → c'est le monde du million d'euros (réservé aux géants).
Faire tourner un modèle ouvert (Mistral, Llama…) en local → quelques centaines à quelques milliers d'euros suffisent.

🎯 La bonne nouvelle pour la souveraineté : vous n'avez pas besoin d'une telle infrastructure. L'entraînement relève des laboratoires ; l'usage, lui, reste accessible. Un modèle ouvert quantifié, sur une machine modeste, fonctionne chez vous, sans cloud et sans facturation à l'usage.

Le bon setup pour un développeur

Entre le drone à 5 € et le serveur à 1 M€, voici le poste réaliste pour développer avec l'IA locale : faire tourner des modèles ouverts (Mistral, Llama quantifiés) et prototyper de l'edge AI. Sous Linux, naturellement.

🖥️ Le PC (sous Linux)

Réf	Libellé	Qté	Prix unitaire	Total
`OS`	Debian ou Ubuntu (Linux)	1	0 €	0 €
`CPU`	AMD Ryzen 7/9 ou Intel Core i7/i9	1	450 €	450 €
`GPU`	NVIDIA RTX 4080/4090 — 16-24 Go de VRAM	1	1 600 €	1 600 €
`RAM`	64 Go DDR5	1	250 €	250 €
`SSD`	NVMe 2 To	1	150 €	150 €
`CM+ALIM`	Carte mère + alim 850 W + boîtier	1	400 €	400 €
	Sous-total PC			≈ 2 850 €

🔑 Le critère n°1 pour l'IA locale : la VRAM du GPU. ~12 Go pour des modèles 7B quantifiés, 24 Go pour du 13B-34B. NVIDIA (CUDA) reste le plus simple à mettre en œuvre.

🖥️ L'écran

Réf	Libellé	Qté	Prix unitaire	Total
`ECRAN`	Écran 27" QHD/4K (code · doc · terminal/monitoring)	3	300 €	900 €
`PERIPH`	Clavier mécanique + souris + casque	1	200 €	200 €

🔌 Le matériel de test (edge / embarqué)

Réf	Libellé	Qté	Prix unitaire	Total
`RPI5`	Raspberry Pi 5 + HAT Hailo-8L (tester l'edge AI)	1	140 €	140 €
`JETSON`	NVIDIA Jetson Orin Nano (IA embarquée)	1	300 €	300 €
`CORAL`	Google Coral USB (accélérateur TPU)	1	70 €	70 €
`MCU`	ESP32-S3 + Sipeed Maix (microcontrôleurs IA)	1	40 €	40 €
`LABO`	Alim de labo + multimètre + câbles + lecteur SD	1	120 €	120 €

💾 Le NAS — sauvegarde & Git local (RAID 6)

La souveraineté s'étend jusqu'au versioning : un NAS en RAID 6 pour les sauvegardes locales et un Git auto-hébergé — les dépôts restent chez soi, pas sur GitHub.

Réf	Libellé	Qté	Prix unitaire	Total
`NAS`	Boîtier NAS 4 baies (Synology/QNAP) ou TrueNAS maison	1	550 €	550 €
`HDD`	Disque dur NAS 8 To (grappe RAID 6)	4	180 €	720 €
	Sous-total NAS			≈ 1 270 €

RAID 6 = 2 disques de parité → on peut en perdre 2 d'un coup sans rien perdre. Avec 4× 8 To : 16 To utiles. Usage : sauvegarde locale (restic, Borg, Time Machine…) + Git auto-hébergé (Gitea / Forgejo) — l'alternative souveraine à GitHub, sur sa propre machine.

Poste complet + matériel de test + NAS : ≈ 5 900 €. Soit toujours moins cher qu'un seul GPU de datacenter (~50 000 € la carte B200). De quoi développer, tester de l'edge AI, faire tourner des modèles souverains et héberger son code chez soi — sans cloud, sans abonnement.

Et Claude Code dans tout ça ?

Claude Code, lui, s'appuie sur des modèles cloud très puissants (voir la catégorie suivante). Les deux mondes ne s'opposent pas : on peut développer avec un agent cloud de pointe, tout en faisant tourner en production des modèles locaux souverains pour traiter ses données sensibles. Le bon outil, au bon endroit.

L'IA locale n'est pas « moins bien que le cloud » : c'est un autre compromis. Un peu moins de puissance brute, mais beaucoup plus de contrôle, de confidentialité et d'indépendance. Pour qui construit une infrastructure souveraine, c'est souvent le bon choix.