---
title: L'IA en local : souveraineté, confidentialité, autonomie
source: https://synapx.fr/blog/ia-en-local/
date: 2026-06-26
category: IA
site: SynapxLab
---

# L'IA en local : souveraineté, confidentialité, autonomie

Faire tourner un modèle d'IA **sur sa propre machine** plutôt que dans le cloud n'est plus réservé aux laboratoires. Avec les modèles ouverts et les bons outils, un serveur — voire un poste de travail bien dimensionné — suffit. Pour qui accorde de l'importance à la **souveraineté des données**, c'est souvent l'option la plus cohérente.

> Le principe : vos prompts, vos documents, vos embeddings ne quittent **jamais** votre infrastructure. Pas d'API tierce, pas de facturation à l'usage, pas de fuite possible.

## Pourquoi faire de l'IA en local ?

| Argument | En clair |
|---|---|
| 🔒 **Confidentialité** | Les données restent chez vous — RGPD-friendly par construction |
| 🇪🇺 **Souveraineté** | Aucune dépendance à un fournisseur cloud étranger |
| 💸 **Coût** | Pas de facturation par token ; le matériel est amorti une fois |
| 📴 **Hors-ligne** | Fonctionne sans Internet, dans un réseau isolé |
| 🎛️ **Contrôle** | Vous choisissez le modèle, la version, le réglage — rien ne change sans votre validation |

## Quand l'utiliser (et quand non)

**L'IA locale brille quand :**
- les données sont **sensibles** (santé, juridique, RH, secrets industriels) ;
- le volume est **élevé et répétitif** (classification, extraction, embeddings de masse) ;
- vous voulez une **brique stable** qui ne dépend pas d'une API qui change.

**Le cloud reste pertinent quand :**
- vous avez besoin du **meilleur raisonnement** disponible (gros modèles propriétaires) ;
- la charge est **ponctuelle** et ne justifie pas d'investir dans du matériel ;
- vous prototypez vite sans gérer d'infrastructure.

> En pratique, beaucoup d'architectures sont **hybrides** : le local pour le volume et le sensible, le cloud pour les tâches de pointe.

## Les outils pour démarrer

| Outil | Pour quoi |
|---|---|
| **Ollama** | Lancer un LLM local en une commande (`ollama run mistral`) |
| **llama.cpp** | Le moteur d'inférence C/C++ ultra-portable (CPU/GPU) |
| **LM Studio** | Interface graphique pour tester des modèles locaux |
| **vLLM** | Service d'inférence haute performance pour la production |
| **text-embeddings-inference** | Servir des modèles d'embeddings (recherche sémantique) |

## Quels modèles ?

L'écosystème ouvert est riche — et la France y occupe une place solide :

- **Mistral / Mixtral** (🇫🇷 Mistral AI) — excellents modèles ouverts, performants et légers.
- **Llama** (Meta) — la famille de référence, multilingue.
- **Qwen** — très bon rapport taille/qualité, fort en code.
- **e5 / BGE** — pour les **embeddings** (recherche sémantique, RAG).

> Pour de la **recherche sémantique souveraine**, un modèle d'embeddings local comme **e5** couplé à une base vectorielle (MariaDB `VECTOR`, pgvector, Qdrant…) permet d'indexer et d'interroger ses documents **sans qu'aucune donnée ne sorte**.

## Un mot sur le matériel

- **CPU seul** : suffisant pour des petits modèles (≤ 7B quantifiés) et des embeddings.
- **GPU** : indispensable pour des modèles plus gros ou un débit élevé. La **quantification** (4-bit, 5-bit) divise les besoins en mémoire par 3 à 4 sans trop perdre en qualité.
- **RAM** : comptez en gros la taille du modèle quantifié + une marge.

### Les cartes pour l'IA embarquée / edge

Pour de l'inférence locale ou embarquée, il n'est pas nécessaire de viser une machine surdimensionnée : l'offre va du microcontrôleur à quelques euros au module plus robuste *(prix approximatifs 2026, HT)* :

| Référence | Type | Prix ~ | Pour quoi |
|---|---|---|---|
| **ESP32-S3** | Microcontrôleur + mini-NPU | **3-8 €** | Détection simple, mots-clés, mouvement |
| **Sipeed Maix (Kendryte K210)** | Module IA | **10-30 €** | Vision légère, détection d'objets basique |
| **Google Coral USB Accelerator** | Accélérateur Edge TPU (USB) | **60-80 €** | Booste un Raspberry Pi pour l'inférence |
| **Raspberry Pi 5 + HAT Hailo-8L** | SBC + accélérateur | **70 € + 70 €** | Vision temps réel, combo polyvalent |
| **Orange Pi 5 / Rockchip RK3588** | SBC avec NPU (~6 TOPS) | **80-150 €** | Bon rapport perf/prix, sans NVIDIA |
| **NVIDIA Jetson Orin Nano** | Module IA (standard robot/drone) | **250-400 €** | Navigation autonome, modèles plus lourds |
| **NVIDIA Jetson Orin NX** | Module IA haut de gamme | **500-700 €** | Multi-caméras, IA exigeante |

> **Où acheter (France/EU)** : Kubii, Gotronic, Génération Robots (FR) · Reichelt, Mouser, DigiKey, RS (EU) · Seeed Studio, Sipeed (modules). NVIDIA Jetson via distributeurs agréés.

## À l'autre extrême : le serveur d'IA à 1 million d'euros

Pour bien situer l'échelle, regardons ce que les **grands labos** (Anthropic, OpenAI…) empilent par milliers pour **entraîner** leurs modèles. Rien à voir avec l'inférence locale.

**Une configuration type à ~1 M€ (2026), en mode devis :**

| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---:|---:|---:|
| `NV-B200` | GPU NVIDIA B200 — 192 Go HBM3e, 20 PFLOPS FP4 | 16 | 50 000 € | 800 000 € |
| `CPU-SRV` | Processeur serveur (Grace ARM / EPYC) | 4 | 8 000 € | 32 000 € |
| `RAM-1TB` | RAM DDR5 ECC (module 1 To) | 4 | 11 000 € | 44 000 € |
| `IB-NIC` | Carte réseau InfiniBand 400 Gb/s | 8 | 2 500 € | 20 000 € |
| `NVMe-30` | Stockage NVMe 30 To | 7 | 4 500 € | 31 500 € |
| `HGX-BB` | Baseboard HGX + châssis + alimentations | 2 | 28 000 € | 56 000 € |
| `COOL-LIQ` | Refroidissement liquide (1000 W/GPU) | 1 | 25 000 € | 25 000 € |
| `SW-IB` | Switch InfiniBand 400-800 Gb/s | 1 | 28 000 € | 28 000 € |
| | **TOTAL HT** | | | **≈ 1 036 500 €** |

> Interconnexion **NVLink / NVSwitch** entre GPU incluse dans le baseboard HGX. Et ce devis ne couvre qu'**un seul nœud**.

> Repères : un serveur **8× B200** coûte **~450 000 €** ; un rack complet **GB200 NVL72** (72 GPU + 36 CPU Grace, 13,4 To de mémoire unifiée, **1,44 exaflops** FP4) tourne autour de **3 millions d'€**. Et les laboratoires en déploient… des **milliers**.

**La morale de l'échelle :**

```
ESP32 (5 €)  ───►  Jetson (300 €)  ───►  PC GPU (3-5 000 €)  ───►  Serveur B200 (1 M€)  ───►  Rack GB200 (3 M€)
   IA embarquée          edge / robot          IA locale costaud         entraînement labo        cluster frontier
```

- **Entraîner** un modèle de pointe → c'est le monde du million d'euros (réservé aux géants).
- **Faire tourner** un modèle ouvert (Mistral, Llama…) **en local** → quelques centaines à quelques milliers d'euros suffisent.

> 🎯 La bonne nouvelle pour la souveraineté : **vous n'avez pas besoin d'une telle infrastructure.** L'entraînement relève des laboratoires ; **l'usage**, lui, reste accessible. Un modèle ouvert quantifié, sur une machine modeste, fonctionne **chez vous, sans cloud et sans facturation à l'usage.**

## Le bon setup pour un développeur

Entre le drone à 5 € et le serveur à 1 M€, voici le **poste réaliste** pour développer avec l'IA locale : faire tourner des modèles ouverts (Mistral, Llama quantifiés) et prototyper de l'edge AI. **Sous Linux**, naturellement.

### 🖥️ Le PC (sous Linux)

| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---:|---:|---:|
| `OS` | Debian ou Ubuntu (Linux) | 1 | 0 € | 0 € |
| `CPU` | AMD Ryzen 7/9 ou Intel Core i7/i9 | 1 | 450 € | 450 € |
| `GPU` | NVIDIA RTX 4080/4090 — **16-24 Go de VRAM** | 1 | 1 600 € | 1 600 € |
| `RAM` | 64 Go DDR5 | 1 | 250 € | 250 € |
| `SSD` | NVMe 2 To | 1 | 150 € | 150 € |
| `CM+ALIM` | Carte mère + alim 850 W + boîtier | 1 | 400 € | 400 € |
| | **Sous-total PC** | | | **≈ 2 850 €** |

> 🔑 Le critère **n°1** pour l'IA locale : la **VRAM du GPU**. ~12 Go pour des modèles 7B quantifiés, 24 Go pour du 13B-34B. NVIDIA (CUDA) reste le plus simple à mettre en œuvre.

### 🖥️ L'écran

| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---:|---:|---:|
| `ECRAN` | Écran 27" QHD/4K (code · doc · terminal/monitoring) | 3 | 300 € | 900 € |
| `PERIPH` | Clavier mécanique + souris + casque | 1 | 200 € | 200 € |

### 🔌 Le matériel de test (edge / embarqué)

| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---:|---:|---:|
| `RPI5` | Raspberry Pi 5 + HAT Hailo-8L (tester l'edge AI) | 1 | 140 € | 140 € |
| `JETSON` | NVIDIA Jetson Orin Nano (IA embarquée) | 1 | 300 € | 300 € |
| `CORAL` | Google Coral USB (accélérateur TPU) | 1 | 70 € | 70 € |
| `MCU` | ESP32-S3 + Sipeed Maix (microcontrôleurs IA) | 1 | 40 € | 40 € |
| `LABO` | Alim de labo + multimètre + câbles + lecteur SD | 1 | 120 € | 120 € |

### 💾 Le NAS — sauvegarde & Git local (RAID 6)

La souveraineté s'étend jusqu'au **versioning** : un **NAS en RAID 6** pour les **sauvegardes locales** et un **Git auto-hébergé** — les dépôts restent **chez soi**, pas sur GitHub.

| Réf | Libellé | Qté | Prix unitaire | Total |
|---|---|---:|---:|---:|
| `NAS` | Boîtier NAS 4 baies (Synology/QNAP) ou TrueNAS maison | 1 | 550 € | 550 € |
| `HDD` | Disque dur NAS 8 To (grappe RAID 6) | 4 | 180 € | 720 € |
| | **Sous-total NAS** | | | **≈ 1 270 €** |

> **RAID 6** = 2 disques de parité → on peut en perdre **2 d'un coup** sans rien perdre. Avec 4× 8 To : **16 To utiles**. Usage : **sauvegarde locale** (restic, Borg, Time Machine…) **+ Git auto-hébergé** (Gitea / Forgejo) — l'alternative souveraine à GitHub, sur sa propre machine.

> **Poste complet + matériel de test + NAS : ≈ 5 900 €**. Soit toujours **moins cher qu'un seul GPU de datacenter** (~50 000 € la carte B200). De quoi développer, tester de l'edge AI, faire tourner des modèles souverains **et héberger son code chez soi** — sans cloud, sans abonnement.

## Et Claude Code dans tout ça ?

Claude Code, lui, s'appuie sur des **modèles cloud** très puissants (voir la catégorie suivante). Les deux mondes ne s'opposent pas : on peut **développer** avec un agent cloud de pointe, tout en faisant tourner en **production** des modèles locaux souverains pour traiter ses données sensibles. Le bon outil, au bon endroit.

---

> L'IA locale n'est pas « moins bien que le cloud » : c'est **un autre compromis**. Un peu moins de puissance brute, mais beaucoup plus de contrôle, de confidentialité et d'indépendance. Pour qui construit une infrastructure souveraine, c'est souvent le bon choix.
