Stack de supervision complète : Zabbix, Prometheus, Grafana et Loki

Contexte

Pour exploiter et maintenir le homelab de manière professionnelle, j’ai déployé une stack de supervision complète en LXC Debian 12 sur Proxmox. L’objectif : visibilité totale sur les équipements réseau, les hyperviseurs et les applications, avec centralisation des logs — comparable à un environnement de production.

Architecture de supervision

Équipements réseau (SNMP) ──→ Zabbix 7.0.26 (LXC 105) ──→ Dashboards / alertes
MariaDB (LXC 104) ──────────→ Backend DB Zabbix
Hyperviseurs PVE-01/02 ──────→ node_exporter :9100   ──→ Prometheus 3.5.3 (LXC 106)
                         └───→ pve_exporter :9221    ──→        ↓
Endpoints HTTP/TCP/ICMP ─────→ blackbox_exporter :9115 ─→  Grafana 13.0.1 (LXC 108)
Logs journald PVE-01/02 ─────→ Grafana Alloy 1.16.1  ──→ Loki 3.6.7 (LXC 107) ──→ Grafana

Baie VEVOR 12U — Dell PowerEdge R720 (PVE-01) et HP ProDesk 600 G2 (PVE-02) — PVE-01 (Dell PowerEdge R720, 386 GB RAM) et PVE-02 (HP ProDesk 600 G2, 32 GB RAM) — les LXC Zabbix, Prometheus, Grafana, Loki et Alloy tournent sur ces deux hyperviseurs.

LXC dédiés (VLAN 10 MGMT)

LXC	CTID	VLAN	Service	Version
`lxc-mariadb-01`	104	VLAN 10 MGMT	Base de données Zabbix	MariaDB
`lxc-zabbix-01`	105	VLAN 10 MGMT	Zabbix Server + Frontend	7.0.26
`lxc-prometheus-01`	106	VLAN 10 MGMT	Prometheus	3.5.3 LTS
`lxc-loki-01`	107	VLAN 10 MGMT	Loki	3.6.7
`lxc-grafana-01`	108	VLAN 10 MGMT	Grafana	13.0.1

Ce que j’ai fait

Zabbix 7.0.26 — supervision réseau SNMP

Déploiement Zabbix Server + frontend Apache + MariaDB en LXC séparés (découplage)
Correction d’un piège : l’utilisateur MariaDB zabbix était déclaré sur l’IP du LXC Zabbix (pas en wildcard %), ce qui nécessitait skip-name-resolve côté MariaDB pour éviter les reverse-DNS lookups
Upgrade vers la 7.0.26 : réinstallation du dépôt apt officiel, import du schéma SQL complet
Configuration SNMP sur Cisco 3560-CX, D-Link DGS-1210-08P et pfSense (community string restrictive)
Ajout des templates automatiques Zabbix par équipement
Tuning des triggers pour supprimer les faux positifs (interfaces LLD, seuils verbeux)

Zabbix Global View — 31 hosts, problems by severity, top CPU hosts — Zabbix 7.0.26 — Global View : 31 hôtes supervisés, 355 templates, 2752 items actifs. Section « Problems by severity » et top hosts CPU en temps réel.

Prometheus 3.5.3 — métriques hyperviseurs et services

Déploiement avec unit systemd et activation de l’API lifecycle (--web.enable-lifecycle)
Configuration de 12 job_names dans prometheus.yml pour 37 targets au total :
- node : PVE-01 + PVE-02 via node_exporter (port 9100)
- pve : PVE-01 + PVE-02 via pve_exporter (port 9221, relabeling target)
- blackbox_icmp : 6 targets (gateways + 1.1.1.1)
- blackbox_tcp : 5 services
- blackbox_https : 15 endpoints NPM + Cloudflare
- blackbox_dns_* : 6 jobs DNS (AdGuard, Unbound, Cloudflare)
Correction d’un piège sur le lifecycle : le flag --web.enable-lifecycle manquait dans l’unit systemd, rendant systemctl reload sans effet

Grafana 13.0.1 — visualisation unifiée

Datasources : Prometheus et Loki configurés
Dashboards importés et personnalisés : Proxmox (via pve_exporter), réseau, disponibilité endpoints
Requêtes LogQL dans Grafana pour filtrer les logs Proxmox par service systemd (unit)

Dashboard Grafana SNMP — Cisco 3560-CX, D-Link DGS et pfSense : CPU, mémoire, trafic interfaces — Grafana — Dashboard Réseau SNMP : CPU 22%, mémoire 40%, trafic interfaces (WAN, MGMT, SERVERS) sur le Cisco 3560-CX, D-Link DGS-1210-08P et pfSense.

Dashboard Grafana Proxmox — Resource allocation : 12 LXC running, CPU 0.32%, RAM 13.2/31.2 GiB — Grafana — Dashboard Proxmox PVE-02 : 12 LXC actifs (npm, adguard, unifi, zabbix, prometheus, loki, grafana…), CPU global 0.32%, mémoire 13.2 GiB / 31.2 GiB.

Loki 3.6.7 + Grafana Alloy 1.16.1 — centralisation des logs

Loki déployé en mode monolithique single-binary (schéma v13/TSDB/filesystem, rétention 30j)
Abandon de Promtail (EOL mars 2026) au profit de Grafana Alloy (successeur officiel, basé OpenTelemetry)
Purge de masse des Promtail résiduels sur 10 LXC + 1 VM + 2 hôtes via pct exec
Déploiement de Grafana Alloy v1.16.1 sur PVE-01 et PVE-02 : collecte du journal systemd complet (Proxmox, kernel, tâches VM/CT)
Validation bout-en-bout : labels host=pve-01 / host=pve-02 présents dans Loki, requêtes LogQL opérationnelles

Compétences mobilisées

Ce projet couvre l’exploitation et la supervision d’infrastructure (B2.4), la gestion du patrimoine informatique via l’inventaire automatisé Zabbix (B1.1), la garantie de disponibilité et d’intégrité via les logs centralisés (B3.4) et la détection d’anomalies réseau via les blackbox probes Prometheus (B3.5).