5 erreurs qu'on voit encore dans les projets data en 2025
5 erreurs qui plombent encore les projets data
En 4 ans de missions data chez AGATE IT, j'ai vu les memes erreurs se repeter. Voici celles qui coutent le plus cher.
1. Pas de gouvernance des donnees
Sur une mission retail, l'equipe avait 14 definitions differentes du "chiffre d'affaires" dans leurs dashboards. Resultat : 3 mois perdus a reconcilier les KPI. Un data catalog (Dataiku ou Amundsen) aurait evite ca des le depart.
2. PySpark mal dimensionne
Un client bancaire traitait 200 Go/jour avec des jobs PySpark sur un cluster sous-dimensionne. Les jobs tournaient en 8 heures au lieu de 45 minutes. Le fix : repartitionner correctement, activer l'Adaptive Query Execution et passer de 4 a 12 executors.
3. POC ML sans plan d'industrialisation
Le classique : un data scientist livre un notebook Jupyter avec un modele a 94% d'accuracy. Sauf que personne n'a prevu le serving, le monitoring ni le retraining. On a du rearchitecturer toute la chaine avec MLflow + Airflow pour passer en production.
4. Ignorer le feature store
Sans feature store, chaque equipe recalcule les memes features. Sur un projet assurance avec 3 modeles de scoring, la duplication representait 40% du temps de calcul. Feast a resolu le probleme en 2 sprints.
5. dbt sans tests
dbt est puissant, mais sans tests de qualite (unique, not_null, accepted_values), les pipelines derivent silencieusement. On impose desormais un minimum de 1 test par modele sur toutes nos missions.
Un projet data sans gouvernance, c'est un pipeline vers nulle part.
Mehdi
Consultant chez AGATE IT
Expert en data & ia, notre consultant partage ses retours d’expérience et ses bonnes pratiques pour vous aider dans vos projets.