Data & IA2 min de lecture

5 erreurs qu'on voit encore dans les projets data en 2025

MehdiAGATE IT

10 mars 2025

5 erreurs qui plombent encore les projets data

En 4 ans de missions data chez AGATE IT, j'ai vu les memes erreurs se repeter. Voici celles qui coutent le plus cher.

1. Pas de gouvernance des donnees

Sur une mission retail, l'equipe avait 14 definitions differentes du "chiffre d'affaires" dans leurs dashboards. Resultat : 3 mois perdus a reconcilier les KPI. Un data catalog (Dataiku ou Amundsen) aurait evite ca des le depart.

2. PySpark mal dimensionne

Un client bancaire traitait 200 Go/jour avec des jobs PySpark sur un cluster sous-dimensionne. Les jobs tournaient en 8 heures au lieu de 45 minutes. Le fix : repartitionner correctement, activer l'Adaptive Query Execution et passer de 4 a 12 executors.

3. POC ML sans plan d'industrialisation

Le classique : un data scientist livre un notebook Jupyter avec un modele a 94% d'accuracy. Sauf que personne n'a prevu le serving, le monitoring ni le retraining. On a du rearchitecturer toute la chaine avec MLflow + Airflow pour passer en production.

4. Ignorer le feature store

Sans feature store, chaque equipe recalcule les memes features. Sur un projet assurance avec 3 modeles de scoring, la duplication representait 40% du temps de calcul. Feast a resolu le probleme en 2 sprints.

5. dbt sans tests

dbt est puissant, mais sans tests de qualite (unique, not_null, accepted_values), les pipelines derivent silencieusement. On impose desormais un minimum de 1 test par modele sur toutes nos missions.

Un projet data sans gouvernance, c'est un pipeline vers nulle part.

databonnes pratiquesdata engineeringdata governance

Tous les articles

Mehdi

Consultant chez AGATE IT

Expert en data & ia, notre consultant partage ses retours d’expérience et ses bonnes pratiques pour vous aider dans vos projets.