Validation croisée (Cross-validation)

La validation croisée (ou cross-validation en anglais) est une méthode utilisée en Machine Learning pour évaluer la performance d’un modèle tout en maximisant l’utilisation des données disponibles. Elle permet de tester la capacité d’un modèle à généraliser sur des données non vues en évitant le sur-apprentissage (overfitting).

Principe

Le principe de la validation croisée consiste à diviser l’ensemble des données en plusieurs sous-ensembles appelés folds, puis à entraîner et tester le modèle plusieurs fois sur des partitions différentes. Dans la validation croisée en k segments (k-fold cross-validation), les données sont divisées en k sous-ensembles de taille égale. Le modèle est entraîné sur k-1 sous-ensembles et testé sur le sous-ensemble restant. Ce processus est répété k fois, chaque fois avec un fold différent utilisé comme ensemble de test et les autres comme ensemble d’entraînement. À la fin, la performance globale du modèle est calculée en faisant la moyenne des résultats obtenus lors de chaque itération.

Exemple avec k = 5 :

  • Diviser les données en 5 folds.
  • Entraîner le modèle sur 4 folds et tester sur le 5ᵉ fold.
  • Répéter cette opération 5 fois, en utilisant un fold différent comme ensemble de test à chaque itération.
  • Calculer la moyenne des scores obtenus sur les 5 tests.

Cross validation
Cross validation