Comment maintenir la performance des modèles de Machine Learning ?

sarah61533
7 mars 2023
3 min de lecture

Dernière mise à jour : 22 mai

Le Machine Learning est en plein essor dans les entreprises. Pour éviter la dégradation des performances, un suivi régulier est cependant de mise. Erwan Scornet, Maître de conférences au Centre de Mathématiques Appliquées de l'École Polytechnique, nous éclaire sur les mesures à adopter pour optimiser l’exploitabilité des modèles.

Maintenir la performance d'un modèle, un challenge continu

Le Machine Learning se fonde sur la récolte de données afin d’en tirer des analyses prédictives. « Un algorithme doit tout d’abord être entraîné sur des données, avant de pouvoir être appliqué », résume Erwan Scornet. « Une fois le modèle entraîné, de nouvelles données seront collectées dans le temps, données auxquelles nous pourrons appliquer le modèle appris ».

Deux grandes causes peuvent expliquer la dégradation des performances au cours du temps. La première est l’apparition de données très différentes de celles qui ont servi à entraîner le modèle. Par exemple, si l’entraînement a été effectué avec des données relatives aux appartements parisiens et que l’on cherche à prédire le prix des villas aux Etats-Unis, la différence de données, trop importante, ne permettra pas d’atteindre un bon niveau de performances. La seconde raison, bien plus difficile à corriger, est le changement du marché. Le phénomène que l’on tente de modéliser avec le Machine Learning peut en effet connaître des variations au fil du temps, sous l’effet d’une crise économique ou d’une pandémie, par exemple. « Globalement, l’instabilité des performances est assez classique. Pour l’éviter, il faudrait en théorie établir des prédictions sur des données similaires aux données d’entraînement, et s’assurer que le phénomène sous-jacent varie peu au cours du temps. Or, dans l’immobilier, de telles contraintes sont assez fortes », précise Erwan Scornet.

Détecter et anticiper

Si les dérives d’un modèle sont difficiles à éviter, il est cependant possible de les détecter afin de rectifier le tir. « Une solution consiste à faire des mises à jour régulières, avec une surveillance des performances prédictives du modèle. On peut le faire tous les mois ou tous les deux mois, par exemple, en comparant la prédiction à la donnée collectée afin d’évaluer à quel point le modèle s’éloigne de la réalité ». La régularité dans la collecte des données est donc un point clé. « En laissant passer six mois, le modèle peut avoir totalement dévié et l’on aura alors largement perdu en performance. Dans le secteur immobilier, il est utile d’étudier chaque mois des bases de données en ligne sur les ventes ou locations de logements afin de suivre l’évolution des prix ».

Néanmoins, cet indicateur simple n’est pas suffisant car il peut cacher de fortes disparités en fonction des données. Si l’on reprend l’exemple cité précédemment dans le secteur de l’immobilier : le modèle peut être très bon en moyenne sur les appartements parisiens mais pas sur les villas aux Etats-Unis. Une analyse plus fine est donc nécessaire, ce qui implique de déterminer des indicateurs spécifiques. « Dans le domaine du crédit bancaire, illustre Erwan Scornet, on ne souhaitera pas que la prédiction dépende du sexe de l’emprunteur. Or, les biais surviennent à cause du jeu de données sur lequel l’algorithme a été entraîné. On a donc besoin, non seulement d’évaluer régulièrement l’erreur de prédiction de l’algorithme, mais également l’influence des variables dites sensibles, selon lesquelles l’algorithme ne devrait pas discriminer. Contrôler l’influence de telles variables est nécessaire pour utiliser sereinement les modèles de machine learning, mais cette tâche devient ardue à mesure que le nombre de variables sensibles augmente. »

Rien ne remplace l’humain

Pour les entreprises, la principale contrainte pour améliorer l’exploitabilité d’un modèle de Machine Learning est budgétaire. « L’intervention humaine est indispensable pour éviter que l’algorithme ne réplique les biais et ne les accentue, en créant ainsi des erreurs », explique Erwan Scornet. Des postes dédiés doivent donc être créés au sein des entreprises pour évaluer les performances des modèles et collecter régulièrement des données.

C’est dans cette perspective que de nouveaux métiers voient le jour, comme celui de MLops. « Une fusion entre le Devops et le Data Scientist », selon l’expert. Le MLops intervient en effet en complément du Data Architect, qui construit l’infrastructure pour stocker les données, et du Data Scientist, chargé de construire le modèle. Il développe la surveillance et le réentraînement continuel des modèles pour garantir leurs performances.