Deep learning : comment l’agrégation des modèles permet de prévoir l’imprévisible

5 septembre 2017
Deep learning  : comment l’agrégation des modèles permet de prévoir l’imprévisible - ©madgooch-AdobeStock

Prévoir la consommation d’électricité, la qualité de l’air, l’affluence dans le métro, l’évolution des marchés financiers… tout cela est désormais possible grâce au deep learning. Malo Huard nous explique le fonctionnement de cet outil.

Le machine learning , qui repose sur l’apprentissage par l’expérience, permet de résoudre de nombreux problèmes : reconnaissance d'objets (visages, schémas, écriture…), aide aux diagnostic, détection de fraudes à la carte de crédit, analyse du marché boursier, classification des séquences d'ADN, etc. Mais pour donner de bons résultats, l’approche nécessite un très grand nombre de données. Or, dans certains domaines, les données manquent. « Quand j’ai voulu travailler sur la maintenance prédictive des aiguillages ferroviaires pour la SNCF, explique Malo, je n’ai vu qu’une seule panne sur 80 000 données observées ». Que faire dans ces conditions ? Pour trouver une solution, Malo Huard a décidé de raisonner dans le sens inverse, en essayant de détecter les paramètres d’un fonctionnement normal. En modélisant tous les signaux par l’observation, il a réussi à trouver ceux qui sont précurseurs de panne. « Avec ce modèle, on sait même quand les équipes sur le terrain graissent la mécanique de l’aiguillage, car dans cette phase, on obtient des signaux anormaux », précise-t-il.

Face à l’embarras du choix, agréger les meilleurs modèles 

Pour parvenir à ces résultats, Malo Huard utilise des modèles mathématiques, comme beaucoup d’autres ingénieurs et chercheurs qui tentent d’établir des prévisions. Mais en général, ceux-ci se concentrent sur un modèle qu’ils choisissent pour sa fiabilité dans le contexte du problème qu’ils cherchent à résoudre ou bien ils en combinent plusieurs de façon uniforme. Avec Gilles Stoltz, son directeur de thèse, Malo Huard a choisi une autre option, qui consiste à pondérer les modèles qu’il met en œuvre grâce à l’historique des données. « En suivant cette technique il est possible de faire presque aussi bien que le meilleur modèle, même si on ne sait pas lequel choisir, même si on ne le connaît pas d’avance ». Une solution qui permet d’éviter l’aléatoire du choix du modèle pour tirer le meilleur parti de la diversité des méthodes. C’est cette approche qui lui a permis d’arriver à la deuxième place (sur 479 participants) au challenge RTE sur la prévision de la consommation d’électricité . L’objectif était de prévoir au mieux la consommation d’électricité aux mailles nationale et régionale pour 10 journées sur la période du challenge, à l’horizon J+1 et par quart d’heure. Dans cette compétition, Malo Huard a été le seul à agréger les modèles de manière séquentielle.


Guillemet

 Il est possible de faire presque aussi bien que le meilleur modèle, même si on ne sait pas lequel choisir, même si on ne le connaît pas d’avance



Mettre en concurrence les modèles et développer l’apprentissage automatique

Comment l’agrégation se déroule-t-elle ? « Je construis des modèles élémentaires à l’aide de plusieurs techniques d’apprentissage automatique, parmi lesquelles les réseaux de neurones , explique Malo Huard. Dans un second temps, je bâtis une méta-prévision à l’aide d'algorithmes d’agrégation séquentielle ». Au début du processus, tous les modèles élémentaires sont agrégés de manière uniforme (avec un poids identique). Au fil du temps, la pondération est mise à jour en fonction de l’historique des données. C’est un modèle particulièrement robuste car il sait fonctionner avec très peu de données. Trois mois de données suffisent à calibrer un modèle, par exemple. Cette robustesse est liée à l’agrégation séquentielle, qui sait mettre les modèles en concurrence et désactiver ceux qui ne sont fiables que sur une courte période et ne se généralisent pas bien . En outre, l’agrégation des modèles a d’autres avantages : elle est très peu coûteuse car les algorithmes, qui opèrent par mise à jour, ne passent qu’une seule fois sur les données contre des centaines de fois dans le cadre des programmes de machine learning classiques. En sus, ils sont particulièrement rapides. Mais pour obtenir de bons résultats, il reste crucial d’utiliser de bons modèles.

De la prévision des ventes à la qualité de l’air, une multitude de champs d’application

Cette approche s’applique à de nombreux contextes : Pour Cdiscount, Malo Huard applique les techniques d’agrégation séquentielle à la prévision de ventes de produit – une opération cruciale pour les logisticiens qui doivent anticiper la demande et constituer leurs stocks en avance. Outre la prévision de la consommation électrique, le chercheur s’intéresse aussi à la maintenance prédictive. Un projet est en cours avec EDF, qui consiste à travailler sur les plannings d’activation des barrages en fonction de la demande d’électricité, pour automatiser des tâches qui sont aujourd’hui réalisées à la main. Tous les processus temporels peuvent bénéficier de cette approche, car rares sont les modèles qui proposent des garanties de fiabilité aussi fortes : la prévision de la qualité de l’air (réalisée par Gilles Stoltz), l’affluence dans le métro, les aéroports, l’utilisation des vélib, la prévision des cours de bourse, la production du pétrole brut, l’évolution des taux de change… Grâce à la proximité de son laboratoire avec les entreprises, Malo Huard baigne dans un milieu où il peut explorer les applications de l’agrégation séquentielle et les mettre en œuvre afin de permettre à l’industrie de profiter de ces solutions particulièrement utiles.

D’après un entretien avec Malo Huard, chercheur en thèse diplômé de l’Ecole Polytechnique


Diplômé de l’Ecole Polytechnique en 2015, Malo Huard réalise une thèse dans le cadre de l’École doctorale de mathématiques Hadamard de l'Université Paris Saclay, au sein du Groupement d'études et de recherche en gestion à HEC Paris (laboratoire joint CNRS / HEC Paris: GREGHEC). Son projet de thèse prend ses racines dans l'agrégation robuste de prédicteurs. Les méthodes développées permettent de réaliser des prévisions automatiques (c'est à dire sans aucun contrôle nécessaire) à partir de prédicteurs fondamentaux.