Les modèles prédictifs à l'épreuve de la Coupe du Monde

Yves Pizay, Senior Partner chez Kea & Partners

En juin dernier, Goldman Sachs et UBS nous livraient leurs prédictions. Pour les premiers, le Brésil serait le grand vainqueur de la Coupe du Monde de football. Pour les seconds, plus prudents, le gagnant figurerait parmi le trio Brésil – Portugal – Allemagne. Et il semblait s’agir là de matière objective : des données en masse, analysées sous tous les angles, à grand renfort de simulations. Dans son dossier, Goldman Sachs n’y allait pas de main morte : « Hours of number crunching », « 200,000 models », « Harnessing recent developments in machine learning », « one million simulations ». UBS, quant à lui, faisait valoir ses algorithmes d’investissement pour déterminer le vainqueur. Bref, on y croyait…

Or, nous le savons déjà, aucun de ces trois favoris ne soulèvera le trophée de la FIFA. Alors, faut-il y voir une défaite en rase campagne des modèles prédictifs ? Avant de se prononcer, regardons de plus près les résultats.

Performance des modèles

Du côté de Goldman Sachs, 56% des participants à la phase de poule ont été correctement classés dans leur groupe et 81% des qualifications ont été prédites avec justesse. Ainsi, l’erreur ne concerne que trois équipes : l’Allemagne, l’Arabie Saoudite et la Pologne ne sont pas qualifiées, tandis que la Suède, la Russie et le Japon ont joué en huitièmes de finale. Le Groupe UBS, quant à lui a annoncé que son modèle était juste à 66%. Son trio gagnant s’est révélé faux, mais sa recommandation reste toujours pertinente : regarder avec attention la France, l’Angleterre et la Belgique, tous trois considérés alors comme des challengers. En revanche, ni Goldman Sachs ni UBS n’avait vu venir la Croatie.

En résumé, les modèles ont deviné l’évidence et ignoré la singularité. De quoi faire sourire, une fois encore, Nassim Nicholas Taleb, ancien courtier en Bourse et auteur du fameux Cygne Noir. Pour lui, notre monde est dominé par « l’inconnu et le très peu probable – et pendant ce temps, nous ne cessons de nous livrer à des bavardages inutiles et de nous focaliser sur le connu et le répété ».

Des modèles adaptés à l’imprévu ?

La beauté froide des modèles pourrait vite nous faire oublier que notre monde n’obéit pas seulement à des formules mathématiques… du moins pas celles que nous utilisons aujourd’hui. Les prédictions pour la Coupe du Monde ne sont pas une affaire de certitudes, mais un travail de statistiques et de probabilités fondé sur quatre limites :

  • Une fréquence relativement faible des rencontres, donnant un caractère unique à chacune d’elles. Il n’y a en effet qu’un match le 10 juillet à 20h qui oppose France et Belgique. Cette unicité des événements rend le lien entre modèle probabiliste et observation empirique plus complexe. Ce n’est pas le cas, par exemple, d’un lancer de dés, certes unique, mais plus facilement comparable à un autre lancer.
  • Une grande diversité de paramètres à prendre en compte, difficiles à identifier de manière exhaustive. Qui plus est, le choix et la pondération des paramètres valables pour tel match restent-ils pertinents pour tous les autres ? La pluie influence-t-elle le jeu de l’équipe d’Irlande au même titre que celui de l’équipe du Qatar ?
  • Des scores assez bas si on les compare à d’autres sports, avec des buts qui sont le résultat d’une suite d’actions difficilement modélisable et soumise à un effet papillon : ainsi, une passe, un crochet, une simple faute, l’appel ou non à la VAR peuvent être déterminants, changer le cours d’un match, modifier l’ensemble des pronostics
  • Une exploitation des données passées, mais une absence d’analyse poussée sur la situation présente. Or, nous le savons bien, les résultats passés ne préjugent pas les performances à venir.

Il est peut-être possible de considérer que le résultat d’un match de foot est parfaitement déterministe, mais la quantité de paramètres à prendre en compte laisse tout de même penser qu’une modélisation comportant une part aléatoire est plus appropriée. Un des analystes de Goldman Sachs avait d’ailleurs noté avec justesse (et prudence, humilité ?) : « Football is quite an unpredictable game… ».

Une Coupe de Monde singulière

A la décharge des data scientists qui ont eu le courage de publier leurs résultats, qui pouvait par ailleurs s’attendre à un tel scénario ?

Le journaliste Sébastien Bouron, de l’Equipe, a montré que cette Coupe du monde était tout sauf banale : « Pour la première fois dans l’histoire de la Coupe du monde, aucun pays parmi le Brésil, l’Argentine et l’Allemagne n’est présent dans le dernier carré de l’épreuve… L’Europe marche sur le monde en détenant les quatre demi-finalistes (France, Belgique, Angleterre et Croatie). C’est seulement la cinquième fois – la quatrième de l’après-guerre – qu’une telle domination s’exerce durant la Coupe du monde… Par ailleurs, il existe une possibilité d’assister à une finale 100 % inédite » (Belgique – Croatie).

La Coupe du monde 2018 est donc inédite… Certes, mais au fond, laquelle ne l’est pas ? Chaque fois, il est possible d’extraire des données particulières pour montrer le caractère proprement original de telle ou telle épreuve.

Et cela est normal, car ne l’oublions pas : ou bien le nombre de variables est trop grand et la modélisation est alors très difficile ; ou bien quelque chose du ressort de l’irrationnel, du non analysable, du hasard advient dans le jeu, et la modélisation est alors impossible. Ce qui, en définitive, revient à peu près au même. Comment modéliser l’exploit de Zidane le 12 juillet 1998 et au contraire son coup de tête contre Materazzi en 2006 ?

Data & Humain

Ainsi, le principal enseignement pour les entreprises des rapports de Goldman Sachs et d’UBS, le voici : la Data recèle une grande puissance pour nos modèles économiques. Elle permet de détecter des tendances, d’anticiper des comportements, de viser plus juste, de positionner l’effort au bon endroit, donc d’être plus performant, sans aucun doute possible.

Néanmoins la Data n’est pas capable de modéliser la vie. La Coupe du Monde est une preuve supplémentaire que demain sera Data & Humain. Et que nos entreprises doivent investir dans les deux domaines, avec une même intensité, sans les opposer ou les séparer. Suivons-en cela l’exemple de La Mannschaft qui avait réussi en 2014 à combiner talents individuels, collectif d’équipe et big data.

Unir Humain et Data est d’autant plus nécessaire qu’à l’heure des réseaux, des écosystèmes et de la complexification des relations, nous pouvons faire le pari, avec Nassim Nicholas Taleb, « qu’en dépit de notre évolution et de l’accroissement de notre savoir, l’avenir sera de moins en moins prédictible ».


Sources :

Contactez l’auteur

Yves Pizay, Senior Partner chez Kea & Partners et responsable Data, avec l’aide précieuse et bienveillante de François-Régis de Guenyveau (Kea et auteur de « Un dissident » éditions Albin Michel), Romain Aeberhardt (Veltys, en charge des pôles R&D et machine learning / IA) et Olivier Tezenas du Montcel (Kea, amoureux du sport)

Découvrez les autres articles de l’auteur :

Abonnez-vous pour recevoir les prochains articles

0 commentaires

Soumettre un commentaire

Votre adresse de messagerie ne sera pas publiée.