Tromper avec des graphiques et représentations visuelles pour manipuler l’opinion : le mini-guide

Un graphique aide à visualiser une grande quantité de données mais il peut aussi tromper. Or tromper n’est pas la même chose que mentir car le graphique peut induire le lecteur en erreur sans l’intervention consciente de son concepteur : on peut construire un graphique trompeur en accumulant des erreurs ou des approximations. Cependant, on peut suspecter certaines personnes de violer les devoirs de l’éthique déontologique. Plusieurs stratégies trompeuses peuvent être mises en place :

  • ne pas montrer toutes les données voire cacher les données pertinentes pour mettre en évidence les avantages que l’on veut montrer
  • afficher des données inexactes ou approximatives
  • affiche trop de données pour cacher la vérité ou l’adoucir
  • utiliser des formes graphiques de manière inappropriée

L’importance de la tromperie d’un graphique peut être estimée par le rapport (taille de l’effet représenté sur le graphique/taille de l’effet dans les données brutes).

Voici un guide (non exhaustif) de quelques astuces utilisées dans un graphique trompeur :

La perspective 3D dans les graphiques

D’après une enquête 2008 de l’INED, 45% des français se déclaraient sans religion, 43% catholiques, 8% musulmans et 2% protestants.
Ces 3 diagrammes à secteurs montrent que la religion “musulmane” représente 8% du total. Mais on peut remarquer que le graphique de droite rend la tranche “musulmans” plus volumineuse en la plaçant au premier plan, ce qui lui confère un contour 3D épais et plus du double du nombre de pixels rouges foncé par rapport à l’arrière-plan.

La vision humaine n’est pas très bonne pour interpréter la troisième dimension. Quand nous observons un graphique 3D, nous supposons que plus de couleur indique une plus grande quantité. Ainsi, lorsque plus de pixels sont utilisés pour représenter une tranche d’un graphique à secteurs, la tranche semble plus importante. C’est pourquoi nous pouvons attribuer une valeur supérieure inconsciente aux tranches d’avant-plan dans les camemberts 3D.

Tronquer l’axe des ordonnées – Changer l’échelle

Une pratique courante est de ne pas commencer l’axe des ordonnées à zéro, cela permet de modifier la pente de la courbe. Au premier coup d’œil, il est difficile de s’intéresser simultanément à l’échelle d’un graphique et aux données. Souvent, nous ne regardons que la tendance et notre première impression est déjà faite !

Par exemple si on s’intéresse à l’évolution des crédits de paiement alloués à la Défense en France. La graphique à gauche donne l’impression que le budget est stable de 2009 à 2016 puis augmente légèrement alors que le graphique de droite qui est un zoom sur l’axe des ordonnées donne l’impression d’un investissement beaucoup plus important dans la Défense avec une tendance ascendante plus marquée.

Un autre moyen d’étudier l’évolution d’un paramètre est de calculer les variations.

Lorsque l’on voit un diagramme, on pense en général intuitivement qu’il représente une quantité (en fonction du temps, d’une catégorie…). Mais il peut aussi représenter une variation.

Effacer les échelles et les axes

Un autre bon exemple porte sur le taux de gréviste à la SNCF en avril 2018. La SNCF a supprimé l’axe des ordonnées dans son communiqué de presse et a vraisemblablement tronqué cet axe en ne commençant pas à zéro, il est encore plus difficile de s’y retrouver ! Ce communiqué a été publié durant une grève contre la direction de la SNCF qui a tout intérêt à minimiser le succès de la grève pour décourager les cheminots.

Mais si on trace les graphiques avec les échelles, on voit que la baisse de 4 points parait beaucoup moins importante quand on prend l’échelle complète en partant de zéro.

On peut également manipuler les axes en choisissant une échelle linéaire ou logarithmique. Cela peut permettre d’aplatir ou non une courbe.

Difficulté de lecture avec les graphiques à aires empilées

Nous sommes généralement bons pour détecter des tendances mais quand on utilise des graphiques avec des aires empilées, cela devient beaucoup plus complexe. Par exemple, pour ces graphiques sur l’évolution des gaz à effet de serre en France pour l’agriculture. Dans le graphique de gauche, l’agriculture est identifiée en couleur jaune-saumon et il faut en effet comparer la taille des aires par secteurs pour déterminer si les émissions de gaz à effet de serre diminuent ou augmentent pour chacun des secteurs.

Comparer le changement de hauteur entre des ensembles de données pendant qu’ils montent et descendent n’est pas une tâche visuelle naturelle. Cela permet de cacher des tendances. A l’inverse, le graphique de droite ne représente que le secteur de l’agriculture (avec des projections d’où la multiplication des courbes) et il est plus clair : on peut distinguer une tendance claire à la diminution des GES.

Pour le graphe à droite, l’axe des ordonnées est tronqué mais je n’ai pas trouvé de graphiques simples portant sur les GES de l’agriculture en France

Les graphiques carrément faux !

Voici deux exemples où les proportions des graphiques ne correspondent pas du tout aux valeurs !! Mais comme souvent ces graphiques passent très vite à la télévision, nous n’avons pas le temps de les analyser.

Il faut également se méfier des graphiques en “bulles” où les disques ne sont pas forcément proportionnels en taille entre eux par rapport aux valeurs qu’ils représentent. Ici un exemple sur les langues informatiques les plus utilisés :

Les fausses corrélations

La corrélation peut être mesurée par le coefficient r de Pearson qui permet de détecter la présence ou l’absence d’une relation linéaire entre deux variables X et Y continues. Le fait que deux variables soient « fortement corrélées » ne démontre pas qu’il y ait une relation de causalité entre l’une et l’autre. Cependant de nombreux graphiques superposent des courbes ce qui peut laisser planer un doute visuel. Voici un site amusant où l’on peut créer ses propres fausses corrélations : http://www.tylervigen.com/spurious-correlations

Un exemple de corrélation très forte (r>0.90) entre les dépenses aux États-Unis dans le domaine scientifique et de l’aérospatial et les morts dus aux cancers le jeudi :

Faut-il manger du chocolat pour avoir un prix Nobel ?

Le Dr Franz H. Messerli est allé plus loin en s’amusant à publier une “note” sur les effets du chocolat sur les fonctions cognitives dans le prestigieux journal New England Journal of Medicine. Le cacao contient en effet des flavanols, des composés antioxydants qui pourraient ralentir le déclin cognitif lié à l’âge.

Comme les données sur les fonctions cognitives ne sont pas publiques, il a décidé d’utiliser des données gratuites accessibles, le nombre de lauréats du prix Nobel par habitant comme proxy de la fonction cognitive nationale. Messerli a découvert une étonnante et forte corrélation entre la consommation annuelle de chocolat par habitant de chaque pays et le nombre de prix Nobel par habitant des pays. Le pays en tête avec le plus grand nombre de lauréats du prix Nobel pour 10 millions d’habitants et la plus forte consommation de chocolat par habitant est la Suisse. La Suède arrive ensuite en 2ème position puis le Danemark. La pente de la régression linéaire montre qu’augmenter de 0,4 kg de chocolat par habitant par an augmente le nombre de lauréat pour un pays d’un lauréat.

La Suède apparaît comme un point en dehors avec un nombre élevé de lauréats et une consommation de chocolat plus faible qu’attendue. Le chercheur s’amuse en disant que le comité des Prix Nobel doit être biaisé et avoir une préférence patriotique. Messerli finit en rigolant par “cela doit être testé par un essai randomisé contrôlé prospectif” (l’essai randomisé contrôlé est le gold standard pour étudier une relation de causalité). Voici un bon exemple comique de comment on peut raconter n’importe quoi avec des simples corrélations linéaires.

Comparer les pommes et les poires

Toujours bien lire les axes des graphiques, les unités des variables et leurs échelles. Donald Trump a tweeté un graphique très trompeur pour essayer de montrer que pendant la présidence de Barack Obama, la croissance économique a diminué sauf que ce graphique ne compare pas les mêmes bases d’années : 1950-2008 (58 ans) versus 2009-2016 (7 ans de mandat) !!

Utiliser des courbes de données cumulées

Utiliser des ventes cumulées permet d’avoir une courbe toujours ascendante à défaut de montrer la courbe des ventes en valeurs absolues.

Morale de l’histoire : toujours se méfier des graphiques en particulier ceux qui présentent peu d’informations et sans axe ! Bien lire les légendes et les axes. Voici également un dernier amusant recensant les représentations visuelles trompeuses : http://viz.wtf/

Pour suivre les autres actualités du blog ou en apprendre plus sur les controverses alimentaires, santé et environnement, un petit like ou sur Twitter :

Sources :

INED – page 7 https://www.ined.fr/fichier/s_rubrique/19585/document_.travail_2013_196_religion.fr.pdf

SNCF https://www.sncf.com/sncv1/ressources/cp_taux_de_participation_4_avril_2018.pdf

Ministère https://agriculture.gouv.fr/emissions-de-gaz-effet-de-serre-dorigine-agricole-couts-et-potentiels-dattenuation-instruments-de

ADEME https://www.ademe.fr/expertises/changement-climatique-energie/quoi-parle-t/lattenuation-ladaptation

Messerli, F. H. (2012). Chocolate Consumption, Cognitive Function, and Nobel Laureates. New England Journal of Medicine, 367(16), 1562–1564. doi:10.1056/nejmon1211064

Cairo, A. (2014). Graphics Lies, Misleading Visuals. New Challenges for Data Design, 103–116. doi:10.1007/978-1-4471-6596-5_5

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée.