Risques relatifs, risques absolus, perception des probabilités : comment ne pas se faire piéger par les statistiques ?
« Hausse considérable [de développer un cancer] » écrivait France 2 en évoquant mon étude sur les liens entre la consommation d’aliments ultra-transformés et le risque de cancer du sein. La Dépêche écrivait à propos d’une autre étude sur la pollution « Pour les femmes, le risque de décès par cancer du sein serait augmenté de 80%« . Est-ce que cela signifie qu’on a 80% de chance d’avoir un cancer à cause de la pollution de l’air ? Bien sûr que non.

Tous ces médias ou sites internets mettent souvent en lumière de gros chiffres qui peuvent faire peur. Nous verrons dans cet article que l’Homme a naturellement un sens des probabilités mais que celui-ci est biaisé par des heuristiques et des distorsions cognitives. Il est également important de savoir faire la différence entre les risques relatifs (souvent de gros chiffres) des risques absolus (souvent des plus petits chiffres).

La perception des probabilités
La formulation des probabilités, des ratios ou des pourcentages joue de manière importante dans l’appréciation des risques. Un risque est une probabilité de survenue d’un danger. Un petit problème de raisonnement a été donné à des étudiants de médecine à travers cette question (Casscells 1978). Celui-ci montre que la formulation des probabilités (« 1/2 ou 50% ou 500/1000« ) est importante.
Question a) Si un test permet de détecter une maladie dont la prévalence est de 0,1% (% de personnes touchées par cette maladie) avec un taux de faux positifs de 5%, quelle est la probabilité qu’une personne dont le résultat est positif ait effectivement la maladie, en supposant que vous ne sachiez rien de ses symptômes ou de ses signes ?
Oui j’ai fait aussi cette tête en voyant la question… Seulement 18% des étudiants ont trouvé la bonne réponse qui est 0,0196 soit 1,96%. Que se passe-t-il si l’on repose le même problème mais formulé différemment ?
Question b) Si un test permet de détecter une maladie dont la prévalence (% de personnes touchées par cette maladie) est de 1/1000 avec un taux de faux positifs de 50/1000, quelle est la probabilité qu’une personne dont le résultat est positif ait effectivement la maladie, en supposant que vous ne sachiez rien de ses symptômes ou de ses signes ?
Cette fois-ci le nombre de bonnes réponses a triplé. En effet, on comprend facilement que 1 personne sur 1000 a réellement la maladie et 50 autres personnes seront détectées positivement au test. Au final, cela fait donc 51 personnes détectées positivement au test. Or 1 seule personne est réellement malade donc la probabilité d’être positif et malade est de 1 chance sur 51 : 1/51=0,0196=1,96%
C’est pourquoi les campagnes de dépistage doivent être soigneusement préparées, sans quoi elles n’aident pas vraiment.
L’importance de raisonner sur le même dénominateur
Si l’on avait raisonné avec des dénominateurs différents comme dans la question a), cela donne le même résultat : 0,1% et 5% des gens sont détectés positivement, soit 0,1/100 personnes + 5/100 personnes = 5,1 / 100
Seulement 0,1 sur 100 sont réellement malades, soit 0,1/5,1=0,0196
En conclusion, les gens ont un sens inné des probabilités mais cela doit être activé par les fréquences naturelles. Il est plus facile de raisonner sur le même dénominateur, il en est de même pour la perception des risques. Il est plus difficile de comparer un risque avec une probabilité de 6/9 et un autre avec une probabilité de 29/64 que comparer deux incidents avec une survenue de 40% et 60%.
L’Homme a tendance à distordre les probabilités
L’Homme est-il statisticien de nature ? Sans doute que non, il existe des déviations systématiques entre le jugement humain et le jugement purement rationnel.
Généralement l’Homme a tendance à augmenter la fréquence des événements rares et à diminuer la fréquence des événements courants comme on peut le voir sur le graphique ci-dessous :

Cette distorsion des probabilités est retrouvée dans la perception du risque. Dans ce graphique ci-dessous est tracé le nombre réel de morts par an aux États-Unis en abscisse et le nombre de morts estimé par des personnes interrogées en ordonnées. Les tornades, les inondations, le botulisme causent peu de morts mais leur risque est surestimé.

Ces erreurs systématiques (non aléatoires) dans le traitement de l’information contiennent un certain déterminisme. Les chercheurs Kahneman et Tversky avaient identifié 3 heuristiques en 1974 (stratégies de raisonnement – il en existe d’autres) :
- la représentativité : cela revient à se baser sur une représentation de la réalité ou sur des stéréotypes. Lors d’un lancer successif de pièces Pile (P) ou Face (F), souvent les gens ont tendance à estimer que la séquence PFPFFP est plus probable (car elle semble plus aléatoire) que FFFPPP
- la disponibilité : c’est le fait d’estimer une fréquence en fonction de la facilité avec laquelle des exemples ou des associations viennent en tête
- l’ancrage-ajustement : cela consiste à faire une première estimation à partir d’une valeur initiale (une « ancre ») puis d’ajuster cette estimation. L’ajustement est souvent trop faible.
Distorsions visuelles de la perception des fréquences
Des distorsions de probabilités ont été identifiées dans l’estimation visuelle de fréquences. J’ai lancé un petit sondage (durant 24h – 304 réponses) avec la présentation de trois images avec des points blancs et noirs. La question portait sur le fait d’estimer la proportion de points noirs parmi l’ensemble des points sur chaque image (en %) : une estimation de la fréquence des points noirs.
Les trois images contenaient la même proportion de points noirs mais avec un nombre total différent de points (200 points pour les images 1 et 3 ou 600 points pour l’image 2) avec 20% de points noirs. L’image 3 est l’image 1 retournée. Le but de l’enquête était d’estimer le nombre de personnes qui ont vu des proportions différentes sur les trois images et qui ont eu un effet de distorsion visuelle.
Résultats du petit jeu d’estimation de la proportion de points noirs
Merci au 304 répondants (fin des analyses le 15/11/2019 à 8h) qui se sont prêtés au jeu. Seulement 21% des participants ont identifié que les proportions de points noirs sont les mêmes sur les 3 images et 36% ont identifié que les images 1 et 2 présentent les mêmes proportions.
48,7% des participants estiment que la proportion de points noirs est plus faible dans la première image que dans la 2ème et 18,1 pensent l’inverse.

La plupart des participants ont plutôt bien estimé les 20% de points noirs. Cependant, pour l’image 1, la moyenne de la proportion de points noirs était à 20,8% alors que pour les images 2 et 3, elle était à 24,2% (significatif).

Face à ces distorsions d’estimation de proportions, il n’y avait pas d’effet significatif du sexe ni du niveau de diplôme. Il est difficile d’interpréter sur les classes d’âge des répondants, il y a eu seulement deux réponses de moins de 18 ans qui ont estimé des proportions de façon plus basses que la moyenne, de même pour les plus de 60 ans.

Les limites (nombreuses) de ce petit sondage sont le faible effectif, le biais de sélection (non représentatif de la population générale). Il aurait été intéressant de tester plusieurs proportions avec plus d’images ainsi qu’un temps de réponse limité à 2-3 secondes pour empêcher les participants de trop réfléchir (et plus suivre leur intuition naturelle des probabilités). J’ai également fait de simples tests statistiques (non ajustés). On peut noter que 2-3 personnes ont dû confondre le noir et le blanc : proportion de points noirs à 60% ou 80% !
Cette distorsion est modélisable
Cette distorsion des probabilités est modélisable par une relation linéaire avec cette formule compliquée. Zhang et ses collaborateurs ont répété plusieurs fois cette expérience avec un nombre total de points et de proportions de points noirs qui varient.

Il faut surtout comprendre que l’estimation des probabilités π(p) dépend de la pente γ et de la vraie probabilité p. Cette pente γ est un paramètre qui définit la relation entre la probabilité réelle p et la probabilité estimée π(p) par les participants de l’étude.
Cette étude (Zhang 2012) a montré que la pente des distorsions de fréquence diminuait log-linéairement avec la taille de l’échantillon (le nombre total de points). Ce résultat est surprenant parce qu’en général, une taille d’échantillon plus grande devrait réduire le «bruit» et ainsi permettre une estimation plus précise.

Différents participants à une même expérience peuvent avoir différentes distorsions et un même participant peut présenter différents schémas de distorsion dans différentes tâches. Nous ne savons pas actuellement ce qui contrôle la probabilité de distorsion ni pourquoi elle varie comme cela.
Ces deux précédents exemples vous ont montré que la formulation des probabilités (1/2 ou 50% ou 1000/2000) et la perception visuelle des fréquences influent sur nos estimations des probabilités. Maintenant, il est également important de distinguer deux formulations du risque (également une probabilité).
Risque relatif versus risque absolu
Il y a deux grandes manières de représenter une différence de risque entre deux événements : le risque relatif et le risque absolu. Ces notions peuvent sembler complexes mais en réalité, elles sont assez simples.
- Le risque absolu décrit la probabilité de survenue d’une maladie (ou d’un problème) dans une population donnée et dans des conditions spécifiques. Par exemple, il y a 50 personnes sur 100 000 atteintes de cancer du poumon en France. Deuxième exemple, ce risque absolu peut varier avec l’âge pour le risque d’arrêt cardiaque : il est très faible quand on est jeune et il est augmente fortement passé 60 ans. Vous avez un risque de base de 0,05%. On peut étudier l’évolution de ce risque de base avec une différence de risque absolu (une soustraction) entre un groupe exposé et non-exposé : une réduction absolue de risque (ou excès de risque)
- Le risque relatif est la probabilité qu’un événement survienne dans un groupe d’individus par rapport à un autre groupe exposé à des conditions environnementales différentes. C’est un rapport du risque de survenue (une division). C’est le facteur par lequel le risque de maladie est multiplié en présence de l’exposition.

En épidémiologie, on peut quantifier l’association statistique entre une exposition environnementale et la survenue d’une maladie de cette façon :

La plupart des relations épidémiologiques sont exprimées en Risque Relatif (ou Hazard Ratio ou Odds Ratio). Par exemple, le Risque Relatif (RR) de consommer des aliments ultra-transformés vs les non consommateurs pour tous les cancers était 1,23, soit une augmentation relative de +23% du risque d’avoir un cancer (Fiolet 2018). Dans une autre étude (Lee 2012), le RR est de 8,43 : chez les fumeurs réguliers s’ils commencent à fumer leur risque de cancer du poumon sera multiplié par 8.

Exemple d’interprétation de risques relatifs et d’excès de risque
De nombreuses études épidémiologiques ont analysé les relations entre la pollution atmosphérique/le tabac et la survenue du cancer des poumons. L’incidence du cancer du poumon en France est de 50,5 cas pour 100 000 personnes. Fumer multiplie le risque de cancer du poumon par 5.50 et une augmentation de la pollution de l’air (+10µg/m³ de particules fines PM2,5) est associée à une augmentation de +17% de cancer du poumon.
- Le tabagisme fait passer (sous hypothèse causale) le risque de base de cancer du poumon de 50,5 personnes / 100 000 atteinte de cancer du poumon à 328 personnes /100 000, soit une augmentation de +227 nouveaux cas de cancer du poumon
- La pollution aux particules fines (sous hypothèse causale) fait passer le risque de base du cancer du poumon de 50,5 personnes / 100 000 atteinte de cancer du poumon à 59,5 personnes /100 000, soit augmentation de +9 nouveaux cas de cancer du poumon

On peut constater que les augmentations de risques absolus sont de plus petits chiffres +0,23% que les risques relatifs (x5).
Un même risque relatif et des différences de risque absolu différentes
Si l’on prend une situation hypothétique avec 60 personnes exposées et 60 personnes non exposées à un facteur environnemental (la pollution par exemple), au bout de quelques années, on regarde le nombre de personnes atteintes de cancer.
Dans le groupe non exposé, chez une population 1, le risque de cancer était de 3% et dans la population 2 le risque était de 40%. L’exposition a fait qu’on passe :
- dans la population 1 : de 2/60 atteintes de cancers à 3/60 atteintes de cancer
- dans la population 2 : de 24/60 atteintes de cancers à 40/60 atteintes de cancer
Dans les deux populations, le facteur environnemental est associé à la maladie avec une augmentation de +67% du risque relatif mais avec une différence de risque absolu différente.
Dans la population 2, on identifie en effet 16 personnes malades de plus alors de la population 1, il n’y a qu’un seul cas de cancer en plus.

Pour finir, je vais reprendre l’exemple de l’augmentation de risque relatif lié à la consommation de viande (+17% de risque de cancer colorectal par 100g supplémentaire/jour).

Il est important d’avoir en tête que les cancers ou le diabète sont des maladies multifactorielles résultant de plusieurs facteurs de risque environnements et génériques. Dans les exemples que j’ai repris comme celui de la viande, on a donc une augmentation de 3 cas de cancer sur 100 000 personnes attribuables à la consommation excessive de viande rouge mais ces calculs se font sous l’hypothèse que la viande rouge est un facteur causal de cancer. Pour le moment, cela n’a pas été démontré mais de nombreuses études épidémiologiques observationnelles laissent penser qu’il vaut mieux réduire sa consommation de viande rouge pour sa santé.
Pour suivre les autres actualités du blog ou en apprendre plus sur les controverses alimentaires, santé et environnement, un petit like ou sur Twitter :
Follow @T_Fiolet
Sources :
Casscells, W., Schoenberger, A., and Grayboys, T. (1978). Interpretation by physicians of clinicallaboratory results.New England Journal of Medicine,299, 999-1000. https://www.nejm.org/doi/full/10.1056/NEJM197811022991808
Zhang, H., & Maloney, L. T. (2012). Ubiquitous Log Odds: A Common Representation of Probability and Frequency Distortion in Perception, Action, and Cognition. Frontiers in Neuroscience, 6. doi:10.3389/fnins.2012.00001
Hohle, S. M., & Teigen, K. H. (2017). More than 50% or Less than 70% Chance: Pragmatic Implications of Single-Bound Probability Estimates. Journal of Behavioral Decision Making, 31(1), 138–150. doi:10.1002/bdm.2052
Noordizij et al. Relative risk versus absolute risk: one cannot be interpreted without the other. Nephrology Dialysis Transplantation, Volume 32, Issue suppl_2, April 2017, Pages ii13–ii18, https://doi.org/10.1093/ndt/gfw465
Hohle, S. M., & Teigen, K. H. (2017). More than 50% or Less than 70% Chance: Pragmatic Implications of Single-Bound Probability Estimates. Journal of Behavioral Decision Making, 31(1), 138–150. doi:10.1002/bdm.2052
Merci pour la limpidité de cette démonstration. Certes, comme le montre le test de Casscells, l’erreur de première espèce va être une de raisonnement à partir de laquelle tout étudiant va apprendre et est supposé ne pas la reproduire. Et, la pédagogie du reste du papier nous invite avec pertinence à éviter les pièges des différents biais cognitif qui nous menace, cependant, peut-être ne serait-il pas inintéressant de revenir à votre introduction. Je m’explique : les médias, les organisation militante introduisent un facteur déclenchant qui est la peur, l’annonce à sensation qui a pour effet immédiat d’agir sur l’émotion. Qui plus est, ils s’adressent à du grand public. Donc, la probabilité que la cible de ces personnes se posent, réfléchissent rationnellement (au mieux se documente), prenne un peu de distance, va être (malheureusement) inversement proportionnelle à la distance qu’il existe entre la connaissance que vous dispensez et le niveau émotionnel que contiennent les propos tenus. De sorte que, la question qui se pose en premier lieu est, chaque fois, comment surmonter (contourner) le biais émotionnel d’une personne qui vient vous dire : « Ah ! tu vois, ce que j’ai entendu l’autre jour, le blablabla – prise au premier degré », avant pouvoir l’amener (tout doucement) sur terrain de la raison. C’est devenu quelque chose de de plus en plus difficile, qui requiert beaucoup de patience, de sens de la psychologique et, parfois, de la mission impossible. Pardonnez-moi, ma question est un peu éloignée du fond du sujet ; heureusement que vous contribuez à nous encourager à ne pas baisser les bras …
Patrick
vous dites: Le tabagisme fait passer (sous hypothèse causale) le risque de base de cancer du poumon de 50,5 personnes / 100 000 atteinte de cancer du poumon à 328 personnes /100 000, soit une augmentation de +227 nouveaux cas de cancer du poumon.
Je ne comprend pas comment vous arriver à 227 nouveaux cas? 328 chez les fumeur contre 50.5 dans population general c’est 277.5 nouveaux cas non?