Tests de dépistage : 90% de «positifs faux» ?

Jérémie Lengrais
29 sept. 2020
6 min de lecture

Le Monde s’interroge cette semaine sur l’hypersensibilité des tests COVID-19, via la question à mille euros:

« Peut-on vraiment dire (…) que 90% des cas confirmés (…) sont des faux positifs » ?

Et étonnamment, parmi plusieurs explications, le journal oublie de préciser qu’en médecine un test de dépistage avec 90% de «positifs faux» (nous inversons pour une meilleure compréhension du pourcentage qui intéresse le Monde ici) c’est …tout à fait courant. Et souvent parfaitement normal.

En effet, même si cela est contre-intuitif, il n’y a pas de contradiction à la concomitance des faits suivants :

Le test de dépistage T est très efficace : sur 100 malades, il n’en « oublie » qu’un (faux négatif)
Le test de dépistage T se trompe rarement : sur 100 individus sains, un seul est à tort diagnostiqué comme malade (faux positif)
Et : la grande majorité des cas diagnostiqués positifs par le test T le sont à tort (plus de faux positifs que de vrais positifs)

Pour les tests de dépistage, ce « paradoxe » est même plutôt la règle, pour deux raisons particulières à ce domaine d’application que nous allons voir ensemble.

Des modèles algorithmiques particuliers

Rappelons tout d’abord que derrière un test de dépistage il y a, comme souvent ailleurs, un modèle algorithmique : un modèle qui prend en entrée des données de santé d’un patient via des prélèvements (sanguins, salivaires,…) et qui selon ces données émet en sortie une décision, dans notre cas binaire : positif (contagieux) /négatif (non contagieux). En science des données ce processus de décision s’appelle une classification et la catégorisation finale du patient un label.

Or les modèles algorithmiques derrière les tests de dépistage, contrairement à d’autres modèles algorithmiques industriels, subissent deux contraintes particulières:

1. Un déséquilibre des populations concernées : individus malades/sains. Une pathologie touche généralement une fraction seulement de la population, de l’ordre du pourcent voire beaucoup moins. Il y a beaucoup plus d’individus sains que d’individus malades. Et donc, en valeur absolue, plus d’erreurs de diagnostics chez les (nombreux) individus sains que de diagnostics corrects chez la (petite) fraction de malades.

A cela s'ajoute pour la COVID-19 le fait que les populations testées ne sont pas « filtrées » comme pour d’autres pathologies (pensons au dépistage des cancers du sein, du colon) étant donné l’urgence sanitaire et la banalité des premiers symptômes: les individus testés ne sont pas seulement ceux dont on présume fortement qu’ils ont le virus, mais potentiellement tout le monde.

A titre d’illustration, pour une pathologie touchant 1% de la population, sur 1000 individus pris au hasard :

· Si le test génère 1% de faux négatifs parmi les individus malades, il y aura environ 10 vrais positifs (1000 x 1% x 99%)

· En parallèle, si le taux de faux positifs est de 1% parmi les individus sains, il y aura environ 10 personnes diagnostiquées malades à tort (1000 x 99% x 1%)

Soit autant de vrais que de faux positifs. Faire varier les paramètres de cet exemple aide à comprendre qu'on peut facilement arriver à une situation où le nombre de faux positifs surpasse le nombre de vrais positifs.

Voilà pour l’explication mathématique simple : valeur absolue et poids relatif. Rappelons tout de même que le déséquilibre des populations ou cohortes, bien qu’entraînant des biais mathématiques basiques, jouent des tours puissants aux cerveaux les plus brillants. On la retrouve par exemple aux côtés des facteurs de confusion dans le paradoxe de Simpson, un des biais cognitifs les plus fascinants et pourtant les plus simples des statistiques (NDR : nous mettons des liens externes sur le sujet à la fin de cet article).

2. L’objectif sanitaire des tests de dépistage : priorité est généralement donnée à la minimisation du nombre de faux négatifs, c’est-à-dire du nombre de personnes qui, après avoir été testées, pensent être saines alors qu’elles sont infectées. En science des données cet objectif se mesure via le rappel (« recall »), et se différencie de la précision (« precision »), qui elle se concentre sur les faux positifs.

Minimiser les faux négatifs

Penchons-nous plus avant sur ce deuxième aspect, sans doute le plus intéressant dans le cadre de cet article, car il dépasse la simple erreur d’appréciation mathématique et touche aux idées reçues sur les modèles algorithmiques.

L’objectif sanitaire des tests de dépistage peut paraître une évidence, mais il est en fait un choix à la fois contraint et éclairé, qui est celui de tout modèle algorithmique : quel type d’erreurs privilégier ?

Pour comprendre cela, il faut revenir rapidement sur deux fondamentaux des modèles algorithmiques statistiques, contre-intuitifs pour le grand public :

o Il n’existe pas de modèle algorithmique généralisable parfait. En d’autres termes, il n’existe pas de modèle ne générant aucune erreur (faux positif et faux négatif) dans une situation ad hoc de grande échelle (ce que sont ces tests de dépistage). Ceci n’est pas dû à une erreur d’ingénierie ou de mathématique ; ceci est dû à la complexité des phénomènes étudiés dont, par nature, tout modèle algorithmique est une simplification. Selon la fameuse phrase de George Box : « Tous les modèles sont faux, mais certains sont utiles ».

o A partir d’un certain seuil de qualité d’un modèle, la diminution du nombre de faux négatifs se fait forcément au prix d’une augmentation du nombre de faux positifs. Et vice-versa. Il faut alors choisir : soit plus de faux positifs, soit plus de faux négatifs. Cet arbitrage est l’arbitrage précision/rappel, très courant en science des données.

Pour les tests de dépistage, cet arbitrage revient à se poser la question suivante, au moment de parachever son modèle algorithmique :

1. préférons-nous subir un peu plus de faux positifs : des individus sains, mais diagnostiqués à tort comme souffrant d’une pathologie ?

2. ou préférons-nous subir un peu plus de faux négatifs : des individus malades mais diagnostiqués à tort comme sains ?

En santé la balance penche généralement très fortement vers la première réponse, car le coût social d’un faux positif est relativement faible et le coût social d’un faux négatif potentiellement immense. Diagnostiqué à tort avec une pathologie, un individu en est quitte pour une frayeur, infirmée par un test ultérieur. Le coût d’un faux négatif est, lui, parfois mortel.

COVID-19 et UIA-752

Il est intéressant de rappeler encore une fois que cet arbitrage précision/rappel est propre à chaque modèle algorithmique, et à chaque domaine d’application.

Pour s’en convaincre, penchons-nous par exemple sur un modèle algorithmique de défense aérienne, chargé de détecter, sur la base de données entrantes (données radar par exemple) si un objet approchant un espace aérien est un missile (label positif) ou un autre objet non-militaire, un avion par exemple (et dans ce cas le test de détection devrait être négatif).

Dans cet exemple l’arbitrage précision/rappel s’avère on le voit bien plus délicat : le coût d’un faux négatif (un missile ennemi pris à tort pour un avion) peut avoir un coût humain au sol. A l’inverse, un faux positif (un objet inoffensif pris pour un missile ennemi et déclenchant une réaction anti-aérienne) peut avoir un coût humain dans les airs. Des exemples dramatiques récents (comme le vol UIA 752 de janvier 2020 en Iran) sont là pour nous rappeler que ces questions sont tout sauf un simple exercice de projection intellectuelle.

En conclusion

Voici donc, en résumé, ce qu’il y a derrière ce « paradoxe des 90% de tests positifs faux»: un effet de bord mathématique nous faisant oublier que l’objectif des tests de dépistage n’est pas de minimiser le nombre de faux positifs, mais de minimiser le nombre d’individus contagieux sans le savoir (faux négatifs). Ces deux objectifs sont non seulement différents mais s’avèrent même, dans leur construction et dans leur réalisation, antinomiques à la marge. Et ce n’est pas un paradoxe ou une anomalie: avec tout modèle algorithmique il faut faire des choix, le choix de ses erreurs.

Pourquoi alors cet effet de loupe aujourd’hui sur une caractéristique somme toute assez classique des tests de dépistage ? Il y a un facteur médiatique bien sûr: le raz-de-marée COVID-19 et ses inquiétudes, les personnalités mondiales (sportifs notamment) testées à tort positivement. La (dé/mé)sinformation derrière tout phénomène nécessitant un effort d’explication soutenu.

Mais aussi des interrogations tout à fait légitimes liées aux spécificités de la COVID-19 en tant que maladie contagieuse sévère, pour laquelle le coût social d’un faux positif est décuplé par les contraintes sanitaires et logistiques (quatorzaine) pour contenir la maladie. Ce coût est renforcé par le fait qu’il n’y a la plupart du temps ni possibilité (peu de types de tests différents) ni nécessité pratique (la maladie évoluant rapidement) de rectifier ces erreurs de diagnostic avant d’en subir le coût.

Tout ceci pousse-t-il pour un ajustement des modèles algorithmiques pour contrer le pourcentage de « positifs faux »? Cela semble peu vraisemblable tant que le coût marginal (sanitaire) pour la société d’un faux négatif reste encore bien supérieur au coût marginal (économique) engendré par un faux positif. Un autre débat que nous nous garderons d’élargir sur ce blog scientifique.

PS: Nous espérons que vous aurez apprécié la lecture de cet article montrant encore une fois l’interdépendance forte entre les sciences des données et leurs domaines d’application industrielles. Certaines notions ont été simplifiées par faute de place ; nous ajouterons des compléments petit à petit. N’hésitez pas à nous faire part de vos remarques ou corrections dans les commentaires !

------------------------------

* Suivez-nous sur LinkedIn pour être au fait de nos prochains articles :

* Intéressé(e) par nos compétences? Discutons ensemble de vos projets: