Accueil / Échos de la liste "pseudo-sciences" / Question de statistiques - Vaccin contre le tabagisme

Question de statistiques - Vaccin contre le tabagisme

Publié en ligne le 8 août 2005 -

Dans Le Monde du 17/05/2005 une équipe de chercheurs
suisses a présenté les résultats expérimentaux d’un vaccin contre
l’addiction à la nicotine. Les résultats sont les suivants :

- 159 fumeurs ont reçu le vaccin, 80 autres un vaccin placebo
- 40% des fumeurs du 1er groupe ont arrêté de fumer pendant au moins 6 mois
- 31% des fumeurs du 2e groupe ont arrêté.

Le professeur responsable de ces travaux présente ces chiffres comme un
succès du vaccin (il faut dire que les enjeux financiers sont colossaux,
la même boîte bosse sur un vaccin contre l’obésité).
Ma question : ces chiffres-là sont-ils vraiment
significatifs ? Personnellement l’écart ne me semble pas tellement
important, surtout vu la taille des groupes...


Réponse :

Au départ : une hypothèse à tester. Ici : l’efficacité d’un vaccin.
On examine 2 hypothèses contradictoires :

- H0 (hypothèse nulle) : Il n’y a pas d’efficacité notable
- H1 (hypothèse alternative) : Il y a une efficacité notable.

Point très important, si on veut corroborer l’hypothèse non nulle (celle ici selon laquelle le vaccin serait efficace), il faut partir de l’hypothèse inverse (c’est-à-dire, de H0). C’est ici que se traduit la "charge de la
preuve".

On se donne ensuite un seuil de risque (p-value maximale autorisée, dans le vocabulaire anglo-saxon). Très souvent, ce seuil est de 5%, d’où la disjonction 95% / 5% évoquée plus tôt, mais ce seuil peut être tout à fait différent : 10 % pour les moins exigeant, plus souvent 1%, ou 1 %°.

Ensuite, en supposant que H0 est vraie, on calcule quelle est la probabilité
qu’on aurait d’obtenir des résultats analogues à ceux de l’expérience faite
(ici 40 % de succès avec vaccin, et sur 159 sujets ; 31 % de succès sans
vaccin, et sur 80 sujets). Si la probabilité des résultats obtenus par
l’expérience est trop faible, on choisit de rejeter l’hypothèse nulle.
Probabilité trop faible, ça signifie précisément : plus petite que le seuil
qu’on a choisi à l’étape précédente. (par exemple 5% très souvent)

Dans le cas de l’expérience évoquée ci-dessus, en supposant les deux groupes
distribués de la même façon (c’est-à-dire en supposant H0), on a donc à peu
près 16 % de chances de trouver les résultats annoncés. (sauf erreur de
calcul de ma part). Conclure au rejet de H0 dans ce cas, c’est EXACTEMENT la
même chose que de dire qu’un dé est pipé en faveur du 6, parce que un lancer
de ce dé a fourni la valeur 6. Autant dire que le seuil de risque choisi est
inepte ! Si on veut avoir des raisons valables de conclure à l’efficacité
des vaccins il faut en faire bien davantage !

Bien sûr, ça ne permet pas non plus de conclure de façon définitive à
l’inefficacité du vaccin, mais simplement à l’insuffisance de l’expérience faite.

Pour le reste, il n’y a pas de "contre-indication" à effectuer ces tests sur
des effectifs différents (159 vaccinés et 80 placebo). Ca complique juste,
dangereusement, les calculs et les raisonnements, en même temps que ça
laisse des doutes sur la conduite de l’expérience... (ici : 159 = (2*80)-1,
comme par hasard)

(...)

D’autres méthodes sont possibles, des tests non paramétriques par exemple,
mais ceux-ci sont par nature plus conservatifs de l’hypothèse nulle, donc
vont être plus favorables à l’inefficacité du
vaccin

En essayant d’être aussi complet que possible, et compréhensible y
compris pour ceux qui n’ont pas de connaissance sur les tests statistiques.

Lorsqu’on pratique un test statistique, on cherche à détecter un phénomène
(efficacité d’un vaccin, particularité d’un groupe de données) en supposant
que ce phénomène va induire une variation par rapport aux statistiques
attendues si l’on ne tient pas compte de ce phénomène. (On ne tient pas
compte du phénomène <==> hypothèse nulle <==> On s’attend un certain type de
résultats). Alors, et grosso modo, si les résultats trouvés sont très
différents de ceux attendus, on rejette l’hypothèse nulle, et on admet,
avec un certain risque d’erreur, que le phénomène considéré existe bien.
Pour que
ce soit utilisable, il faut donc préciser quel type de résultats on s’attend
pour nos mesures statistiques.

Supposons qu’on veuille tester l’hypothèse selon laquelle les médecins ont,
par exemple, une taille supérieure à la moyenne. On fait donc un groupe,
supposé représentatif, de gens, médecins et non-médecins, et on mesure les
tailles de chacun. Si les médecins ont la même taille que le reste de la
population, on s’attend à une certaine répartition de ces mesures. Sinon, on
espère détecter une anomalie par rapport à la répartition attendue.

Deux pistes s’ouvrent alors :

- Ou bien on sait assez précisément, sur la base d’expériences passées
et/ou de considérations théoriques quel type de courbe de répartition on
doit
trouver, si les médecins ont la même taille que les autres. On s’attend
alors à une répartition des tailles qui suivrait une courbe en cloche, une
sorte
de bosse de dromadaire. Si cette répartition nous présente deux bosses de
chameau, on va tout de suite voir qu’il y a quelque chose. C’est là la
démarche des tests paramétriques qui supposent connue une certaine
information sur la répartition des caractéristiques (ici les tailles)
mesurées.

- Ou bien, on ne sait absolument pas à quel type de répartition on doit
s’attendre. Un profil avec un dos de chameau et ses deux bosses n’a alors a
priori rien d’exceptionnel. C’est la démarche des tests non-paramétriques.
On doit donc essayer d’extraire de notre échantillon de mesure des
informations
différentes susceptibles de révéler une anomalie éventuelle. Comme on a
moins d’informations sur les résultats attendus en temps normal, on aura
plus de mal à détecter une telle anomalie. Une façon de procéder (c’est le
test de
Wilcoxon
) consiste à dire que si les tailles sont les mêmes chez les
médecins et les autres, alors un classement par ordre décroissant de taille
devrait
mélanger les deux groupes de façon indifférenciée. Dans le cas contraire, les
médecins seront plutôt mieux classés que le reste de la population. On
effectue donc un tel classement, puis on compare la somme des classements
des médecins à celle obtenue du reste de la population.

Concernant la question de l’efficacité d’un vaccin, évoquée précédemment, les calculs que j’ai faits utilisaient l’hypothèse,
assez logique, habituelle, que les pourcentages observés relevaient d’une
distribution binomiale. Ils s’agissait donc de tests paramétriques. Ca
correspond à la première piste présentée dans l’exemple ci-dessus. Mais on
peut aussi faire d’autres tests, sans cette hypothèse. Il s’agirait alors de
tests non paramétriques, famille de tests dont relève effectivement le test
de Wilcoxon. Ils seront très limités, pour nous, par l’information très
parcellaire dont nous disposons sur l’expérience. Mais on pourrait imaginer
que les chercheurs testant ce vaccin demandent aux participants de
l’expérience
de chiffrer leur dépendance ressentie (indice de Fagelström ?) puis aient
classé les participants par ordre de dépendance croissante pour comparer
l’addiction ressentie par les vaccinés à celle ressentie par les autres.

Voilà pourquoi je dis que, peut-être, ces chercheurs ont utilisé un autre
test statistique,
que celui avec lequel j’ai travaillé. Toutefois, ainsi que mentionné plus
haut, les tests non-paramétriques, qui se basent sur une moindre
connaissance de l’expérience (donc sont utilisables avec moins
d’hypothèses), ont plus de mal
à détecter des anomalies. Autrement dit, ils conservent plus souvent
l’hypothèse nulle, selon laquelle il n’y a rien
de spécial qui apparaît. Et dans ce sens, ils vont donc être plus exigeants
pour signaler une efficacité éventuelle du vaccin.


Partager cet article