Recentemente ci avete chiesto di approfondire meglio il concetto del P value; è un concetto difficile persino per quelli del mestiere, a volte... Vi spieghiamo, una volta per tutte, di cosa si tratta, grazie soprattutto al chiaro articolo pubblicato qualche anno fa su Nature a firma Regina Nuzzo dal titolo “Scientific method: Statistical errors”.
L’uso del P value nell’ambito della ricerca biomedica è stato più volte oggetto di dibattito nella letteratura scientifica, a causa anche di varie difficoltà di interpretazione e limitazioni teoriche. Sapete che tale confusione risale a quasi un secolo fa? Ci fu proprio un vero dissing tra statistici!
La storia
Quando il britannico Ronald Fisher introdusse il P value negli anni '20, non aveva certo la pretesa che fosse uno strumento definitivo, anzi: lo intendeva semplicemente come un modo informale per giudicare se qualcosa fosse “significativo”, nel senso “degno” di essere ulteriormente studiato. Qual era il ragionamento? Controllare che i risultati non fossero dovuti al caso: si stabiliva la famosa "ipotesi nulla" da confutare, e, assumendola come vera, si calcolava la probabilità di ottenere risultati almeno altrettanto estremi di quelli effettivamente osservati. Questa probabilità era il P value. Più piccolo era, suggeriva Fisher, maggiore era la probabilità che l'ipotesi nulla fosse falsa.
Fisher aveva dei veri e propri rivali, il matematico polacco Jerzy Neyman e lo statistico britannico Egon Pearson, che introdussero una struttura alternativa per l'analisi dei dati che includeva la potenza statistica, i falsi positivi, i falsi negativi e molti altri concetti ora familiari nei corsi di statistica di tutto il mondo. Ed esclusero (apposta) il P value dai loro calcoli, con buona pace di Fisher. Ed ecco che iniziarono i litigi: Neyman definiva i lavori di Fisher "peggio che inutili"; dava dell’infantile a Neyman, che lo definiva "orribile [per] la libertà intellettuale in occidente". Ma non è che i ricercatori di tutto il mondo potevano seguirli più che tanto, soprattutto i non-statistici. Fu così che, più o meno a tavolino, venne creato un sistema ibrido e, sempre a tavolino, venne sancito lo 0,05 come la soglia dello "statisticamente significativo".
Ma cosa vuol dire, davvero, il P value?
La maggior parte degli scienziati con un P value di 0,01 direbbe che c'è l'1% di possibilità che il proprio risultato sia falso. Errore! Il P value non dice questo: tutto quello che può dire è un riassunto dei dati assumendo una specifica ipotesi nulla, ma non può fare affermazioni sulla realtà sottostante. Ciò richiederebbe possedere un'altra informazione: ovvero, conoscere in primo luogo con quale probabilità un effetto avvenga. Altrimenti, spiega Nuzzo, sarebbe come svegliarsi con un mal di testa una mattina e concludere che si ha un raro tumore al cervello. Certo è possibile, ma così improbabile che richiede un numero di prove estremamente alto, per poter contrastare una spiegazione più logica (reazione allergica?). Arrivati a questo punto dovrebbe essere chiaro: dipende tutto dall’ipotesi di partenza, e il P value non potrà mai dare informazioni circa la grandezza o l'importanza relativa di un fenomeno. Molti statistici sostengono che la soluzione potrebbe essere sostituire il P value con metodi che sfruttano la regola di Bayes un teorema del XVIII secolo che descrive la probabilità come la plausibilità di un risultato, e non come la frequenza potenziale di quel risultato. L’eterna lotta tra inferenza frequentista e inferenza bayesiana. Ma questa è un’altra storia.
Carlotta Jarach