in Statistica: argomento base

Partiamo da una considerazione che riteniamo vera, ( non confutata )
e la chiamiamo ipotesi nulla

Poi prendiamo un campione, effettuiamo la statistica su di questo e osserviamo valori diversi da quelli della ipotesi nulla.

In statistica e' molto importante il livello di precisione che vogliamo ottenere; la precisione equivale al livello di sicurezza che accompagna le nostre decisioni.

Allora, in base alle leggi della probabilita' , dobbiamo valutare in quale percentuale un risultato come quello da noi ottenuto, puo' essere dovuto a un puro caso.
Se la probabilita' che quel risultato sia casuale sono molto esigue, per non dire nulle, allora il nostro risultato comincia ad assumere una connotazione di significativita' ... il valore e' diverso da quello che ci si dovrebbe attendere perche' c'e' una causa indipendente dal caso.

Se ci accontentiamo di una precisione del 5% ( il simbolo e' p<0.05 ) dobbiamo rilevare dalle apposite tabelle quale e' il limite del valore osservato per confidare nella possibilita' che il risultato da noi ottenuto sia dovuto al caso ( in 5 valutazioni su 100 )

Ora parliamo di medie e diciamo che la temperatura media dell'acqua di un certo lago nel mese di agosto sia 35 gradi.

Poniamo quindi che il valore dell'ipotesi nulla sia 35
Adesso immaginiamo di aver fatto un giorno d' agosto alcuni rilevamenti in diverse zone del lago, e di avere ottenuto una media di 36 gradi.

La differenza quindi e' 1

Poniamo che dalle apposite tabelle di riferimento risulti che la differenza 1 corrisponda al 7 %
Spiegazione: una differenza di 1, in valore assoluto, tra la media della popolazione e la media del nostro campione puo' essere assolutamente casuale nel 7 % dei casi ...

Visto che vogliamo accettare solo una possibilita' di errore inferiore al 5 %
Il nostro test non e' significativo al 5% ( lo e' semmai al 7 % )

Se ripetessimo 100 volte la stessa valutazione ( utilizzando campioni casuali ) per 7 volte otterremmo una differenza di 1 ( o minore di 1 )

Il massimo della significativita' cioe' della sicurezza del risultato, la si ha quando la probabilita' dovuta al caso e' zero ( p = 0 ), eventualita' statisticamente impossibile.
Se avessimo rilevato una media di 45 gradi, molto facilmente le tabelle ci direbbero che la probabilita' di un evento fortuito e' quasi nulla. ...   c'e' sicuramente qualche agente non casuale che ha fatto salire la temperatura del lago.

Significativo al 5% = corro un rischio di 1/20 di essermi sbagliato a negare h0

P<0.01 = significativo all'1%
P=0.006 = significativo fino al livello del 0.6 %
( 0,60 % di possibilita' che le mie conclusioni siano errate )

Se io mi pronuncio con un ... Non significativo!
L' ipotesi nulla non diventa subito vera per magia, piu' semplicemente io dico che " non vi e' evidenza sufficiente per rifiutare h0.

Tanto piu' e' alta la differenza tra la popolazione e il campione tanto piu' e' facile che il risultato sia significativo anche a livelli molto alti cioe' con p molto vicina allo zero.


Altro esempio:
Livello sierico medio di ac. Urico nei sogg normali = 5.4 % con ds = 1
Questo e' un dato di fatto desunto dalla POPOLAZIONE

Ora io voglio studiare l'acido urico in sogg diabetici ...
Il dato di fatto in mio possesso e' il livello dei sogg normali e devo sostenere l' ipotesi nulla :     nessuna differenza tra normali e diabetici

( in effetti il mio scopo e' dimostrare che c'e' differenza tra i due valori )
il procedimento e' detto in latino REDUCTIO AD ABSURDUM

Se non riesco a respingere l'ipotesi nulla, questa rimane possibile ( non necessariamente vera ); io non ho elementi sufficienti per confutarla.

In un campione di 25 diabetici il livello medio di ac urico risulta essere 5.9 %
ecco il secondo dato di fatto.
Grazie al teorema centrale del limite io mi posso chiedere:

Quale porzione della DISTRIBUZIONE DI MEDIE ( per ogni media n = 25 ) ha media >= 5,9 cioe' alla media da me trovata?
prima devo standardizzare il valore:

            5,9 - 5,4
z = ----------------------------------- = 0.5 / 0.2     =     2.5
            1 / rad. 25 ( cioe' DS diviso la radice del numero casi )

Io ho la popolazione, che ha media 5.4 e ds di 1
Ora, con tali presupposti, io potrei pensare di estrarre un campione casuale di 25 soggetti, fare la media e ottenere 5.9.
Questo e' possibile, ma ... Quante possibilita' ci sono che cio' si verifichi?
Qui mi interessa la tabella a una sola coda, cioe' la possibilita' di ottenere una media >= 5.9 ...
Le probabilita' sono:
Nella tabella a una coda ( cercando 2.5 ) ottengo un valore di 0.006
Cioe' lo 0.6 %
Solo nello 0.6 % dei casi i dati del mio campione possono essere casuali ...
Conclusione: rifiuto l'ipotesi ( nulla ) che non ci sono differenze tra normali e diabetici quindi affermo che le differenze ci sono eccome.

... e' lecito pensare che se prendiamo una popolazione fatta da sogg tipo quelli campionati, otteniamo una media superiore a 5.4 mg % ( e aggiungiamo, forse perche' sono diabetici ). Il livello di significativita' e' dello 0.6 %.

Se invece di 5.9 mg avessi trovato 5.73 mg, la z sarebbe stata = 1.65 l'area della coda ( vedi tabelle, sarebbe stata di 0.05, cioe' 5%, cioe' avrei potuto comunque rifiutare H0 ma con significativita' del 5 %, cioe' con minore sicurezza )


Data l'affermazione fatta: ( h0 non vera, statisticamente significativa ) se poi le mie conclusioni si dovessero dimostrare sbagliate si direbbe che ho commesso un
Errore alfa ( di I tipo )

Se avessi detto: h0 vera ... E mi fossi sbagliato -> errore beta ( di II tipo )

Facciamo finta che la media reale nei diabetici sia 6.0 mg:
Il valore limite del mio campione, sotto al quale non potrei rifiutare h0 per p<0.05 e' 5.73 mg.

Costruendo una curva normale con media 6 il valore z per 5.73 e' -1.35
che corrisponde al 8.9% ( 0.089 ). Quando la media reale dei diabetici fosse 6 ... e io in effetti rifiuto h0, la possibilita' di un errore beta e' 8.9%.

--- solo a puro titolo informativo ----------------------------------
Si puo' costruire la curva operativa caratteristica ( CO )
--- ------------------------------------------------

1 - beta = 1 - 0.089 = potenza del test
vedi limiti di confidenza