Scarica Inferenza statistica, campionamento, statistica descrittiva, elementi di probabilità e più Appunti in PDF di Statistica solo su Docsity! Nell'inferenza statistica i due termini sempre presenti sono:
popolazione, insieme generale di riferimento spesso molto numeroso e a
volte indefinito da cui viene estratto un sottoinsieme detto campione,
numericamente più ridotto, che si suppone di poter osservare
completamente. Quando la popolazione è finita può essere possibile anche
conoscerne o stimarne la dimensione (N).Il-numeron-di elementi estratti
formano la dimensione campionaria.
«campione, ottenuto estraendo un certo numero n di elementi dalla
popolazione P, seguendo un certo criterio di campionamento C.
Una volta definiti P, N, C e n si possono estrarre molti campioni differenti che
costituiscono un insieme U = U(P.C,n) detto universo dei campioni - più numeroso
della popolazione stessa. Se le osservazioni sono a due a due indipendenti, il
campione si dice bernoulliano.
Una statistica campionaria è il risultato di una qualunque operazione eseguita sui
valori campionari, ogni campione fornisce il suo valore della statistica. L'insieme di
questi valori assunti da una statistica t nell'intero universo dei campioni, genera la
distribuzione campionaria T associata alla statistica t.
V
Necessaria per effettuare qualunque procedura di inferenza statistica, si cerca di
conoscere, quando possibile: valore atteso (valore medio) E(T), varianza V(T) e/o lo
scarto S(T), legge distributiva completa.
«LIM ATORI ESTIVE
L'inferenza statistica comprende diversi tipi di procedure classificate in tre gruppi:
Stima di parametri, testdi ipotesi e stima di densità non parametrica (trattate le
prime due) >
quando lo scopo dell’inferenza è la stima di parametri, si cerca di
approssimare il valore assunto da uno o più parametri nell'intera
popolazione sulla base dell'informazione data dal campione osservato. Si
usano lettere latine per indicare le statistiche campionarie e le greche per
indicare i parametri della popolazione.
un parametro 9 come la media o varianza può assumere un insieme di valori
definito spazio parametrico. Una statistica campionaria che assume valori
appartenenti allo spazio parametrico si chiama stimatore, il suo valore in un
determinato campione si dice stima (puntuale). Ad uno stimatore
corrispondono tante possibili stime ognuna generata da un determinato
campione.
SUSTORSIONE FO ERRORE OLA DRACO MEDIO
Quando si cerca di stimare un generico parametro 0, è importante scegliere bene
lo stimatore. Questa scelta può essere fatta sulla base di alcune proprietà ottimali
che uno stimatore può avere o no, i 2 indicatori da considerare sono:
e distorsione, la differenza tra il valore atteso della distribuzione campionaria
Teil parametro 8 > B(T) = E(T) - 8. Se la distorsione è positiva lo stimatore t
tende a sovrastimare il parametro"l, se è negativa lo stimatore tende a
sottostimare il parametro.
Infine, se si ha B(T) = O lo stimatore è corretto/centrato.
e errore quadratico medio > EQM(T)= E[T-6]"2 = E[T-E(T)+E(T)-M]"2 = V(M+
[B(T)]"2. Quindi se lo stimatore t è corretto il suo EQM coincide con la
varianza. Se uno stimatore t1 ha un EQM inferiore a un altro stimatore t2, si
dice che t1 è più efficiente di t2. Se due stimatori sono entrambi corretti, il
più efficiente è quello che ha ta minor varianza.
DISTRIBUZIONE DELLA MEDIA ARITMETICA CAMPIONARIA
Quando si studia una variabile statistica Y in una popolazione si può indicare con
y1,y2,.... yn un campione di n osservazioni estratte casualmente dalla
popolazione stessa.
Uno stimatore intuitivo del valore medio E(Y) = m è la media aritmetica
Î Î ga-Ziabictu 4 z 4
campionaria > E i; gran
La distribuzione campionaria dello stimatore y può essere analizzata, qualunque
sia la forma distributiva nella popolazione. Se si indica con m il valore medio della
popolazione e se si utilizzano le proprietà del valore atteso, si ottiene:
E(9) =E (&- s) = Dica f(4,) = El IECIat +ECI0) - girini. di - pu
na no n
n n
Quindi, lo stimatorey è sempre corretto per il parametro AL.
Indicando con s°2 a varianza supposta finita dell'intera popolazione e ipotizzando
che le osservazioni campionarie siano a due a due indipendenti, si ottiene inoltre>
V(H)=U(Eta n) Dia Va) - VGIFU(SI I Un) = no? 0° (LS
n n Un
na nz ne
Infine, se è possibile ipotizzare che la popolazione sia normalmente distribuita si
può conoscere la distribuzione esatta dello stimatore. Essendo la(14.3) una
combinazione lineare di v.a. Gaussiane, è a sua volta una Gaussiana N (UG )
n
so
Tale risultato può essere applicato alla distribuzione P(-196 <
quest'ultimo risultato si può riscrivere così
v P(-196 LOL) < fe 9. +1,96 [UIL ) - 95%
da qui si ricava l'intervallo di confidenza al 95% per 0:
P(F-1.96 SON <gspr +1.96 (PON Par) 95%
Se si vuole aumentare il livello di confidenza dobbiamo cambiare i centili N(0,1):
< +1.96) = 95%
y
P(r°- 2.526] ram <g<p + 2.326 [PED = 98%
P(1-2.576 FR sg 542.576 MED) com
Se si desidera costruire un intervallo unilaterale, occorre utilizzare il centile 1-a
della distribuzione N(0,1).
Se Z ha una distribuzione Gaussiana standard vale la probabilità P(Z< +1.645)= 0,95
Si avranno pertanto, a un livello di
confidenza. Limitato infer P (0 >f- 1,645 (PSP) =95% del 95%, i seguenti intervalli
. iS -
unilaterali Limitato super. P(6 < f' +1,645 Fan) = 95%
Per costruire gli intervalli di confidenza, occorre quindi uivetlo dì unilater. unilater.
confidenza inferiore superiore Bilaterale
conoscere alcuni centili di coda della distribuzione Tae
N(0,1). Lo schema a destra rappresenta i centili usati per 95% -1,645 1,645 1,960
costruire gli intervalli di confidenza per il parametro dui | al Gue | ae
99% -2,326 2,326 2,576
«frequenza».
INTERVALLI DI CONFIDENZA PER UNA FREQUENZA CON N NOTO
Supponiamo di voler stimare la frequenza @ di una certa caratteristica in una
popolazione di cui conosciamo la dimensione N, considerando un
campionamentoin blocco. La distribuzione campionaria di T (numero di elementi
che possiedono la caratteristica) diventa una ipergeometrica di parametri N, ne q.
N 6; sero). AR n)
Se il campione è sufficientemente grande, si può approssimare td f apuzione
campionaria dello stimatore f con una Gaussiana >
Z- DEE sen
NA
Tuttavia, il valore del parametro non è noto e non si riesce a calcolare
direttamente il denominatore. Pertanto, occorre sostituire al parametro la sua
stima f* ottenendo una nuova statistica z* che può essere approssimata
altrettanto bene con una normale standardizzata: +*_ 1*-6 2 N(0,A)
7 (ra. NM
n N14
Gli intervalli di confidenza risultanti
P(r — 1,960 (MEM. fun <@£f"+1,960 PAM. tu m)- ssy SONO i seguenti:
e(r- 2,926 (MEDIE < 92 p° + 2,926 (EDI 3)- seg Essendo il fattore (N-n)/(N-1) minore
ua 8 di 1, gli intervalli risultanti saranno più
l (Pa-pm)na 2 < , (ram nzn\ _ ,
"(e 2S76f a Wa SOST+ZASTAS vi) 2°" ridotti a parità di livello di confidenza.
M (valore medio)
Sia Yuna variabile che segue una distribuzione normale N(#,0) nella popolazione
oggetto di studio, e sia y1, y2,....yn un campione bernoulliano estratto dalla
popolazione. | parametri da stimare sono: la mediane lo scarto 0.
Per ottenere una stima puntuale della media si può usare lo stimatore “media
aritmetica campionaria”: y Zia YI
"n
Come detto in precedenza, la normalità distributiva della popolazione permette di
conoscere la distribuzione esatta dello stimatore precedente, che è una N (i)
a TAlzzanDO tale distribuzione, si ottiene una statistica che segue una v.a.
Z- TA
Essa però non può essere quasi mai utilizzata perché non si conosce il valore di 0°.
Per stimare tale parametro si può ricorrere alla radice quadrata della varianza
corretta: é __| 5404; 4
nei da
La statistica risultanteè > L=<71
però, a causa della variabilità indotta dal penultimo stimatore, la statistica t non
ha una distribuzione N(0,1) bensì una distribuzione t di Student con n-1 gradi di
libertà. Stabilito il livello di confidenza 1-a va identificato sulle tavole, il centile
ta /2 corrispondente a una probabilità paria 1- a /2, si può così definire
l'intervallo di confidenza bilaterale: P(]-tasz È EMÉ$rtAIz «Shin) -4-a
Anche per il parametro possono essere costruiti intervalli i confidenza unilaterali,
utilizzando direttamente il centile 1-a (qui indicato con ta):
“(mata S/ln)= 4a “(ugo $ |W)= ta
Per stimare puntualmente la varianza della popolazione si può usare lo stimatore
i - già definito precedentemente.
Per effettuare una stima intervallare della varianza occorre invece utilizzare una
particolare statistica, ottenuta dividendo la devianza del campione per la varianza
della popolazione: u = Deus) Zia (93) - ni, 5 a(n dè Si
La statistica u appena definita ha una distribuzione campionaria X°2 con n-1 gradi
di libertà. Questo permette di costruire un intervallo di confidenza bilaterale per
la varianza 0°2 infatti, fissato il livello di confidenza 1-a si possono trovare sulle
tavole della distribuzione X°2 i valore X' e X" (centi di coda 100(a/2) e 100(1- a/
2)), tali che > P(x'4xhn14X")=4-a > P(xenò, LX")=4a
Eseguendo alcuni passaggi si ottiene un intervallo di confidenza per la varianza
, 4
2 >p(£42£)- =4- a» p( 85° 20% hE ne )= “1-0
Per stimare lo scarto è sufficiente fare la radice quadrata dei valore estremi
ee Z0L Do =4-0
dell'intervallo dell'ultima equazione sopra: PUR da OL ):
Anche peri la varianza e lo scarto è possibile costruire intervalli di confidenza
unilaterali, è necessario modificare i centili ricordando che: per ottenere il limite
inferiore occorre inserire il valore tabulato più grande e viceversa per il superiore.
La procedura da seguire per fare un controllo statistico di ipotesi > si parte da
un'ipotesi iniziale detta nulla (HO) che solitamente riguarda i parametri di una
distribuzione o la relazione tra due o più variabili. Deve essere specificata nel
modo più preciso possibile e al termine del test può venire confermata o rifiutata.
All'ipotesi nulla si contrappone quella alternativa (H1), può essere più generale
della prima. E' possibile commettere due errori:
- l'errore di.primo tipo (a), rifiutare l'ipotesi nulla erroneamente quando in realtà è
vera e il risultato è dovuto all’effetto del caso - fenomeno detto livello di
Esso si applica quando i dati sono dicotomici quindi rappresentabili con una v.a. di
Bernoulli e si vuole confrontare la frequenza. Ogni popolazione segue una
distribuzione di Bernoulli di parametro 6, il test confronta GA e OB.
Per eseguire il test è necessario estrarre due campioni di dati: il primo x1,x2,...,
xNA proveniente dalla popolazione A e formato da nA osservazioni, stessa cosa
con il secondo x'1, x'2,....,x'nB - entrambi i campioni saranno formati da valori 0.1.
Il sistema di ipotesi a confronto è il seguente:
e Ipotesi nulla=> HO: 9A = 0B=@
e |potesi alternativa > potrebbe essere di tre tipi: 1) H1:0A<0B 2) H1: @A> 0B
3) H1: 6A # 6B
Sia ora TA il numero di osservazioni «1» nel campione A, si definisce la frequenza
campionaria relativa alla popolazione A: fA=TA/nA > Stessacosa per TB
Il test ha lo scopo di stabilire se la differenza osservata tra di esse può essere
considerata significativa o no. Se i due campioni osservati sono entrambi
sufficientemente grandi (almeno 30 osservazioni e almeno 10 di ciascuna
categoria) è possibile applicare un'approssimazione normale. In tal caso si avrà:
fa <N(0x i Pata); fs = N (0a nt)
Inoltre, se la distribuzione campionaria di fA e fB è Gaussiana anche quella della
differenza fA- fB lo sarà, percui si può scrivere> ;,_,, cn(8- os; facto y tetta — i
Nel caso in cui sia vera l'ipotesi nulla 6A= @B= 0, la differenza tra le frequenze avrà
la seguente distribuzione campionaria >_;,- {3 * (vera) » n(8.-0s poro 4e02)_
sn(o; fea-0-(+2)
na
A questo punto è necessario stimare la frequenza comune @ con uno stimatore
opportuno, il più preciso, essendo formato da un numero maggiore di osservazioni,
è la frequenza congiunta: f (TA + TB)/(nA e nB) = T/n
Sostituendo @ con la sua stima f e standardizzando, si ottiene la seguente
statistica test: __fa- fe _ fa-fe al (vera Ho) 2 N(01)
dico) Aran (en)
Il valore di soglia per confermare o rifiutare l'ipotesi nulla dipende dalla direzione
dell'ipotesi alternativa H1, occorre quindi trovare il centile a (test in coda sinistra)
oppure1- a (se è in coda destra) della distribuzione normale standardizzata.
Se l'alternativa è unidirezionale, si fa in modo di collocare il test in coda destra.
| CAP. 19 - TEST IPOTESI SUI PARAMETRI DI UNA POPOLAZIONE NORMALE
Il test di ipotesi per il valore di una media si applica quando la popolazione può
essere considerata normalmente distribuita, per cui siha:Y= N(w.0). IL test
riguarda il valore del parametro media 4 che va confrontato con un valore di
riferimento Mo.
Lo stimatore media aritmetica campionaria y, sotto l'ipotesi nulla segue una legge
distributiva gaussiana di mediamoe di scarto Um, si può già definire una statistica
test: IMO x (vera tto) & N(01)
alia
In generale il valore del parametro o non si conosce e va stimato con il consueto
“scarto corretto” s, già definito. La statistica ottenuta non è più gaussiana perché
risente anche della variabilità di s. Quindi si ottiene > _ FAO (esa O
sAn
In base alla forma dell'ipotesi alternativa, iltest sarà in coda sinistra o destra.
JEST.PERIL CONFRONTO TRA DUE VARIANZE (test di omoschedasticità)
questo test si può applicare quando si pongono a confronto due popolazioni (Ae
B) che sono normalmente distribuite rispetto a un carattere quantitativo Y, si ha:
Yan (14,04) Y8 “N(u8o8)
Il test riguarda il confronto dei valori del parametro scarto (04,08) e si basa su due
campioni, entrambi bernoulliano (A e B). Il test si esegue confrontando le due
varianze campionarie corrette $t,é; e ponendo la più grande al numeratore e la
più piccola al denominatore: __ max($a} $8)
_mm($2,$8)
| gradi di libertà andranno invertiti se la varianza al numeratore è $h
(vera Ho) % Fn-a,n6-a
TEST.PER.IL. CONFRONTO TRA DUE MEDIE (test di Student)
Anche per questo confronto si deve supporre che le popolazioni di riferimento
siano normalmente distribuite rispetto a un carattere quantitativo Y, per cui si ha:
Ya 4 N(12,08) , Ya N (6,06)
Il test riguarda il confronto dei valori del parametro media e utilizza due campione
bernoulliani. Le condizioni di applicabilità del test di Student sono: normalità
distributiva e omoschedasticità delle popolazioni, indipendenza dei campioni.
L'omoschedasticità delle due popolazioni confrontate può essere controllato
applicando il test per il confronto delle varianze, esso può proseguire nella sua
versione standard solo se l'ipotesi nulla HO: &= 0 =0 non viene rifiutata. Pertanto si
deve supporre che le due popolazioni abbiano la stessa varianza 0°
Quest'ultima varianza può venire stimata mettendo insieme i due campioni
osservati, in modo da avere il maggior numero possibile di osservazioni:
$? na:St+N8-SE
— Ma tngiZ
Dalla varianza comune si ottiene lo scarto estraendo la radice quadrata:
A (A-1)Sa2+(n8-)S
= 82 A “ natng:Z.
La statistica test utilizza come informazione base la differenza tra le due medie
campionarie yA e yB che viene divisa per lo scarto stimato $, tenendo anche conto
delle dimensioni dei due campioni > Ia DB
t=T— RP (vera Ho) ® nz —> N=MNa+*N8
a [Matte
Sane
IL valore osservato di t andrà poi confrontato con il centile opportuno
corrispondente alla direzione dell'ipotesi alternativa e al livello di significatività.
Supponiamo di voler studiare la relazione tra un fattore sperimentale A e una
variabile quantitativa Y. Il test denominato analisi della varianza è un confronto
multiplo tra tre o più medie e viene realizzato scomponendo la variabilità di Y.
Si identificano k modalità del fattore che verranno indicate con A1, A2,..Akesi
estrae un campione corrispondente a ciascuna modalità di A. Quindi si ottengono
k campioni che possono essere anche di numerosità differenti.
La singola osservazione va qui indicata con un doppio pedice: con il simbolo yhj si
indica la j-esima osservazione corrispondente alla modalità Ah (sottopopolazione).
Le medie aritmetiche di gruppo vengono indicate con y1,72,..,yk mentre la media
generale di tutte le osservazioni è Y.
La devianza totale di Y, ossia la somma di tutti i quadrati degli scarti rispetto alla
media generale, è: E” na
Dev (Y) 2, z 0,79)
ata
La proprietà di scomponibilità della devianza ci assicura che la devianza totale
Dev(Y) può essere scomposta in due addendi: ka
Dev (YJA}= Y 6, _ 3) en
ici
ko"
— 2
Dev(Y]E)=X X (0,7)
h=lj=1
Il test di indipendenza lineare più semplice e utilizzato prevede che la
distribuzione congiunta di X e di Y sia una normale bivariata o doppia che dipende
da cinque parametri: uX (La media della variabile X), uY (La media della variabile Y),
oX (lo scarto della variabile X), oY (lo scarto della variabile Y), e infine pX,Y (il
coefficiente di correlazione lineare) - L'ipotesi nulla riguarda l'ultimo parametro.
Il test di basa su una trasformata del coefficiente di correlazione lineare
r=Cov(X,Y)/S(X)S(Y), la statistica test da applicare è: ce rln2
_
vir?
= (vera H)=tn2
Se è vera l'ipotesi HO, la statistica t segue una distribuzione “t di Student“ con n-2
gradi di libertà.
Si può notare che per calcolare il valore di questa statistica test è sufficiente
utilizzare la numerosità n e il coefficiente di correlazione r.
La ragione di rifiuto dipende dalla forma dell'ipotesi alternativa. Se è H1: p< 0, il
test è in coda sinistra se no a destra, se invece l'ipotesi alternativa è bilaterale, la
regione di rifiuto andrà suddivisa equamente tra le due code.
Avendo definito gli stimatori, è essenziale studiarne la variabilità in particolare la
varianza e lo scarto.
La varianza dello stimatore perespansione è > v(î,)=vw:m= n v@= n="
Non essendo nota la varianza della popolazione, andrà stimata con la varianza
campionaria corretta ottenendo la stima della varianza dello stimatore per
espansione > A &i N22
p v()= N° L==8,
Analogamente si trova la stima della varianza della media campionaria: v(Î,) = Dai
n
Infine, tenendo conto della varianza della variabile di Bernoulli pari alla frequenza
moltiplicata per il suo complemento a 1, si trova la stima della varianza della
frequenza campionaria > (9) = vp) = fan
Lo scarto degli stimatori indicati si ottiene con la radice quadrata della varianza.
CAMPIONAMENTO CASUALE SEMPLICE IN BLOCCO
Nel C.C.S. in blocco l'universo è formato da n ) campioni distinti (Combinazioni
semplici). La probabilità di inclusione di un’ùunità ui è:
dn)
= Ge) _ (N21) nINoni n
7 = P(uje C) = Mena N
n
IL rapporto n/N si dice frazione di campionamento e può essere indicata con f.c.
Nel campionamento in blocco si può calcolare anche la probabilità di inclusione di
secondo ordine: na)
= Ply.e Uh (N22 memi nonni
zy= P(u;e G u;e C,) = ) = nigi M_ N NI
n
Per definire una strategia campionaria può essere utile suddividere la popolazione
in k sottopopolazioni e considerandole per costruire il campione complessivo per
poi mettere insieme i corrispondenti sottocampioni. Se le sottopopolazioni sono
omogenee al loro interno e differenziate tra loro, vengono definite strati e si parla
di campionamento stratificato (ogni strato deve far parte del campione).
Tutto ciò implica che il criterio di suddivisione della popolazione sia il più correlato
possibile con la variabile sperimentale quando si esegue una stratificazione
mentre deve essere ilmeno correlato se si vuole impostare un campionamento a
grappoli.
Nel campionamento stratificato si può indicare con Nh la numerosità dello strato
h-esimo e con nh la corrispondente numerosità campionaria, una volta scelta si
effettua una campionamento casuale semplice in blocco. Se la frazione di
campionamento data dal rapporto fch = nh / Nh, è la stessa per tutti gli strati si
parla di campionamento stratificato proporzionale.
PROBABILITA' DI INCLUSIONE
L'unità statistica si indica con uhi (il primo pedice indica lo strato, il secondo indica
l’unità), la sua probabilità di inclusione dipende esclusivamente dallo strato di
appartenenza ed è la frazione di campionamento prevista per lo strato stesso: Ti" 7}
Per il calcolo delle probabilità di inclusione del secondo ordine ci sono 2 casi:
e sesi considerano due unità uhi e uhj che appartengono al medesimo strato
la probabilità di inclusione è la stessa del CCS
in blocco riferita allo 1 = ht strato?
hihi Nn Np=1
e Sele due unità uhi e ulj appartengono a strati — _tn tu differentile
probabilità di inclusione sono riferite a eventi Bb Nn Ni indipendenti
4
Analogamente si possono ottenere le probabilità di inclusione di ordine superiore
al secondo.
ii Eb,
Î,= Nn
DEFINIZIONE DEGLI STIMATORI, uno stimatore corretto del totale
dello strato h-esimo si ottiene applicando lo stimatore per espansione:
i = Fi Î, Tr Fia Nn In
Lo stimatore globale del totale Tv si ottiene
sommando i totali degli strati >
My = h = Pie = Zia 5° Tn = Lf wa In
Per ottenere la stima corretta della media si deve dividere la stima del totale per
N>
Poiché il parametro = Dn =D wefh frequenza ax equivale al
valore atteso di una v.a. di Bernoulli e lo stimatore
frequenza campionaria è una media aritmetica, l'equazione precedente si può
CAP. 10 - PROBABILITÀ ELEMENTARE
Un esperimento aleatorio è una prova o un insieme di prove il cui risultato non è
noto in partenza, le prove possono essere appositamente costruite oppure
consistere nell'osservazione di fenomeni esterni. Ciascuno dei possibili risultati si
dice evento elementare, un insieme di questi è un evento composto, un insieme
vuoto di eventi elementari é detto evento degenero.
Gli strumenti utilizzati per costruire questi eventi sono le operazioni logiche di
Boole usate per costruire eventi più complessi dati 2 eventi E,F:
e E*èdetto evento contrario di E se E* é falso quando E è vero e viceversa.
e l'eventounione EU F risulta vero quando lo è anche uno degli eventi E, F.
e l'evento intersezione ENF è vero quando entrambi gli eventi E, F sono veri.
e l’eventodifferenza E-F risulta vero quando l'evento E è vero ed F falso.
Si definisce evento certo W un evento che si verifica necessariamente, qualunque
sia il risultato dell'esperimento. Proprietà:
EUW=W ENWS=E W-E=E
Si definisce all'opposto, evento impossibile © un evento che non si può mai
verificare, qualunque sia il risultato. Proprietà:
EUO=E ENO=Q E-O =E
Un evento certo e impossibile sono uno il contrario dell'altro: & =W W= 2)
RELAZIONI: due eventi E, F si dicono incompatibili quando la loro intersezione è un
evento impossibile (non si possono verificare contemporaneamente), se ciò non
avviene sono compatibili. Proprietà:
e Glieventi E1, E2,.., Ensi dicono incompatibili a due a due se ogni coppia (Ei,
Ej, con i#j) è formata da eventi incompatibili.
e Dueopiùeventisono esaustiviselaloro unione equivale a un evento certo
(almeno uno si deve verificare necessariamente).
e Sidiceche un evento A implica un evento B, si scrive A --> B, se il verificarsi
di A rende certo il verificarsi di B (per cui l'evento ANB è impossibile).
e__Sedue eventi A, Bsiimplicano a vicenda, per cui A-->B e B--<A, si dicono
equivalenti (A=B)
SPAZIO (W, equivalente ad un evento certo)
Si definisce spazio degli eventi l'insieme che comprende tutti gli eventi elementari
quindi l'insieme di tutti i possibili risultati di un esperimento aleatorio. Può essere:
e Spazio finito, quando è formato da un numero finito di elementi
e Spazio numerabile, formato da un'infinità numerabile finito di elementi
e Spazio continuo, quando è formato da un'infinità continua di elementi
CALCOLO COMBINATORIO, determina il numero di gruppi che si possono ottenere
da un insieme di elementi seguendo determinate regole. Le principali strutture
del calcolo combinatorio sono:
e permutazioni, di n elementi, i possibili ordinamenti degli elementi stessi. Il
numero di permutazioni risulta pari al fattoriale di n --> Pn = n-(n-1)-(n-2)-
..03-2-7=n!
Se gli n elementi da permutare sono formati da k tipologie diverse si definiscono
permutazioni con ripetizione di n elementi, i possibili ordinamenti in numero
- . . oi copia PD (Rin!
inferiore. Il mumero di permutazioni con ripetizione è: Pn; na1,n2,..,hk Manzi Ng)
e disposizioni, di n elementi presi k alla volta, i possibili ordinamenti che si
ottengono considerando solo un numero k di elementi. Il numero di
disposizioni semplici risulta pari al rapporto tra due fattoriali:
Dik=n-(n-0(n-2)...- (nas
Se nel formare gli insiemi vi è la possibilità di ripetere lo stesso elemento più volte
si ottengono le: disposizioni con ripetizione di n elementi presi k alla volta, il
numero è pari alla k-esima potenza di n: Dan n_n=n
Quando è ammessa la ripetizione, cade la condizione k < n. E' infatti possibile
formare una sequenza di qualunque lunghezza con gli n elementi iniziali.
e combinazioni, strutture in cui non si tiene conto dell'ordine di inserimento
degli elementi nel gruppo, il numero è inferiore a quello delle disposizioni.
Ad ogni combinazione corrispondono k! disposizioni ottenute permutando i
k elementi inclusi nel gruppo. Il numero di combinazioni semplici di n
Re Raiti: Nr n ano _ Dan {N
elementi, di ordine k, è pari al coefficiente binomiale: (n= Ki KIA)! (2)
ci sono anche combinazioni con ripetizione di n elementi, di ordine k. Il numero
corrisponde a un coefficiente binomiale con l'argomento superiore maggiore:
Cn - ( no)
questi assiomi sono tre leggi fondamentali che devono essere sempre valide
a prescindere dalla definizione di probabilità prescelta. Esse stabiliscono che:
e __A1-La probabilità è una grandezza non negativa (assioma di non
negatività), per cui P(E)20.
e A2-La probabilità dell'intero spazio degli eventi W è pari a 1 (assioma di
unitarietà), per cui P(W)=1.
e A3-Sedueeventi E, F sono incompatibili, la probabilità che uno dei due si
avveri è pari alla somma delle loro probabilità (assioma di additività
semplice). Pertanto: E N F = @ --> P(EUF) = P(E) + P(F). Ciò è valido per un
qualunque numero finito di eventi a due a due incompatibili.
Dagli assiomi si ricavano alcuni risultati fondamentali che costituiscono la teoria
elementare della probabilità:
a) Dato un evento E, con probabilità P(E), la probabilità dell'evento contrario E è
pari al complemento a 1 di P(E) --> P(E) =1-P(E). Gli eventi E ed E sono
incompatibili e la loro unione è l'intero spazio degli eventi, per cui: P(E U E)=P(E)
+P(E)=P(0)=1
b) La probabilità di un evento impossibile è sempre zero, infatti 9 equivale al
contrario di W, per cui: P(9) = P(O)=1-P(0)=1-1=0
c) La probabilità della differenza E-F è pari alla probabilità dell'evento “minuendo”
A meno la probabilità di ANB --> P (E-F) = P(E) - P(ENF). L'evento A risulta
suddiviso in due parti incompatibili: l'intersezione ANB e la differenza A\B.
d) La probabilità dell'unione di due eventi generici A e B (non incompatibili) è pari
alla somma delle rispettive probabilità meno la probabilità dell’intersezione ANB:
P(AUB) = P(A)+P(B)-P(ANB). L'evento unione risulta suddiviso in tre parti
incompatibili : ta differenza A\B, la differenza B\A e l'intersezione ANB, quindi ==>
P(AUB) = P(A-B)+P(B-A)+P(ANB)= P(A)+P(B)-P(ANB).
La probabilità di un evento può risentire degli eventi che si sono verificati.in
precedenza, si definisce probabilità condizionata P(B|A) la probabilità che avrebbe
l'evento B di verificarsi se l'evento A si é già verificato-->P(A): P(B|]A) = P(ANB)/P(A)
ovvero rapporto tra la probabilità dell’intersezione ANB e l'evento condizionante.
Se si suppone che si sia verificato l'evento B, si definisce la probabilità inversa: P(A|
B) = P(ANB)/P(B). La probabilità condizionata P(B|A) può essere maggiore, uguale
o minore della iniziale P(B) e se vale l'uguaglianza P(B|A) = P(B)i due eventi si
dicono indipendenti --> P(ANB)=P(A)P(B). La condizione di indipendenza permette
di calcolare facilmente le probabilità di eventi composti.
e Inquestocaso nonsi può parlare di devianza perché non si hanno delle
osservazioni ma solo un insieme di valori e le loro rispettive probabilità.
IL valore atteso e la varianza godono delle proprietà studiate nella parte di
statistica descrittiva. Sinteticamente: E(a + bX) = a + b E(X) e V(a + bX) = bÎV(X)
PROVA BERNOULLIANA, è un esperimento aleatorio in cui vi sono 2 soli possibili
risultati chiamati successo e insuccesso, un insieme di prove bernoulliane
comprende prove dicotomiche indipendenti e con la stessa probabilità di successo
(indicata con p). La variabile aleatoria di Bernoulli rappresenta il risultato di una
singola prova bernoulliana, ilsolo parametro chesihaè p> P(x-x)=p* (4-p)f* x-01
0 xz0
La funzione di ripartizione della v.a. di Bernoulli è: fx(4)= ft obxzi
4 K34
Il valore atteso è pari alla probabilità di successo: E(X) = 0-(1-p)+ 1:p=0+p=p.
I momenti E(X), E(X2), E(X3), ... sono tutti uguali perchè i valori 0 e 1, a qualunque
potenza naturale vengano elevati, rimangono invariati. Pertanto la varianza di X
vale: V(X) = E0I) — [E0X)1È p — p?= p-(1-p)
VARIABILE ALEATORIA BINOMIALE
rappresenta il risultato di un insieme di n prove bernoulliane (n= 2) e itnumero di
successi ottenuti. | parametri sono: il numero n di prove previste e la probabilità p
di successo. La funzione di probabilità è > P(X=x)=P[x successi su n provel=(%)P*4-p}""
,X=0,1,..,N
La funzione di ripartizione non può essere scritta in forma sintetica a causa della
presenza dei coefficienti binomiali. Il valore atteso si può ottenere considerando
che una v.a. binomiale equivale alla somma di n v.a. di Bernoulli indipendenti e
con probabilità costante p> EX)=p+p+t..+p=n-p
Lo stesso ragionamento si può fare per calcolare la varianza di una v.a. binomiale,
tenendo conto della (X.Y) e dell'indipendenza delle prove componenti, si ha:
VOX) = EOG) = [E00]®= p:(1-p) + p(1-p) +. + p:(1-p)= n:p:(1-p)
In particolare, quando si ha p= 1/2, la v.a. si dice binomiale simmetrica e la
funzione di probabilità si semplifica: P(X=x) =(Y- lx =0,1,..,N
Il valore atteso e la varianza diventano > E(X) = n/2; V(X) = n/4.
VARIABILE ALEATORIA GEOMETRICA, rappresenta un esperimento în cui si
eseguono prove bernoulliane con probabilità p di successo, fino a ottenere il primo
successo --> P(X=x) = p- (1-pt, BZ
Si tratta di una distribuzione con supporto non limitato. Il valore atteso è pari al
reciproco del valore del parametro p > E(X) =1/p e la varianza della v.a.
geometrica è > V(X) = (1-p)/p"2
VARIABILE ALEATORIA (PERGEOMETRICA,
rappresenta un esperimento aleatorio in cui si estrae in blocco da una popolazione
di N elementi appartenenti a due categorie diverse, un campione formato da n
elementi (n < N) detti positivi o negativi (p = probabilità iniziale di estrazione di un
elemento positivo - variabile X =numero di elementi positivi inclusi nel campione).
| parametri sono tre: N (dimensione della popolazione), n (dimensione del
campione) e p (frequenza iniziale di elementi positivi).
La funzione è: P(X=x) = (AP)(NN), x=0,1,...,N
(h)
Se il numero totale di elementi positivi (Np) è inferiore a n, ilvalore massimo di X
sarà Np > E(X) = n- p. La varianza V(X) subisce una riduzione dovuta al fatto che la
popolazione è, in questo caso, finita ed ha dimensione N. La riduzione dipende dal
rapporto tra Ne n > V(X) = n- p-(1-p)-(N-n)/(N-1) = n-p-(1-p)- (1-2/M
dla RIARILE ALERTORIA DI LOISSON
corrisponde a un esperimento in cui vengono monitorati degli eventi che si
verificano nel corso del tempo. Fissando un'unità di tempo e supponendo che la
probabilità istantanea dell'evento sia costante e che il numero medio di eventi
nell'unità di tempo sia pari a À, si trova la probabilità che il numero di eventi
verificati sia esattamente pari a x: P(X = x)= SI =0,1,2,3,.. -Ilvaloree è la
base dei logaritmi naturali (vale 2,7183). °
In particolare si ha: P(X=0) = 6-*, P(X=1) = \-e*
Il valore atteso e la varianza della v.a. di Poisson sono entrambi uguali a A.
IL valore modale (ossia quello con la probabilità maggiore) è [A] se non è intero,
mentre se è intero vi sono due valori modali: A-1eÀ
(CAP. 12 - VARIABILI ALEATORIE CONTINUE.
Se si studia una v.a. continua Y, è possibile assegnare probabilità solo ad intervalli
di.valori.quindi.non-si.può definire una funzione di-probabilità.
Una variabile continua Y è generalmente dotata di una funzione di densità fy(y),
permette di calcolare la probabilità che Y assuma un valore contenuto in un
intervallo [a,b] tramite il calcolo di un integrale > P(a <Y < b) =L fy May.
Quindila probabilità dell'intervallo [a,b}è l'area delimitata dalla curva della
densità, dall'asse delle ascisse e dalle rette verticali y=a e y=b (y è l'ascissa e f(y) l'
ordinata).
La funzione di densità non rappresenta direttamente una probabilità quindi può
anche assumere un valore superiore a 1 (resta invalicabile il limite inferiore 0).
La funzione di ripartizione nel punto y0 è ottenuta integrando la densità da — 00 a
YO > Fy(Ja)"P(1430)-P(-00 6 Ye go) -S84(1)dy
La F.d.R. di una v.a. continua Y è una funzione continua. La mediana Me(Y) è il
valore puntuale y* in cui la funzione vale 1/2 (primo e il terzo quartile valgono 1/4
e 3/4). In generale, si definisce k-esimo centile della v.a. Y il valore puntuale in cui
la funzione di ripartizione vale k/100.
e Il valoreatteso E(Y) è ottenuto integrando il prodotto tra i valori puntuali e
la rispettiva densità di probabilità: £(4)= 552 Y-f4()dy
e Il momento secondo E(Y°2) è ottenuto integrando il prodotto tra i quadrati
dei valori puntuali e la rispettiva densità di probabilità €(9)-00 y'- £y(4)dy
e LavarianzaV(Y)si ottiene con la formula di calcolo valida anche per le v.a.
discrete > V(Y) = E(Y°2) — E(Y)"2
e ScartoS(Y)o deviazione standard, corrisponde alla radice quadrata della
varianza V(Y).Applicando una trasformazione lineare Z=a+bY, si ottiene >
E(Z)=a+b-E(Y) V(Z)=b"2-V(Y) S(Z)=|[b| SM)
eidDILENDENZA VARISBILIALERTORIE
Due v.a. X1 e X2 sono indipendenti se ogni evento relativo alla prima v.a. è
indipendente da ogni evento relativo alla seconda, per cui vale la regola del
prodotto > P(X124.X2 #b)=P(M2a) P(X256)
Un insieme di v.a. sono indipendenti a due a due se le componenti diogni coppia di
variabili (Xh, Xj) con h#j, sono indipendenti. In questo caso valgono i risultati:
Per determinare il valore atteso e la varianza di una v.a. Xq:
E(Wg)=E(74%22°.*297)- E(20)*E(22)1+E(£97)-dt4+. 4-9
V(2°)-E(2)-Le(#)]"-34-2
V(W9)-V(24422+.+ 29) Mt) AD +V(Ey)= 24241229
lA RIABILE ALE RTO RIA DISIUDENT
ottenuta combinando una v.a. normale standardizzata Z e una v.a. chi-quadrato
Wg, tra loro indipendenti: Tg-—
ad
9
La variabile ottenut prende il nome di variabile t di Student con g gradi di
libertà. Se g=1, la variabile T ha media e varianza non finite, anche se la sua
mediana è uguale a zero, se g=2 il valore atteso è nullo e la varianza è infinita, per
g2 3 si ha: E(19)=0, sia
Al crescere del numero di gradi di libertà, la distribuzione diventa più vicina alla
normale standardizzata. La distribuzione N(0,1) si può effettivamente considerare
una t di Student con infiniti gradi di libertà e per g >100 si possono utilizzare i
centili di coda della normale al posto di quelli della t di Student.
VARIABILE ALEATORIA F DI SNEDECOR-FISHER
Combinando due distribuzioni chi-quadrato si può ottenere la distribuzione F,
proposta indipendentemente e quasi contemporaneamente dall'americano
George W. Snedecor (1881-1974) e dal britannico Ronald A. Fisher (1890-1962).
Tale distribuzione permette, in alcuni contesti specifici, di rappresentare il
confronto tra due varianze e per questo motivo è molto importante.
Se Wh e Wk sono due variabili chi-quadrato, rispettivamente con h e k gradi di
libertà, la variabile trasformata: _ Whlh
Fh,k= IR
questa distribuzione ha un doppio numero di gradi di libertà.
La tavola-tipo della distribuzione F, tenendo conto del doppio numero di gradi di
libertà, può essere fatta unicamente predisponendo una tavola diversa per ogni
centile. Solitamente vengono rappresentati ilcentile 95 e 99, i più utili
nell'inferenza statistica, calcolati per diverse coppie di numeri di gradi di libertà.
Un dato statistico rappresenta un'informazione elementare, che può essere
numerica (quantitativa) o categoriale (qualitativa).
Si chiama unità statistica il singolo elemento a cui si riferisce un dato statistico (se
i dati si riferiscono a caratteristiche come l'età l’unità statistica è la persona)
mentre il carattere é la caratteristica che il dato descrive, il suo valore osservato si
dice modalità.
strumenti adeguati. La distinzione si può fare tré qualitativi e quantitativi:
e carattere qualitativo sconnesso, è solo possibile stabilire se due dati sono
uguali o diversi (ex. gruppo sanguigno).
e caratterequalitativo ordinabile, è possibile stabilire un ordinamento per cui
si può dire quale sia il maggiore o minore tra due dati.
e carattere quantitativo discreto, in cui si hanno dati numerici derivati da un
conteggio.
e carattere quantitativo continuo, si hanno dati numerici derivanti da una
misurazione.
É importante classificare i caratteri perché eg prevede l’uso di
RAPPRESENTAZIONE DATI SINGOLA VARIABILE STATISTICA
Se i dati da rappresentare sono numerosi, è opportuno raccoglierli in una tabella.
di numerosità, dove vengono rappresentate le diverse modalità del carattere e le
corrispondenti frequenze assolute e/o relative. Caratteristiche:
e Il numero ni rappresenta quante volte la modalità xi è stata osservata,
mentre la quantità fi = ni /n é la frequenza relativa.
e Lasommaditutte le numerosità è uguale a n, mentre la somma di tutte le
frequenze relative è uguale a 1 (spesso espresse in % per cui iltotale è 100%)
Per rappresentare ciò è possibile usare un grafico (a torta/colonne).
Quando si analizzano simultaneamente due caratteri X e Y si costruisce una
tabella a doppia entrata, indicando per riga le modalità osservate del carattere X e
per colonna quelle del carattere Y. Ciascuna casella contiene la numerosità (n.
unità osservate) relativa alla coppia corrispondente. In fondo a ogni riga si indica
la somma delle caselle (numerosità marginale di riga) e viceversa (numerosità
marginale di colonna).
Un valore medio è un singolo valore che rappresenta l'intero insieme dei dati
osservati. Se i dati sono:
e qualitativi sconnessi, l’unico valore medio possibile è la moda (modalità
osservata più frequentemente) mentre se il carattere di classificazione dei
dati è ordinabile si determina la mediana (modalità con posizione centrale
se si ordinassero i valori in senso crescente o decrescente).
e quantitativi, si può usare il metodo della funzione di Chisini. Data una
funzione g si sceglie come valore medio il numero x* tale che: g(x1, X2, ...,
xn) = g(x*, x*, ..., x*) - la funzione può essere la somma o il prodotto dei
reciproci o dei logaritmi (3.1), se facciamo l'esempio con la somma, la
disuguaglianza diventa: xX1 + x2 +... + xn = x*+x*+..+x*=n-x*.
Scegliendo come funzione di riferimento la somma e applicando la formula
recedente si ottiene la media aritmetica, Zi,x
p x = at) — M(x)
essa è applicabile ai caratteri quantitativi che si compongono per somma, per
quelli composti per prodotto per valutarli si utilizza il prodotto come funzione di
riferimento nella 3.1 e applicando la condizione: x1x2x3 7... xn = xt xt
-x* = (x*)n
Mentre la media geometrica é data da: x° = "[IT?_1%; = Me)
Entrambe le medie assumono sempre un valore maggiore dell'osservazione
minima e minore dell'osservazione massima. Hanno anche altre proprietà:
e aggiungendoa ciascun dato una costante a, positiva o negativa, la media
aritmetica viene aumentata di a: M(X + a) = M(X)+a
e Moltiplicando ciascun dato per una costante b, entrambe le medie verranno
moltiplicate per b: M(b-X) = b-M(X) - MG(b-X) = b-MG (X)
e Elevandociascun dato a una potenza c, intera o decimale, la media
geometrica risulterà elevata alla stessa potenza: MG(X°) = [MG (Xx)
Unendo le proprietà, ottieniamo: M(a + bX) = a + b M(X) e MG(b-X9) = b-IMG (01°
Scegliendo come funzione di riferimento (3.1) la somma dei reciproci, si ottiene:
114. L-tyty,.4 2 -> quindi avremo la media armonica TY
xi x2 Xn x x* x* x* 1
==
=
-(Z3) == Ma)
Le misure di variabilità sopra definite sono legate all'unità di misura delle
osservazioni quindi non permettono confronti tra fenomeni o ordini di grandezza
diversi dello stesso fenomeno. Per confrontarli si possono:
e Rapportare le misure di variabilità al valore medio scelto in base al centro
di riferimento del numeratore. Si definiscono due indici:
- lo scostamento semplice medio relativo ottenuto confrontando lo scostamento
semplice medio con la mediana Sme* = Sme/ME (X)
- il coefficiente di variazione (CV) ottenuto confrontando lo scarto quadratico
medio con la mediana aritmetica M(X) --> CV = S(X)/M(X).
IL valore di questi indici può essere espresso in % ma tenendo conto che il valore
100% può venire superato in alcune situazioni e non costituisce un limite massimo.
e Rapportarele misure di variabilità ai loro valori estremi (mine max)
Quando gli indici di variabilità vengono costruiti in riferimento al valore minimo e
massimo vengono definiti indici normalizzati, sono compresi tra zero e uno (non
possono mai superare il valore 100%).La formula completa diunindice di. questo
tipo associato ad una generica misura V è: 4 VV! -V' valore minimo
S qgrr_yi |-V”ilvalore massimo per la
misura di variabilità V.
Visto che, salvo per alcune misure di variabilità, il valore minimo V è uguale a
zero l'equazione precedente si semplifica e diventa: vez I = V
==
Vmax
RAPPORTO DI CONCENTRAZIONE DI GINI
Quando un carattere è trasferibile, è possibile studiarne il grado di concentrazione
ovvero come l'intensità si concentri in poche unità statistiche. Tra gli indici di
concentrazione ce n'è uno importante nella misura degli squilibri economici e
monetari, il rapporto di concentrazione di Gini (R), per studiare la concentrazione
si devono definire due situazioni limite:
e sihaconcentrazione nulla se tutte le osservazioni sono uguali
e si ha massima concentrazione quando un singolo individuo possiede tutta la
quantità del carattere considerato.
Se si parte da un campione di n dati x1, x2,..., xn e si vuole determinare il grado di
concentrazione bisogna permutare i dati in ordine crescente --> T.= n:M(X)
intensità totale del carattere. L'osservazione più piccola x(1) peserà p1=1/nin
termini numerici e q1=x(1) /T in termini di quantità del carattere (q1< p1).
Se aggiungiamo la seconda osservazione, il peso numerico congiunto di x(1) e x(2)
diventa p2=2/n, la corrispondente quantità diventa g2=x(2) /T.
Aggiungendo osservazioni otteniamo due successioni: pesi numerici e quantitativi.
Il rapporto di concentrazione R.consiste in un confronto globale tra i pesi pj e gj,
più i valori dei pesi sono simili più ci si avvicina alla perfetta equidistribuzione
mentre più sono differenti, maggiore è il grado di concentrazione.
Il rapporto di concentrazione è così definito: g= Somma distanze _ EjziP1-9) _ 1 je 9;
© somma massima Miei pj Mii Pj
Quando si studia un carattere qualitativo è sempre possibile indicare le modalità
osservate e la corrispondente frequenza assoluta o relativa. Se si valuta ilgrado di.
«eterogeneità si stabiliscono le situazioni estreme:
e perfetta omogeneità, tutte le osservazioni presentano la stessa modalità.
e massima.eterogeneità, ogni modalità osservata con la stessa frequenza.
Una volta stabilite, si definiscono gli indici di eterogeneità che valutano il grado di
eterogeneità dei dati osservati. Tali indici devono essere uguali a 0 in perfetta
omogeneità e devono assumere il valore massimo in massima eterogeneità.
| due indici di eterogeneità più semplici e usati sono:
e indicedieterogeneità di Gini (EG) 6.1, basato sulle distanze delle frequenze
relative dai valori estremi Eg = Vf (0 = fi) = Fifa = Vf = 1- Lf}
e indicedi entropia di Shannon (ES) 6.2, basato sui logaritmi delle frequenze
Es = Lia falinfa| = Zia Ifalnfn| = Life na
Questi indici sono nulli in perfetta omogeneità quindi dividendo ognuno per il suo
massimo, si ottiene un indice normalizzato. Vediamo i valori massimi da usare per
la normalizzazione:
e Il valore massimo dell'indice di Gini si ottiene ponendo f1 = f2 =... = fk = 1/k
1
e applicando la (6.1): ax E = Di.i(1 -3)=xki-1()) i
Dividendo l'indice EG per il suo massimo si ottiene l'indice di E = = KE
Gini normalizzato: GUOELT k-16
e Il massimo dell'indice di entropia di Shannon si ottiene ponendo ciascuna
frequenza uguale a 1/k e applicando la (6.2): max E, = St. imm k=nk
Dividendo l'indice Es per il suo massimo si ottiene l'indice di entropia normalizzato
É possibile utilizzare l'indice di concentrazione complementare (ER) ottenuto
calcolando il rapporto di concentrazione di Gini sulle frequenze assolute o relative
e facendone il complemento a 1: Ey=1-R(M,n,..,m)= 1-R(fofy fi)
Calcolati i valori pi e gi, applicati alle frequenze,
l'indice ER sarà: LE ph
yi xk
Eg=1- R= 1-(1-Z22®) n
(CAP. 9 — REGRESSIONE E CORRELAZIONE LINEARE
Siano X e Y due caratteri quantitativi e supponiamo di avere osservato un
campione formato da n coppie di osservazioni (xj yj).
Lo scopo della regressione lineare è di rappresentare la relazione tra X e Y con una
retta che dovrà fungere da modello teorico, essa è detta retta di regressione e
deve passare il più vicino possibile ai valori osservati per rappresentarli tutti.
Costruendo questa retta le due variabili assumono un ruolo diverso:
e laXè generalmente la variabile indipendente, la causa della relazione
e Yèlavariabile dipendente, è considerata come la variabile effetto
Tra tutte le rette generiche Y = a + bX si sceglie quella che rende minima la
somma dei quadrati degli scarti tra i valori teorici e valori osservati di Y:
Zj-107; -y;)? = Xj-1(9; — a — bx;°)? = minimo
Derivando rispetto ai parametri a eb e ponendo uguale a zero la derivata prima:
a =M(Y)-b- M(X)
p = cova _ DEL: M 00) 0;-MM)]/m _ Dx _M0M) OMO]
VO) DG M00)7/m DGM]
La covarianza Cov(X Y), è una misura di associazione che indica simultaneamente il
segno e l'intensità del legame tra X e Y. Essa si può ottenere più rapidamente:
SGD _ ari _
n n n
Cov(X,Y) = Xx-y= M(XY)- M(X)-M(Y)
Se si calcola la covarianza di una variabile X, si ottiene la varianza V(X):
cov(1,4) = VATI _ Mat _ y(m) = M(1°) - MP
n
\
Quindi il coefficiente di regressione b si può riscrivere: p= YAN _ MO-N-MM MM
V(X) — M(X?)-[M 00]?
Il coefficiente di correlazione lineare r è definito normalizzando la covarianza:
_ COv(ReRy) Via (Rej Rey) Spar)
na ni “7
S(A)YSOM
S(X):S(1) ER DR) ESSO mes)?
indica il segno e il grado di linearità della relazione tra le due variabili, è un indice
ottenuto dividendo il valore della covarianza per il suo massimo che corrisponde a
una relazione perfettamente lineare. Se il valore di questo coefficiente:
e raggiunge uno dei limiti, +-1, i dati osservati sono tutti sulla retta di
regressione
e ècompresotra-1e0,illegame è inverso e la retta è inclinata verso il basso
e r=0, nonc'è nessuna relazione lineare tra le due variabili
e ècompresotra0e1, la retta di regressione è ascendente e risulta essere un
buon modello se il valore del coefficiente si avvicina a +1.
Il quadrato del coefficiente di correlazione lineare, r?, è l'indice di determinazione,
lineare e misura quanta parte della variabilità di Y è dovuta al legame con X. Tale
indice non può assumere valori negativi e non dà informazioni sul legame lineare.
Regressione e correlazione lineare schema per il calcolo
DatiX —Dativ
x vi x? vi XY
LA LA x vi xa
x v x? vi XY
x, Yo x N Ka
MIX) MY) = MOR) MYA) Mom
vo) vm Cov(xY)
50%) sm 5(X) - SY)
vm = M(X2) - Mx}? ba Cov(X,Y) / VIX)
vm M(Y?)- MP as MIY) — b M(x)
Cov[XY= M0M- MIX) MM) = r= covlxv)/[S00S]
è possibile costruire degli indici sui ranghi, posizioni in graduatoria delle unità
statistiche rispetto a caratteri quantitativi o qualitativi ordinabili.
Dato un insieme di n dati, i ranghi vengono attribuiti considerando le graduatorie
crescenti, in caso di pari merito è usato il rango ottenuto come media aritmetica.
Se il numero di osservazioni a pari merito è dispari il rango medio è un numero
intero e viceversa, la varianza dipende da questo numero.
Il coefficiente di cograduazione di Spearman rs, si ottiene calcolando il
coefficiente di correlazione lineare sui ranghi. Indicando il posto in graduatoria
della j-esima unità statistica, rispetto ala carattere X e Y, rispettivamente con
RXj e con RYj si trova:
Cov(X,Y) Cov(X,y) covxYy) _ Zi 0;-9)
7 maxCov (XY) JA) :Vvm SM:S0 E. G9IL0,-9?
IL coefficiente di cograduazione rS ha la stessa scala di valori (da-1a +1) ela
stessa interpretazione del coefficiente di correlazione r. L'unica differenza è che la
situazione di massima cograduazione non corrisponde più ad un perfetto
allineamento dei dati osservati ma delle graduatorie: se rS = +1 le due graduatorie
saranno coincidenti, se invece rS = -1 saranno perfettamente invertite.