teoria + FORMULE: inferenza = distribuzione media aritmetica e campionaria, errore quadratico medio, varianza campionaria, frequenze e intervalli, stima parametri, scarto, ipotesi, analisi della varianza, test indip. distributiva - campionamento, stratificato, grappoli - probabilità: elementare, condizionata, indipendenza - variabili ALEATORIE,discrete,curva di GAUSS e var. derivate - descrittiva - misure variabilità, devianza, ind variabilità relativa e eterogeneità, Gini - regr e corr lineare

Tipologia: Appunti

2021/2022

In vendita dal 24/01/2023

carlottasassi 🇮🇹

4.7

(6)

16 documenti

1 / 41

Documenti correlati

Statistica Descrittiva / Calcolo Delle Probabilità / Inferenza Statistica

(6)

Appunti Statistica (statistica descrittiva e inferenza statistica)

(2)

Elementi di Probabilità e Statistica (EPS)

(8)

STATISTICA MEDICA - con elementi di matematica

(2)

Formulario e tavole statistica descrittiva e inferenza statistica

(1)

Formule utili per la statistica descrittiva, calcolo delle probabilità e inferenza

(1)

Statistica descrittiva, calcolo delle probabilità, inferenza statistica

Statistica (analisi dei dati e delle probabilità) - Modulo 2/esame di completamento

Statistica Descrittiva, Probabilità e Inferenza - teoria schematizzata e semplificata per capire

(1)

Statistica descrittiva e inferenza statistica

formulario di statistica descrittiva ed elementi di probabilità

Statistica: Inferenza e Campionamento

(1)

Statistica descrittiva, probabilità, variabili aleatorie e inferenza statistica

Formulario Statistica descrittiva,probabilità,inferenza

Statistica Economica (descrittiva probabilità e inferenza)

(1)

Formulario generale di Statistica descrittiva, inferenza e probabilita'

Esercizi statistica- descrittiva-probabilita-inferenza-regressione

(3)

Statistica: Inferenza e Campionamento

Statistica descrittiva e inferenziale

Statistica: Campionamento e Probabilità

inferenza statistica

(3)

Elementi di statistica descrittiva ed Elementi di calcolo della probabilità

Statistica DESCRITTIVA ed elementi di CALCOLO COMBINATORIO

elementi di statistica

Statistica Descrittiva e Statistica Inferenziale

(3)

Statistica: inferenza statistica su popolazione e campionamento

statistica descrittiva e inferenza statistica

Appunti di Elementi di statistica descrittiva

(21)

Esercizi per il corso di Statistica: Inferenza statistica

Statistica Medica per le professioni sanitarie

Anteprima parziale del testo

Scarica Inferenza statistica, campionamento, statistica descrittiva, elementi di probabilità e più Appunti in PDF di Statistica solo su Docsity! Nell'inferenza statistica i due termini sempre presenti sono: popolazione, insieme generale di riferimento spesso molto numeroso e a volte indefinito da cui viene estratto un sottoinsieme detto campione, numericamente più ridotto, che si suppone di poter osservare completamente. Quando la popolazione è finita può essere possibile anche conoscerne o stimarne la dimensione (N).Il-numeron-di elementi estratti formano la dimensione campionaria. «campione, ottenuto estraendo un certo numero n di elementi dalla popolazione P, seguendo un certo criterio di campionamento C. Una volta definiti P, N, C e n si possono estrarre molti campioni differenti che costituiscono un insieme U = U(P.C,n) detto universo dei campioni - più numeroso della popolazione stessa. Se le osservazioni sono a due a due indipendenti, il campione si dice bernoulliano. Una statistica campionaria è il risultato di una qualunque operazione eseguita sui valori campionari, ogni campione fornisce il suo valore della statistica. L'insieme di questi valori assunti da una statistica t nell'intero universo dei campioni, genera la distribuzione campionaria T associata alla statistica t. V Necessaria per effettuare qualunque procedura di inferenza statistica, si cerca di conoscere, quando possibile: valore atteso (valore medio) E(T), varianza V(T) e/o lo scarto S(T), legge distributiva completa. «LIM ATORI ESTIVE L'inferenza statistica comprende diversi tipi di procedure classificate in tre gruppi: Stima di parametri, testdi ipotesi e stima di densità non parametrica (trattate le prime due) > quando lo scopo dell’inferenza è la stima di parametri, si cerca di approssimare il valore assunto da uno o più parametri nell'intera popolazione sulla base dell'informazione data dal campione osservato. Si usano lettere latine per indicare le statistiche campionarie e le greche per indicare i parametri della popolazione. un parametro 9 come la media o varianza può assumere un insieme di valori definito spazio parametrico. Una statistica campionaria che assume valori appartenenti allo spazio parametrico si chiama stimatore, il suo valore in un determinato campione si dice stima (puntuale). Ad uno stimatore corrispondono tante possibili stime ognuna generata da un determinato campione. SUSTORSIONE FO ERRORE OLA DRACO MEDIO Quando si cerca di stimare un generico parametro 0, è importante scegliere bene lo stimatore. Questa scelta può essere fatta sulla base di alcune proprietà ottimali che uno stimatore può avere o no, i 2 indicatori da considerare sono: e distorsione, la differenza tra il valore atteso della distribuzione campionaria Teil parametro 8 > B(T) = E(T) - 8. Se la distorsione è positiva lo stimatore t tende a sovrastimare il parametro"l, se è negativa lo stimatore tende a sottostimare il parametro. Infine, se si ha B(T) = O lo stimatore è corretto/centrato. e errore quadratico medio > EQM(T)= E[T-6]"2 = E[T-E(T)+E(T)-M]"2 = V(M+ [B(T)]"2. Quindi se lo stimatore t è corretto il suo EQM coincide con la varianza. Se uno stimatore t1 ha un EQM inferiore a un altro stimatore t2, si dice che t1 è più efficiente di t2. Se due stimatori sono entrambi corretti, il più efficiente è quello che ha ta minor varianza. DISTRIBUZIONE DELLA MEDIA ARITMETICA CAMPIONARIA Quando si studia una variabile statistica Y in una popolazione si può indicare con y1,y2,.... yn un campione di n osservazioni estratte casualmente dalla popolazione stessa. Uno stimatore intuitivo del valore medio E(Y) = m è la media aritmetica Î Î ga-Ziabictu 4 z 4 campionaria > E i; gran La distribuzione campionaria dello stimatore y può essere analizzata, qualunque sia la forma distributiva nella popolazione. Se si indica con m il valore medio della popolazione e se si utilizzano le proprietà del valore atteso, si ottiene: E(9) =E (&- s) = Dica f(4,) = El IECIat +ECI0) - girini. di - pu na no n n n Quindi, lo stimatorey è sempre corretto per il parametro AL. Indicando con s°2 a varianza supposta finita dell'intera popolazione e ipotizzando che le osservazioni campionarie siano a due a due indipendenti, si ottiene inoltre> V(H)=U(Eta n) Dia Va) - VGIFU(SI I Un) = no? 0° (LS n n Un na nz ne Infine, se è possibile ipotizzare che la popolazione sia normalmente distribuita si può conoscere la distribuzione esatta dello stimatore. Essendo la(14.3) una combinazione lineare di v.a. Gaussiane, è a sua volta una Gaussiana N (UG ) n so Tale risultato può essere applicato alla distribuzione P(-196 < quest'ultimo risultato si può riscrivere così v P(-196 LOL) < fe 9. +1,96 [UIL ) - 95% da qui si ricava l'intervallo di confidenza al 95% per 0: P(F-1.96 SON <gspr +1.96 (PON Par) 95% Se si vuole aumentare il livello di confidenza dobbiamo cambiare i centili N(0,1): < +1.96) = 95% y P(r°- 2.526] ram <g<p + 2.326 [PED = 98% P(1-2.576 FR sg 542.576 MED) com Se si desidera costruire un intervallo unilaterale, occorre utilizzare il centile 1-a della distribuzione N(0,1). Se Z ha una distribuzione Gaussiana standard vale la probabilità P(Z< +1.645)= 0,95 Si avranno pertanto, a un livello di confidenza. Limitato infer P (0 >f- 1,645 (PSP) =95% del 95%, i seguenti intervalli . iS - unilaterali Limitato super. P(6 < f' +1,645 Fan) = 95% Per costruire gli intervalli di confidenza, occorre quindi uivetlo dì unilater. unilater. confidenza inferiore superiore Bilaterale conoscere alcuni centili di coda della distribuzione Tae N(0,1). Lo schema a destra rappresenta i centili usati per 95% -1,645 1,645 1,960 costruire gli intervalli di confidenza per il parametro dui | al Gue | ae 99% -2,326 2,326 2,576 «frequenza». INTERVALLI DI CONFIDENZA PER UNA FREQUENZA CON N NOTO Supponiamo di voler stimare la frequenza @ di una certa caratteristica in una popolazione di cui conosciamo la dimensione N, considerando un campionamentoin blocco. La distribuzione campionaria di T (numero di elementi che possiedono la caratteristica) diventa una ipergeometrica di parametri N, ne q. N 6; sero). AR n) Se il campione è sufficientemente grande, si può approssimare td f apuzione campionaria dello stimatore f con una Gaussiana > Z- DEE sen NA Tuttavia, il valore del parametro non è noto e non si riesce a calcolare direttamente il denominatore. Pertanto, occorre sostituire al parametro la sua stima f* ottenendo una nuova statistica z* che può essere approssimata altrettanto bene con una normale standardizzata: +*_ 1*-6 2 N(0,A) 7 (ra. NM n N14 Gli intervalli di confidenza risultanti P(r — 1,960 (MEM. fun <@£f"+1,960 PAM. tu m)- ssy SONO i seguenti: e(r- 2,926 (MEDIE < 92 p° + 2,926 (EDI 3)- seg Essendo il fattore (N-n)/(N-1) minore ua 8 di 1, gli intervalli risultanti saranno più l (Pa-pm)na 2 < , (ram nzn\ _ , "(e 2S76f a Wa SOST+ZASTAS vi) 2°" ridotti a parità di livello di confidenza. M (valore medio) Sia Yuna variabile che segue una distribuzione normale N(#,0) nella popolazione oggetto di studio, e sia y1, y2,....yn un campione bernoulliano estratto dalla popolazione. | parametri da stimare sono: la mediane lo scarto 0. Per ottenere una stima puntuale della media si può usare lo stimatore “media aritmetica campionaria”: y Zia YI "n Come detto in precedenza, la normalità distributiva della popolazione permette di conoscere la distribuzione esatta dello stimatore precedente, che è una N (i) a TAlzzanDO tale distribuzione, si ottiene una statistica che segue una v.a. Z- TA Essa però non può essere quasi mai utilizzata perché non si conosce il valore di 0°. Per stimare tale parametro si può ricorrere alla radice quadrata della varianza corretta: é __| 5404; 4 nei da La statistica risultanteè > L=<71 però, a causa della variabilità indotta dal penultimo stimatore, la statistica t non ha una distribuzione N(0,1) bensì una distribuzione t di Student con n-1 gradi di libertà. Stabilito il livello di confidenza 1-a va identificato sulle tavole, il centile ta /2 corrispondente a una probabilità paria 1- a /2, si può così definire l'intervallo di confidenza bilaterale: P(]-tasz È EMÉ$rtAIz «Shin) -4-a Anche per il parametro possono essere costruiti intervalli i confidenza unilaterali, utilizzando direttamente il centile 1-a (qui indicato con ta): “(mata S/ln)= 4a “(ugo $ |W)= ta Per stimare puntualmente la varianza della popolazione si può usare lo stimatore i - già definito precedentemente. Per effettuare una stima intervallare della varianza occorre invece utilizzare una particolare statistica, ottenuta dividendo la devianza del campione per la varianza della popolazione: u = Deus) Zia (93) - ni, 5 a(n dè Si La statistica u appena definita ha una distribuzione campionaria X°2 con n-1 gradi di libertà. Questo permette di costruire un intervallo di confidenza bilaterale per la varianza 0°2 infatti, fissato il livello di confidenza 1-a si possono trovare sulle tavole della distribuzione X°2 i valore X' e X" (centi di coda 100(a/2) e 100(1- a/ 2)), tali che > P(x'4xhn14X")=4-a > P(xenò, LX")=4a Eseguendo alcuni passaggi si ottiene un intervallo di confidenza per la varianza , 4 2 >p(£42£)- =4- a» p( 85° 20% hE ne )= “1-0 Per stimare lo scarto è sufficiente fare la radice quadrata dei valore estremi ee Z0L Do =4-0 dell'intervallo dell'ultima equazione sopra: PUR da OL ): Anche peri la varianza e lo scarto è possibile costruire intervalli di confidenza unilaterali, è necessario modificare i centili ricordando che: per ottenere il limite inferiore occorre inserire il valore tabulato più grande e viceversa per il superiore. La procedura da seguire per fare un controllo statistico di ipotesi > si parte da un'ipotesi iniziale detta nulla (HO) che solitamente riguarda i parametri di una distribuzione o la relazione tra due o più variabili. Deve essere specificata nel modo più preciso possibile e al termine del test può venire confermata o rifiutata. All'ipotesi nulla si contrappone quella alternativa (H1), può essere più generale della prima. E' possibile commettere due errori: - l'errore di.primo tipo (a), rifiutare l'ipotesi nulla erroneamente quando in realtà è vera e il risultato è dovuto all’effetto del caso - fenomeno detto livello di Esso si applica quando i dati sono dicotomici quindi rappresentabili con una v.a. di Bernoulli e si vuole confrontare la frequenza. Ogni popolazione segue una distribuzione di Bernoulli di parametro 6, il test confronta GA e OB. Per eseguire il test è necessario estrarre due campioni di dati: il primo x1,x2,..., xNA proveniente dalla popolazione A e formato da nA osservazioni, stessa cosa con il secondo x'1, x'2,....,x'nB - entrambi i campioni saranno formati da valori 0.1. Il sistema di ipotesi a confronto è il seguente: e Ipotesi nulla=> HO: 9A = 0B=@ e |potesi alternativa > potrebbe essere di tre tipi: 1) H1:0A<0B 2) H1: @A> 0B 3) H1: 6A # 6B Sia ora TA il numero di osservazioni «1» nel campione A, si definisce la frequenza campionaria relativa alla popolazione A: fA=TA/nA > Stessacosa per TB Il test ha lo scopo di stabilire se la differenza osservata tra di esse può essere considerata significativa o no. Se i due campioni osservati sono entrambi sufficientemente grandi (almeno 30 osservazioni e almeno 10 di ciascuna categoria) è possibile applicare un'approssimazione normale. In tal caso si avrà: fa <N(0x i Pata); fs = N (0a nt) Inoltre, se la distribuzione campionaria di fA e fB è Gaussiana anche quella della differenza fA- fB lo sarà, percui si può scrivere> ;,_,, cn(8- os; facto y tetta — i Nel caso in cui sia vera l'ipotesi nulla 6A= @B= 0, la differenza tra le frequenze avrà la seguente distribuzione campionaria >_;,- {3 * (vera) » n(8.-0s poro 4e02)_ sn(o; fea-0-(+2) na A questo punto è necessario stimare la frequenza comune @ con uno stimatore opportuno, il più preciso, essendo formato da un numero maggiore di osservazioni, è la frequenza congiunta: f (TA + TB)/(nA e nB) = T/n Sostituendo @ con la sua stima f e standardizzando, si ottiene la seguente statistica test: __fa- fe _ fa-fe al (vera Ho) 2 N(01) dico) Aran (en) Il valore di soglia per confermare o rifiutare l'ipotesi nulla dipende dalla direzione dell'ipotesi alternativa H1, occorre quindi trovare il centile a (test in coda sinistra) oppure1- a (se è in coda destra) della distribuzione normale standardizzata. Se l'alternativa è unidirezionale, si fa in modo di collocare il test in coda destra. | CAP. 19 - TEST IPOTESI SUI PARAMETRI DI UNA POPOLAZIONE NORMALE Il test di ipotesi per il valore di una media si applica quando la popolazione può essere considerata normalmente distribuita, per cui siha:Y= N(w.0). IL test riguarda il valore del parametro media 4 che va confrontato con un valore di riferimento Mo. Lo stimatore media aritmetica campionaria y, sotto l'ipotesi nulla segue una legge distributiva gaussiana di mediamoe di scarto Um, si può già definire una statistica test: IMO x (vera tto) & N(01) alia In generale il valore del parametro o non si conosce e va stimato con il consueto “scarto corretto” s, già definito. La statistica ottenuta non è più gaussiana perché risente anche della variabilità di s. Quindi si ottiene > _ FAO (esa O sAn In base alla forma dell'ipotesi alternativa, iltest sarà in coda sinistra o destra. JEST.PERIL CONFRONTO TRA DUE VARIANZE (test di omoschedasticità) questo test si può applicare quando si pongono a confronto due popolazioni (Ae B) che sono normalmente distribuite rispetto a un carattere quantitativo Y, si ha: Yan (14,04) Y8 “N(u8o8) Il test riguarda il confronto dei valori del parametro scarto (04,08) e si basa su due campioni, entrambi bernoulliano (A e B). Il test si esegue confrontando le due varianze campionarie corrette $t,é; e ponendo la più grande al numeratore e la più piccola al denominatore: __ max($a} $8) _mm($2,$8) | gradi di libertà andranno invertiti se la varianza al numeratore è $h (vera Ho) % Fn-a,n6-a TEST.PER.IL. CONFRONTO TRA DUE MEDIE (test di Student) Anche per questo confronto si deve supporre che le popolazioni di riferimento siano normalmente distribuite rispetto a un carattere quantitativo Y, per cui si ha: Ya 4 N(12,08) , Ya N (6,06) Il test riguarda il confronto dei valori del parametro media e utilizza due campione bernoulliani. Le condizioni di applicabilità del test di Student sono: normalità distributiva e omoschedasticità delle popolazioni, indipendenza dei campioni. L'omoschedasticità delle due popolazioni confrontate può essere controllato applicando il test per il confronto delle varianze, esso può proseguire nella sua versione standard solo se l'ipotesi nulla HO: &= 0 =0 non viene rifiutata. Pertanto si deve supporre che le due popolazioni abbiano la stessa varianza 0° Quest'ultima varianza può venire stimata mettendo insieme i due campioni osservati, in modo da avere il maggior numero possibile di osservazioni: $? na:St+N8-SE — Ma tngiZ Dalla varianza comune si ottiene lo scarto estraendo la radice quadrata: A (A-1)Sa2+(n8-)S = 82 A “ natng:Z. La statistica test utilizza come informazione base la differenza tra le due medie campionarie yA e yB che viene divisa per lo scarto stimato $, tenendo anche conto delle dimensioni dei due campioni > Ia DB t=T— RP (vera Ho) ® nz —> N=MNa+*N8 a [Matte Sane IL valore osservato di t andrà poi confrontato con il centile opportuno corrispondente alla direzione dell'ipotesi alternativa e al livello di significatività. Supponiamo di voler studiare la relazione tra un fattore sperimentale A e una variabile quantitativa Y. Il test denominato analisi della varianza è un confronto multiplo tra tre o più medie e viene realizzato scomponendo la variabilità di Y. Si identificano k modalità del fattore che verranno indicate con A1, A2,..Akesi estrae un campione corrispondente a ciascuna modalità di A. Quindi si ottengono k campioni che possono essere anche di numerosità differenti. La singola osservazione va qui indicata con un doppio pedice: con il simbolo yhj si indica la j-esima osservazione corrispondente alla modalità Ah (sottopopolazione). Le medie aritmetiche di gruppo vengono indicate con y1,72,..,yk mentre la media generale di tutte le osservazioni è Y. La devianza totale di Y, ossia la somma di tutti i quadrati degli scarti rispetto alla media generale, è: E” na Dev (Y) 2, z 0,79) ata La proprietà di scomponibilità della devianza ci assicura che la devianza totale Dev(Y) può essere scomposta in due addendi: ka Dev (YJA}= Y 6, _ 3) en ici ko" — 2 Dev(Y]E)=X X (0,7) h=lj=1 Il test di indipendenza lineare più semplice e utilizzato prevede che la distribuzione congiunta di X e di Y sia una normale bivariata o doppia che dipende da cinque parametri: uX (La media della variabile X), uY (La media della variabile Y), oX (lo scarto della variabile X), oY (lo scarto della variabile Y), e infine pX,Y (il coefficiente di correlazione lineare) - L'ipotesi nulla riguarda l'ultimo parametro. Il test di basa su una trasformata del coefficiente di correlazione lineare r=Cov(X,Y)/S(X)S(Y), la statistica test da applicare è: ce rln2 _ vir? = (vera H)=tn2 Se è vera l'ipotesi HO, la statistica t segue una distribuzione “t di Student“ con n-2 gradi di libertà. Si può notare che per calcolare il valore di questa statistica test è sufficiente utilizzare la numerosità n e il coefficiente di correlazione r. La ragione di rifiuto dipende dalla forma dell'ipotesi alternativa. Se è H1: p< 0, il test è in coda sinistra se no a destra, se invece l'ipotesi alternativa è bilaterale, la regione di rifiuto andrà suddivisa equamente tra le due code. Avendo definito gli stimatori, è essenziale studiarne la variabilità in particolare la varianza e lo scarto. La varianza dello stimatore perespansione è > v(î,)=vw:m= n v@= n=" Non essendo nota la varianza della popolazione, andrà stimata con la varianza campionaria corretta ottenendo la stima della varianza dello stimatore per espansione > A &i N22 p v()= N° L==8, Analogamente si trova la stima della varianza della media campionaria: v(Î,) = Dai n Infine, tenendo conto della varianza della variabile di Bernoulli pari alla frequenza moltiplicata per il suo complemento a 1, si trova la stima della varianza della frequenza campionaria > (9) = vp) = fan Lo scarto degli stimatori indicati si ottiene con la radice quadrata della varianza. CAMPIONAMENTO CASUALE SEMPLICE IN BLOCCO Nel C.C.S. in blocco l'universo è formato da n ) campioni distinti (Combinazioni semplici). La probabilità di inclusione di un’ùunità ui è: dn) = Ge) _ (N21) nINoni n 7 = P(uje C) = Mena N n IL rapporto n/N si dice frazione di campionamento e può essere indicata con f.c. Nel campionamento in blocco si può calcolare anche la probabilità di inclusione di secondo ordine: na) = Ply.e Uh (N22 memi nonni zy= P(u;e G u;e C,) = ) = nigi M_ N NI n Per definire una strategia campionaria può essere utile suddividere la popolazione in k sottopopolazioni e considerandole per costruire il campione complessivo per poi mettere insieme i corrispondenti sottocampioni. Se le sottopopolazioni sono omogenee al loro interno e differenziate tra loro, vengono definite strati e si parla di campionamento stratificato (ogni strato deve far parte del campione). Tutto ciò implica che il criterio di suddivisione della popolazione sia il più correlato possibile con la variabile sperimentale quando si esegue una stratificazione mentre deve essere ilmeno correlato se si vuole impostare un campionamento a grappoli. Nel campionamento stratificato si può indicare con Nh la numerosità dello strato h-esimo e con nh la corrispondente numerosità campionaria, una volta scelta si effettua una campionamento casuale semplice in blocco. Se la frazione di campionamento data dal rapporto fch = nh / Nh, è la stessa per tutti gli strati si parla di campionamento stratificato proporzionale. PROBABILITA' DI INCLUSIONE L'unità statistica si indica con uhi (il primo pedice indica lo strato, il secondo indica l’unità), la sua probabilità di inclusione dipende esclusivamente dallo strato di appartenenza ed è la frazione di campionamento prevista per lo strato stesso: Ti" 7} Per il calcolo delle probabilità di inclusione del secondo ordine ci sono 2 casi: e sesi considerano due unità uhi e uhj che appartengono al medesimo strato la probabilità di inclusione è la stessa del CCS in blocco riferita allo 1 = ht strato? hihi Nn Np=1 e Sele due unità uhi e ulj appartengono a strati — _tn tu differentile probabilità di inclusione sono riferite a eventi Bb Nn Ni indipendenti 4 Analogamente si possono ottenere le probabilità di inclusione di ordine superiore al secondo. ii Eb, Î,= Nn DEFINIZIONE DEGLI STIMATORI, uno stimatore corretto del totale dello strato h-esimo si ottiene applicando lo stimatore per espansione: i = Fi Î, Tr Fia Nn In Lo stimatore globale del totale Tv si ottiene sommando i totali degli strati > My = h = Pie = Zia 5° Tn = Lf wa In Per ottenere la stima corretta della media si deve dividere la stima del totale per N> Poiché il parametro = Dn =D wefh frequenza ax equivale al valore atteso di una v.a. di Bernoulli e lo stimatore frequenza campionaria è una media aritmetica, l'equazione precedente si può CAP. 10 - PROBABILITÀ ELEMENTARE Un esperimento aleatorio è una prova o un insieme di prove il cui risultato non è noto in partenza, le prove possono essere appositamente costruite oppure consistere nell'osservazione di fenomeni esterni. Ciascuno dei possibili risultati si dice evento elementare, un insieme di questi è un evento composto, un insieme vuoto di eventi elementari é detto evento degenero. Gli strumenti utilizzati per costruire questi eventi sono le operazioni logiche di Boole usate per costruire eventi più complessi dati 2 eventi E,F: e E*èdetto evento contrario di E se E* é falso quando E è vero e viceversa. e l'eventounione EU F risulta vero quando lo è anche uno degli eventi E, F. e l'evento intersezione ENF è vero quando entrambi gli eventi E, F sono veri. e l’eventodifferenza E-F risulta vero quando l'evento E è vero ed F falso. Si definisce evento certo W un evento che si verifica necessariamente, qualunque sia il risultato dell'esperimento. Proprietà: EUW=W ENWS=E W-E=E Si definisce all'opposto, evento impossibile © un evento che non si può mai verificare, qualunque sia il risultato. Proprietà: EUO=E ENO=Q E-O =E Un evento certo e impossibile sono uno il contrario dell'altro: & =W W= 2) RELAZIONI: due eventi E, F si dicono incompatibili quando la loro intersezione è un evento impossibile (non si possono verificare contemporaneamente), se ciò non avviene sono compatibili. Proprietà: e Glieventi E1, E2,.., Ensi dicono incompatibili a due a due se ogni coppia (Ei, Ej, con i#j) è formata da eventi incompatibili. e Dueopiùeventisono esaustiviselaloro unione equivale a un evento certo (almeno uno si deve verificare necessariamente). e Sidiceche un evento A implica un evento B, si scrive A --> B, se il verificarsi di A rende certo il verificarsi di B (per cui l'evento ANB è impossibile). e__Sedue eventi A, Bsiimplicano a vicenda, per cui A-->B e B--<A, si dicono equivalenti (A=B) SPAZIO (W, equivalente ad un evento certo) Si definisce spazio degli eventi l'insieme che comprende tutti gli eventi elementari quindi l'insieme di tutti i possibili risultati di un esperimento aleatorio. Può essere: e Spazio finito, quando è formato da un numero finito di elementi e Spazio numerabile, formato da un'infinità numerabile finito di elementi e Spazio continuo, quando è formato da un'infinità continua di elementi CALCOLO COMBINATORIO, determina il numero di gruppi che si possono ottenere da un insieme di elementi seguendo determinate regole. Le principali strutture del calcolo combinatorio sono: e permutazioni, di n elementi, i possibili ordinamenti degli elementi stessi. Il numero di permutazioni risulta pari al fattoriale di n --> Pn = n-(n-1)-(n-2)- ..03-2-7=n! Se gli n elementi da permutare sono formati da k tipologie diverse si definiscono permutazioni con ripetizione di n elementi, i possibili ordinamenti in numero - . . oi copia PD (Rin! inferiore. Il mumero di permutazioni con ripetizione è: Pn; na1,n2,..,hk Manzi Ng) e disposizioni, di n elementi presi k alla volta, i possibili ordinamenti che si ottengono considerando solo un numero k di elementi. Il numero di disposizioni semplici risulta pari al rapporto tra due fattoriali: Dik=n-(n-0(n-2)...- (nas Se nel formare gli insiemi vi è la possibilità di ripetere lo stesso elemento più volte si ottengono le: disposizioni con ripetizione di n elementi presi k alla volta, il numero è pari alla k-esima potenza di n: Dan n_n=n Quando è ammessa la ripetizione, cade la condizione k < n. E' infatti possibile formare una sequenza di qualunque lunghezza con gli n elementi iniziali. e combinazioni, strutture in cui non si tiene conto dell'ordine di inserimento degli elementi nel gruppo, il numero è inferiore a quello delle disposizioni. Ad ogni combinazione corrispondono k! disposizioni ottenute permutando i k elementi inclusi nel gruppo. Il numero di combinazioni semplici di n Re Raiti: Nr n ano _ Dan {N elementi, di ordine k, è pari al coefficiente binomiale: (n= Ki KIA)! (2) ci sono anche combinazioni con ripetizione di n elementi, di ordine k. Il numero corrisponde a un coefficiente binomiale con l'argomento superiore maggiore: Cn - ( no) questi assiomi sono tre leggi fondamentali che devono essere sempre valide a prescindere dalla definizione di probabilità prescelta. Esse stabiliscono che: e __A1-La probabilità è una grandezza non negativa (assioma di non negatività), per cui P(E)20. e A2-La probabilità dell'intero spazio degli eventi W è pari a 1 (assioma di unitarietà), per cui P(W)=1. e A3-Sedueeventi E, F sono incompatibili, la probabilità che uno dei due si avveri è pari alla somma delle loro probabilità (assioma di additività semplice). Pertanto: E N F = @ --> P(EUF) = P(E) + P(F). Ciò è valido per un qualunque numero finito di eventi a due a due incompatibili. Dagli assiomi si ricavano alcuni risultati fondamentali che costituiscono la teoria elementare della probabilità: a) Dato un evento E, con probabilità P(E), la probabilità dell'evento contrario E è pari al complemento a 1 di P(E) --> P(E) =1-P(E). Gli eventi E ed E sono incompatibili e la loro unione è l'intero spazio degli eventi, per cui: P(E U E)=P(E) +P(E)=P(0)=1 b) La probabilità di un evento impossibile è sempre zero, infatti 9 equivale al contrario di W, per cui: P(9) = P(O)=1-P(0)=1-1=0 c) La probabilità della differenza E-F è pari alla probabilità dell'evento “minuendo” A meno la probabilità di ANB --> P (E-F) = P(E) - P(ENF). L'evento A risulta suddiviso in due parti incompatibili: l'intersezione ANB e la differenza A\B. d) La probabilità dell'unione di due eventi generici A e B (non incompatibili) è pari alla somma delle rispettive probabilità meno la probabilità dell’intersezione ANB: P(AUB) = P(A)+P(B)-P(ANB). L'evento unione risulta suddiviso in tre parti incompatibili : ta differenza A\B, la differenza B\A e l'intersezione ANB, quindi ==> P(AUB) = P(A-B)+P(B-A)+P(ANB)= P(A)+P(B)-P(ANB). La probabilità di un evento può risentire degli eventi che si sono verificati.in precedenza, si definisce probabilità condizionata P(B|A) la probabilità che avrebbe l'evento B di verificarsi se l'evento A si é già verificato-->P(A): P(B|]A) = P(ANB)/P(A) ovvero rapporto tra la probabilità dell’intersezione ANB e l'evento condizionante. Se si suppone che si sia verificato l'evento B, si definisce la probabilità inversa: P(A| B) = P(ANB)/P(B). La probabilità condizionata P(B|A) può essere maggiore, uguale o minore della iniziale P(B) e se vale l'uguaglianza P(B|A) = P(B)i due eventi si dicono indipendenti --> P(ANB)=P(A)P(B). La condizione di indipendenza permette di calcolare facilmente le probabilità di eventi composti. e Inquestocaso nonsi può parlare di devianza perché non si hanno delle osservazioni ma solo un insieme di valori e le loro rispettive probabilità. IL valore atteso e la varianza godono delle proprietà studiate nella parte di statistica descrittiva. Sinteticamente: E(a + bX) = a + b E(X) e V(a + bX) = bÎV(X) PROVA BERNOULLIANA, è un esperimento aleatorio in cui vi sono 2 soli possibili risultati chiamati successo e insuccesso, un insieme di prove bernoulliane comprende prove dicotomiche indipendenti e con la stessa probabilità di successo (indicata con p). La variabile aleatoria di Bernoulli rappresenta il risultato di una singola prova bernoulliana, ilsolo parametro chesihaè p> P(x-x)=p* (4-p)f* x-01 0 xz0 La funzione di ripartizione della v.a. di Bernoulli è: fx(4)= ft obxzi 4 K34 Il valore atteso è pari alla probabilità di successo: E(X) = 0-(1-p)+ 1:p=0+p=p. I momenti E(X), E(X2), E(X3), ... sono tutti uguali perchè i valori 0 e 1, a qualunque potenza naturale vengano elevati, rimangono invariati. Pertanto la varianza di X vale: V(X) = E0I) — [E0X)1È p — p?= p-(1-p) VARIABILE ALEATORIA BINOMIALE rappresenta il risultato di un insieme di n prove bernoulliane (n= 2) e itnumero di successi ottenuti. | parametri sono: il numero n di prove previste e la probabilità p di successo. La funzione di probabilità è > P(X=x)=P[x successi su n provel=(%)P*4-p}"" ,X=0,1,..,N La funzione di ripartizione non può essere scritta in forma sintetica a causa della presenza dei coefficienti binomiali. Il valore atteso si può ottenere considerando che una v.a. binomiale equivale alla somma di n v.a. di Bernoulli indipendenti e con probabilità costante p> EX)=p+p+t..+p=n-p Lo stesso ragionamento si può fare per calcolare la varianza di una v.a. binomiale, tenendo conto della (X.Y) e dell'indipendenza delle prove componenti, si ha: VOX) = EOG) = [E00]®= p:(1-p) + p(1-p) +. + p:(1-p)= n:p:(1-p) In particolare, quando si ha p= 1/2, la v.a. si dice binomiale simmetrica e la funzione di probabilità si semplifica: P(X=x) =(Y- lx =0,1,..,N Il valore atteso e la varianza diventano > E(X) = n/2; V(X) = n/4. VARIABILE ALEATORIA GEOMETRICA, rappresenta un esperimento în cui si eseguono prove bernoulliane con probabilità p di successo, fino a ottenere il primo successo --> P(X=x) = p- (1-pt, BZ Si tratta di una distribuzione con supporto non limitato. Il valore atteso è pari al reciproco del valore del parametro p > E(X) =1/p e la varianza della v.a. geometrica è > V(X) = (1-p)/p"2 VARIABILE ALEATORIA (PERGEOMETRICA, rappresenta un esperimento aleatorio in cui si estrae in blocco da una popolazione di N elementi appartenenti a due categorie diverse, un campione formato da n elementi (n < N) detti positivi o negativi (p = probabilità iniziale di estrazione di un elemento positivo - variabile X =numero di elementi positivi inclusi nel campione). | parametri sono tre: N (dimensione della popolazione), n (dimensione del campione) e p (frequenza iniziale di elementi positivi). La funzione è: P(X=x) = (AP)(NN), x=0,1,...,N (h) Se il numero totale di elementi positivi (Np) è inferiore a n, ilvalore massimo di X sarà Np > E(X) = n- p. La varianza V(X) subisce una riduzione dovuta al fatto che la popolazione è, in questo caso, finita ed ha dimensione N. La riduzione dipende dal rapporto tra Ne n > V(X) = n- p-(1-p)-(N-n)/(N-1) = n-p-(1-p)- (1-2/M dla RIARILE ALERTORIA DI LOISSON corrisponde a un esperimento in cui vengono monitorati degli eventi che si verificano nel corso del tempo. Fissando un'unità di tempo e supponendo che la probabilità istantanea dell'evento sia costante e che il numero medio di eventi nell'unità di tempo sia pari a À, si trova la probabilità che il numero di eventi verificati sia esattamente pari a x: P(X = x)= SI =0,1,2,3,.. -Ilvaloree è la base dei logaritmi naturali (vale 2,7183). ° In particolare si ha: P(X=0) = 6-*, P(X=1) = \-e* Il valore atteso e la varianza della v.a. di Poisson sono entrambi uguali a A. IL valore modale (ossia quello con la probabilità maggiore) è [A] se non è intero, mentre se è intero vi sono due valori modali: A-1eÀ (CAP. 12 - VARIABILI ALEATORIE CONTINUE. Se si studia una v.a. continua Y, è possibile assegnare probabilità solo ad intervalli di.valori.quindi.non-si.può definire una funzione di-probabilità. Una variabile continua Y è generalmente dotata di una funzione di densità fy(y), permette di calcolare la probabilità che Y assuma un valore contenuto in un intervallo [a,b] tramite il calcolo di un integrale > P(a <Y < b) =L fy May. Quindila probabilità dell'intervallo [a,b}è l'area delimitata dalla curva della densità, dall'asse delle ascisse e dalle rette verticali y=a e y=b (y è l'ascissa e f(y) l' ordinata). La funzione di densità non rappresenta direttamente una probabilità quindi può anche assumere un valore superiore a 1 (resta invalicabile il limite inferiore 0). La funzione di ripartizione nel punto y0 è ottenuta integrando la densità da — 00 a YO > Fy(Ja)"P(1430)-P(-00 6 Ye go) -S84(1)dy La F.d.R. di una v.a. continua Y è una funzione continua. La mediana Me(Y) è il valore puntuale y* in cui la funzione vale 1/2 (primo e il terzo quartile valgono 1/4 e 3/4). In generale, si definisce k-esimo centile della v.a. Y il valore puntuale in cui la funzione di ripartizione vale k/100. e Il valoreatteso E(Y) è ottenuto integrando il prodotto tra i valori puntuali e la rispettiva densità di probabilità: £(4)= 552 Y-f4()dy e Il momento secondo E(Y°2) è ottenuto integrando il prodotto tra i quadrati dei valori puntuali e la rispettiva densità di probabilità €(9)-00 y'- £y(4)dy e LavarianzaV(Y)si ottiene con la formula di calcolo valida anche per le v.a. discrete > V(Y) = E(Y°2) — E(Y)"2 e ScartoS(Y)o deviazione standard, corrisponde alla radice quadrata della varianza V(Y).Applicando una trasformazione lineare Z=a+bY, si ottiene > E(Z)=a+b-E(Y) V(Z)=b"2-V(Y) S(Z)=|[b| SM) eidDILENDENZA VARISBILIALERTORIE Due v.a. X1 e X2 sono indipendenti se ogni evento relativo alla prima v.a. è indipendente da ogni evento relativo alla seconda, per cui vale la regola del prodotto > P(X124.X2 #b)=P(M2a) P(X256) Un insieme di v.a. sono indipendenti a due a due se le componenti diogni coppia di variabili (Xh, Xj) con h#j, sono indipendenti. In questo caso valgono i risultati: Per determinare il valore atteso e la varianza di una v.a. Xq: E(Wg)=E(74%22°.*297)- E(20)*E(22)1+E(£97)-dt4+. 4-9 V(2°)-E(2)-Le(#)]"-34-2 V(W9)-V(24422+.+ 29) Mt) AD +V(Ey)= 24241229 lA RIABILE ALE RTO RIA DISIUDENT ottenuta combinando una v.a. normale standardizzata Z e una v.a. chi-quadrato Wg, tra loro indipendenti: Tg-— ad 9 La variabile ottenut prende il nome di variabile t di Student con g gradi di libertà. Se g=1, la variabile T ha media e varianza non finite, anche se la sua mediana è uguale a zero, se g=2 il valore atteso è nullo e la varianza è infinita, per g2 3 si ha: E(19)=0, sia Al crescere del numero di gradi di libertà, la distribuzione diventa più vicina alla normale standardizzata. La distribuzione N(0,1) si può effettivamente considerare una t di Student con infiniti gradi di libertà e per g >100 si possono utilizzare i centili di coda della normale al posto di quelli della t di Student. VARIABILE ALEATORIA F DI SNEDECOR-FISHER Combinando due distribuzioni chi-quadrato si può ottenere la distribuzione F, proposta indipendentemente e quasi contemporaneamente dall'americano George W. Snedecor (1881-1974) e dal britannico Ronald A. Fisher (1890-1962). Tale distribuzione permette, in alcuni contesti specifici, di rappresentare il confronto tra due varianze e per questo motivo è molto importante. Se Wh e Wk sono due variabili chi-quadrato, rispettivamente con h e k gradi di libertà, la variabile trasformata: _ Whlh Fh,k= IR questa distribuzione ha un doppio numero di gradi di libertà. La tavola-tipo della distribuzione F, tenendo conto del doppio numero di gradi di libertà, può essere fatta unicamente predisponendo una tavola diversa per ogni centile. Solitamente vengono rappresentati ilcentile 95 e 99, i più utili nell'inferenza statistica, calcolati per diverse coppie di numeri di gradi di libertà. Un dato statistico rappresenta un'informazione elementare, che può essere numerica (quantitativa) o categoriale (qualitativa). Si chiama unità statistica il singolo elemento a cui si riferisce un dato statistico (se i dati si riferiscono a caratteristiche come l'età l’unità statistica è la persona) mentre il carattere é la caratteristica che il dato descrive, il suo valore osservato si dice modalità. strumenti adeguati. La distinzione si può fare tré qualitativi e quantitativi: e carattere qualitativo sconnesso, è solo possibile stabilire se due dati sono uguali o diversi (ex. gruppo sanguigno). e caratterequalitativo ordinabile, è possibile stabilire un ordinamento per cui si può dire quale sia il maggiore o minore tra due dati. e carattere quantitativo discreto, in cui si hanno dati numerici derivati da un conteggio. e carattere quantitativo continuo, si hanno dati numerici derivanti da una misurazione. É importante classificare i caratteri perché eg prevede l’uso di RAPPRESENTAZIONE DATI SINGOLA VARIABILE STATISTICA Se i dati da rappresentare sono numerosi, è opportuno raccoglierli in una tabella. di numerosità, dove vengono rappresentate le diverse modalità del carattere e le corrispondenti frequenze assolute e/o relative. Caratteristiche: e Il numero ni rappresenta quante volte la modalità xi è stata osservata, mentre la quantità fi = ni /n é la frequenza relativa. e Lasommaditutte le numerosità è uguale a n, mentre la somma di tutte le frequenze relative è uguale a 1 (spesso espresse in % per cui iltotale è 100%) Per rappresentare ciò è possibile usare un grafico (a torta/colonne). Quando si analizzano simultaneamente due caratteri X e Y si costruisce una tabella a doppia entrata, indicando per riga le modalità osservate del carattere X e per colonna quelle del carattere Y. Ciascuna casella contiene la numerosità (n. unità osservate) relativa alla coppia corrispondente. In fondo a ogni riga si indica la somma delle caselle (numerosità marginale di riga) e viceversa (numerosità marginale di colonna). Un valore medio è un singolo valore che rappresenta l'intero insieme dei dati osservati. Se i dati sono: e qualitativi sconnessi, l’unico valore medio possibile è la moda (modalità osservata più frequentemente) mentre se il carattere di classificazione dei dati è ordinabile si determina la mediana (modalità con posizione centrale se si ordinassero i valori in senso crescente o decrescente). e quantitativi, si può usare il metodo della funzione di Chisini. Data una funzione g si sceglie come valore medio il numero x* tale che: g(x1, X2, ..., xn) = g(x*, x*, ..., x*) - la funzione può essere la somma o il prodotto dei reciproci o dei logaritmi (3.1), se facciamo l'esempio con la somma, la disuguaglianza diventa: xX1 + x2 +... + xn = x*+x*+..+x*=n-x*. Scegliendo come funzione di riferimento la somma e applicando la formula recedente si ottiene la media aritmetica, Zi,x p x = at) — M(x) essa è applicabile ai caratteri quantitativi che si compongono per somma, per quelli composti per prodotto per valutarli si utilizza il prodotto come funzione di riferimento nella 3.1 e applicando la condizione: x1x2x3 7... xn = xt xt -x* = (x*)n Mentre la media geometrica é data da: x° = "[IT?_1%; = Me) Entrambe le medie assumono sempre un valore maggiore dell'osservazione minima e minore dell'osservazione massima. Hanno anche altre proprietà: e aggiungendoa ciascun dato una costante a, positiva o negativa, la media aritmetica viene aumentata di a: M(X + a) = M(X)+a e Moltiplicando ciascun dato per una costante b, entrambe le medie verranno moltiplicate per b: M(b-X) = b-M(X) - MG(b-X) = b-MG (X) e Elevandociascun dato a una potenza c, intera o decimale, la media geometrica risulterà elevata alla stessa potenza: MG(X°) = [MG (Xx) Unendo le proprietà, ottieniamo: M(a + bX) = a + b M(X) e MG(b-X9) = b-IMG (01° Scegliendo come funzione di riferimento (3.1) la somma dei reciproci, si ottiene: 114. L-tyty,.4 2 -> quindi avremo la media armonica TY xi x2 Xn x x* x* x* 1 == = -(Z3) == Ma) Le misure di variabilità sopra definite sono legate all'unità di misura delle osservazioni quindi non permettono confronti tra fenomeni o ordini di grandezza diversi dello stesso fenomeno. Per confrontarli si possono: e Rapportare le misure di variabilità al valore medio scelto in base al centro di riferimento del numeratore. Si definiscono due indici: - lo scostamento semplice medio relativo ottenuto confrontando lo scostamento semplice medio con la mediana Sme* = Sme/ME (X) - il coefficiente di variazione (CV) ottenuto confrontando lo scarto quadratico medio con la mediana aritmetica M(X) --> CV = S(X)/M(X). IL valore di questi indici può essere espresso in % ma tenendo conto che il valore 100% può venire superato in alcune situazioni e non costituisce un limite massimo. e Rapportarele misure di variabilità ai loro valori estremi (mine max) Quando gli indici di variabilità vengono costruiti in riferimento al valore minimo e massimo vengono definiti indici normalizzati, sono compresi tra zero e uno (non possono mai superare il valore 100%).La formula completa diunindice di. questo tipo associato ad una generica misura V è: 4 VV! -V' valore minimo S qgrr_yi |-V”ilvalore massimo per la misura di variabilità V. Visto che, salvo per alcune misure di variabilità, il valore minimo V è uguale a zero l'equazione precedente si semplifica e diventa: vez I = V == Vmax RAPPORTO DI CONCENTRAZIONE DI GINI Quando un carattere è trasferibile, è possibile studiarne il grado di concentrazione ovvero come l'intensità si concentri in poche unità statistiche. Tra gli indici di concentrazione ce n'è uno importante nella misura degli squilibri economici e monetari, il rapporto di concentrazione di Gini (R), per studiare la concentrazione si devono definire due situazioni limite: e sihaconcentrazione nulla se tutte le osservazioni sono uguali e si ha massima concentrazione quando un singolo individuo possiede tutta la quantità del carattere considerato. Se si parte da un campione di n dati x1, x2,..., xn e si vuole determinare il grado di concentrazione bisogna permutare i dati in ordine crescente --> T.= n:M(X) intensità totale del carattere. L'osservazione più piccola x(1) peserà p1=1/nin termini numerici e q1=x(1) /T in termini di quantità del carattere (q1< p1). Se aggiungiamo la seconda osservazione, il peso numerico congiunto di x(1) e x(2) diventa p2=2/n, la corrispondente quantità diventa g2=x(2) /T. Aggiungendo osservazioni otteniamo due successioni: pesi numerici e quantitativi. Il rapporto di concentrazione R.consiste in un confronto globale tra i pesi pj e gj, più i valori dei pesi sono simili più ci si avvicina alla perfetta equidistribuzione mentre più sono differenti, maggiore è il grado di concentrazione. Il rapporto di concentrazione è così definito: g= Somma distanze _ EjziP1-9) _ 1 je 9; © somma massima Miei pj Mii Pj Quando si studia un carattere qualitativo è sempre possibile indicare le modalità osservate e la corrispondente frequenza assoluta o relativa. Se si valuta ilgrado di. «eterogeneità si stabiliscono le situazioni estreme: e perfetta omogeneità, tutte le osservazioni presentano la stessa modalità. e massima.eterogeneità, ogni modalità osservata con la stessa frequenza. Una volta stabilite, si definiscono gli indici di eterogeneità che valutano il grado di eterogeneità dei dati osservati. Tali indici devono essere uguali a 0 in perfetta omogeneità e devono assumere il valore massimo in massima eterogeneità. | due indici di eterogeneità più semplici e usati sono: e indicedieterogeneità di Gini (EG) 6.1, basato sulle distanze delle frequenze relative dai valori estremi Eg = Vf (0 = fi) = Fifa = Vf = 1- Lf} e indicedi entropia di Shannon (ES) 6.2, basato sui logaritmi delle frequenze Es = Lia falinfa| = Zia Ifalnfn| = Life na Questi indici sono nulli in perfetta omogeneità quindi dividendo ognuno per il suo massimo, si ottiene un indice normalizzato. Vediamo i valori massimi da usare per la normalizzazione: e Il valore massimo dell'indice di Gini si ottiene ponendo f1 = f2 =... = fk = 1/k 1 e applicando la (6.1): ax E = Di.i(1 -3)=xki-1()) i Dividendo l'indice EG per il suo massimo si ottiene l'indice di E = = KE Gini normalizzato: GUOELT k-16 e Il massimo dell'indice di entropia di Shannon si ottiene ponendo ciascuna frequenza uguale a 1/k e applicando la (6.2): max E, = St. imm k=nk Dividendo l'indice Es per il suo massimo si ottiene l'indice di entropia normalizzato É possibile utilizzare l'indice di concentrazione complementare (ER) ottenuto calcolando il rapporto di concentrazione di Gini sulle frequenze assolute o relative e facendone il complemento a 1: Ey=1-R(M,n,..,m)= 1-R(fofy fi) Calcolati i valori pi e gi, applicati alle frequenze, l'indice ER sarà: LE ph yi xk Eg=1- R= 1-(1-Z22®) n (CAP. 9 — REGRESSIONE E CORRELAZIONE LINEARE Siano X e Y due caratteri quantitativi e supponiamo di avere osservato un campione formato da n coppie di osservazioni (xj yj). Lo scopo della regressione lineare è di rappresentare la relazione tra X e Y con una retta che dovrà fungere da modello teorico, essa è detta retta di regressione e deve passare il più vicino possibile ai valori osservati per rappresentarli tutti. Costruendo questa retta le due variabili assumono un ruolo diverso: e laXè generalmente la variabile indipendente, la causa della relazione e Yèlavariabile dipendente, è considerata come la variabile effetto Tra tutte le rette generiche Y = a + bX si sceglie quella che rende minima la somma dei quadrati degli scarti tra i valori teorici e valori osservati di Y: Zj-107; -y;)? = Xj-1(9; — a — bx;°)? = minimo Derivando rispetto ai parametri a eb e ponendo uguale a zero la derivata prima: a =M(Y)-b- M(X) p = cova _ DEL: M 00) 0;-MM)]/m _ Dx _M0M) OMO] VO) DG M00)7/m DGM] La covarianza Cov(X Y), è una misura di associazione che indica simultaneamente il segno e l'intensità del legame tra X e Y. Essa si può ottenere più rapidamente: SGD _ ari _ n n n Cov(X,Y) = Xx-y= M(XY)- M(X)-M(Y) Se si calcola la covarianza di una variabile X, si ottiene la varianza V(X): cov(1,4) = VATI _ Mat _ y(m) = M(1°) - MP n \ Quindi il coefficiente di regressione b si può riscrivere: p= YAN _ MO-N-MM MM V(X) — M(X?)-[M 00]? Il coefficiente di correlazione lineare r è definito normalizzando la covarianza: _ COv(ReRy) Via (Rej Rey) Spar) na ni “7 S(A)YSOM S(X):S(1) ER DR) ESSO mes)? indica il segno e il grado di linearità della relazione tra le due variabili, è un indice ottenuto dividendo il valore della covarianza per il suo massimo che corrisponde a una relazione perfettamente lineare. Se il valore di questo coefficiente: e raggiunge uno dei limiti, +-1, i dati osservati sono tutti sulla retta di regressione e ècompresotra-1e0,illegame è inverso e la retta è inclinata verso il basso e r=0, nonc'è nessuna relazione lineare tra le due variabili e ècompresotra0e1, la retta di regressione è ascendente e risulta essere un buon modello se il valore del coefficiente si avvicina a +1. Il quadrato del coefficiente di correlazione lineare, r?, è l'indice di determinazione, lineare e misura quanta parte della variabilità di Y è dovuta al legame con X. Tale indice non può assumere valori negativi e non dà informazioni sul legame lineare. Regressione e correlazione lineare schema per il calcolo DatiX —Dativ x vi x? vi XY LA LA x vi xa x v x? vi XY x, Yo x N Ka MIX) MY) = MOR) MYA) Mom vo) vm Cov(xY) 50%) sm 5(X) - SY) vm = M(X2) - Mx}? ba Cov(X,Y) / VIX) vm M(Y?)- MP as MIY) — b M(x) Cov[XY= M0M- MIX) MM) = r= covlxv)/[S00S] è possibile costruire degli indici sui ranghi, posizioni in graduatoria delle unità statistiche rispetto a caratteri quantitativi o qualitativi ordinabili. Dato un insieme di n dati, i ranghi vengono attribuiti considerando le graduatorie crescenti, in caso di pari merito è usato il rango ottenuto come media aritmetica. Se il numero di osservazioni a pari merito è dispari il rango medio è un numero intero e viceversa, la varianza dipende da questo numero. Il coefficiente di cograduazione di Spearman rs, si ottiene calcolando il coefficiente di correlazione lineare sui ranghi. Indicando il posto in graduatoria della j-esima unità statistica, rispetto ala carattere X e Y, rispettivamente con RXj e con RYj si trova: Cov(X,Y) Cov(X,y) covxYy) _ Zi 0;-9) 7 maxCov (XY) JA) :Vvm SM:S0 E. G9IL0,-9? IL coefficiente di cograduazione rS ha la stessa scala di valori (da-1a +1) ela stessa interpretazione del coefficiente di correlazione r. L'unica differenza è che la situazione di massima cograduazione non corrisponde più ad un perfetto allineamento dei dati osservati ma delle graduatorie: se rS = +1 le due graduatorie saranno coincidenti, se invece rS = -1 saranno perfettamente invertite.