Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

DISPENSA DI STATISTICA. descrittiva e inferenza, esempi , teoria ed esercizi, Dispense di Statistica

Il documento al suo interno è suddiviso in più parti, la prima parte è sulla totalità della statistica descrittiva, con aggiunta di esempi ed esercizi. Sono presenti anche vari grafici dimostrativi, con annesse spiegazioni. Troviamo successivamente la sezione dedicata all'inferenza, anche questa spiegata nella sua totalità. Inoltre è presente anche una scheda finale con domande e risposte.

Tipologia: Dispense

2020/2021

In vendita dal 16/01/2023

RR_26
RR_26 🇮🇹

4.3

(4)

13 documenti

1 / 66

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica DISPENSA DI STATISTICA. descrittiva e inferenza, esempi , teoria ed esercizi e più Dispense in PDF di Statistica solo su Docsity! STATISTICA DESCRITTIVA  Calcolo indici e rappresentazioni grafiche  DISTRIBUZIONI SINGOLE: Singola no frequenze no classi (D1) Singola si frequenze no classi (D2) Singola si frequenze si classi (D3)  Verifica relazioni tra due caratteri DISTRIBUZIONI DOPPIE: Doppia unitaria, senza frequenze Doppia congiunta, con frequenze UNITA’ STATISTICHE: Ognuno degli individui appartenenti ad una popolazione o ad un campione di riferimento oggetto di indagine statistica. CARATTERE: Per carattere si intende una variabile (età, sesso, professione) rilevato su una o più unità statistiche appartenenti a una popolazione o un campione di riferimento come esito di un’indagine. MODALITA’: Per modalità di un carattere si intende uno dei suoi possibili valori (numerali o letterali). Ad esempio dato il carattere colore occhi, alcune modalità sono azzurro, marrone, verde. DISTRIBUZIONE: Insieme di dati rilevati su un collettivo statistico relativamente a un carattere (distribuzione singola) o a più caratteri ( distribuzione doppia, tripla). La statistica descrittiva studia diversi indici statistici:  indici di posizione/di sintesi/di tendenza centrale,  indici di variabilità,  indici di forma INDICE STATISTICO: un indice statistico (o indicatore statistico) è una funzione di un insieme finito o infinito di valori e viene calcolato allo scopo di descrivere la distribuzione. Prima di descrivere gli indici statistici bisogna attuare una classificazione dei caratteri. Su ogni unità statistica si rilevano una o più informazioni di interesse (caratteri). Il modo in cui un carattere si manifesta in un’unità statistica è detto modalità. Esistono varie tipologie di caratteri: 1. CARATTERI QUALITATIVI (espressi con parole o lettere) O MUTABILI  Sconnessi: hanno per modalità denominazioni qualitative tra le quali non esiste (e non è possibile stabilire) un ordinamento. Es.: maschio e femmina;  Ordinati: hanno per modalità denominazioni qualitative tra le quali esiste un ordinamento naturale implicito. Es.: grado di istruzione; 2. CARATTERI QUANTITATIVI (espressi con numeri) O VARIABILI  Discreti: le modalità sono i numeri interi: 0,1,2… Es.: numero dei figli;  Continui: le modalità sono (teoricamente) tutti i numeri reali compresi in un determinato intervallo. Es.: altezza e peso; Esercizio: numero di addetti in un’azienda  discreti religione  sconnessi altezza  continui reddito  ordinati Medie statistiche:  Media Aritmetica Le proprietà della media aritmetica sono: 1. L’INTERNALITA’: la media è sempre un valore interno alla distribuzione; 2. OMOGENEITA’: se si moltiplica ciascun termine della distribuzione per un valore k la nuova media si ottiene moltiplicando la nuova media per k. 3. TRASLATIVITA’: se a ciascun termine della distribuzione si somma un valore k la nuova media si ottiene sommando alla vecchia media lo stesso valore k. 4. ASSOCIATIVITA’: la media aritmetica delle medie di due gruppi fornisce la media aritmetica di tutto il collettivo. 3) Si calcolano solo se il carattere è quantitativo (ad eccezione dell’indice di eterogeneità) 4) Si dividono in assoluti (accompagnati da unità di misura) e relativi ( non accompagnati da unità di misura) INDICI DI VARIABILITA’ ASSOLUTI: 1) Devianza 2) Varianza 3) Scarto quadratico medio 4) Campo di variazione (range) 5) Differenza interquartile 6) Differenza semplice media senza ripetizione 7) Differenza semplice media con ripetizione INDICI DI VARIABILITA’ RELATIVI: 1) Coefficiente di variazione 2) Indice di eterogeneità di gini 3) Rapporto di concentrazione di gini DIFFERENZA SEMPLICE MEDIA SENZA RIPETIZIONE  xi = 3,5,6,7,9 DELTA=? TOT=28 0 ≤ ∆≤ 2 ∙ 𝑀 (M=MEDIA) DELTA= 28+28/ 5(5-1)= 2.8 2.8 è la differenza media tra i cinque valori della distribuzione La media è =6 , quindi delta è 12, e 2.8 su 12 è un valore basso, quindi la variabilità è bassa. 3 5 6 7 9 3 0 2 3 4 6 5 0 1 2 4 Nella differenza semplice media CON RIPETIZIONE , la differenza sta nella formula del delta, al denominatore la n è al quadrato. INDICI DI VARIABILITA’ RELATIVI: Coefficiente i variazione CV= SQM/ Media Quando si utilizza il coefficiente di variazione? Il CV si utilizza quando è richiesto un confronto di variabilità tra due distribuzioni. Qual è la distribuzione più variabile? Quella con il CV maggiore. INDICE DI ETEROGENEITA’ DI GINI: IE Si può applicare ANCHE per i caratteri qualitativi ed è l’unico indice a poterlo fare. Si calcola l’IE, successivamente l’IE MAX e dopo l’IE NORMALIZZATO, questo è compreso tra 0 e 1 . Se l’IE N è 0 abbiamo omogeneità massima, mentre se è 1 abbiamo massima eterogeneità. RAPPORTO DI CONCENTRAZIONE DI GINI 0 ≤ 𝑅 ≤ 1 R=0 equidistribuzione o concentrazione nulla ( 20,20,20) R=1 concentrazione massima ( 100,0,0) i xi Ai Pi i/n Qi Ai/tot Pi-qi 1 7 7 1/6 7/89 1/6-7/89 2 7 14 2/6 14/89 2/6-14/89 3 10 24 3/6 24/89 3/6-24/89 6 0 1 3 7 0 2 9 0 4 20 44 4/6 44/89 4/6-44/89 5 21 65 5/6 65/89 5/6-65/89 6 24 89 1 1 89 tot 𝑅 = ∑ (𝑝𝑖 − 𝑞𝑖)𝑛−1 𝑖−1 ∑ 𝑝𝑖𝑛−1 𝑖=1 Il rapporto di Gini si può rappresentare con la curva di Lorenz. La relazione tra il rapporto di Gini e la differenza semplice media R= DELTA/DELTA MAX INDICI DI FORMA Gli indici di forma si dividono in: INDICI DI ASIMMETRIA e INDICI DI CURTOSI (rari), tra gli indici di asimmetria troviamo β e ASN. Il concetto di simmetria/asimmetria di una distribuzione Asimmetria positiva: maggiore addensamento in corrispondenza con i valori più bassi, il ramo destro è più allungato di quello sinistro. 𝛽 𝑒 𝐴𝑆𝑁 > 0 𝑀𝑜 < 𝑀𝑒 < 𝑀 Asimmetria negativa: maggiore addensamento in corrispondenza con i valori più alti, il ramo sinistro è più allungato di quello destro. 𝛽 𝑒 𝐴𝑆𝑁 < 0 𝑀 < 𝑀𝑒 < 𝑀𝑜 (se β e ASN sono pari a 0, non è detto che vi sia asimmetria) Simmetria: Moda=Mediana=Media 𝛽 𝑒 𝐴𝑆𝑁 = 0 Esempio: la seguente tabella riporta la quantità di biscotti in kg ed il numero di dipendenti di un campione di 6 filiali di un’azienda casertana. Bisc in kg 13 23 19 18 9 22 n.dipendenti 11 108 9 10 11 15 A) Calcolare moda, media e mediana per num.dipendenti e commentare B) Calcolare un indice di asimmetria per la variabile num. Dipendenti Grafico per carattere quantitativo: BOX PLOT Come costruire un box plot: 1. Vanno ordinati i valori, 2. Vanno calcolate la Media, il Q1 ed il Q3 3. Vanno individuati i valori minimi e massimi 4. Calcolare limite inferiore e limite superiore: 𝑙𝑖𝑚𝑖𝑡𝑒 𝑖𝑛𝑓𝑒𝑟𝑖𝑜𝑟𝑒 = 𝑄1 − 1,5( 𝑄3 − 𝑄1) 𝑙𝑖𝑚𝑖𝑡𝑒 𝑠𝑢𝑝𝑒𝑟𝑖𝑜𝑟𝑒 = 𝑄3 + 1,5(𝑄3 − 𝑄1) Istruzioni per la costruzione del baffo sinistro: inizia sul valore più grande tra x min ed il limite inferiore. Istruzioni per la costruzione del baffo destro: finisce sul valore più piccolo tra x max ed il limite superiore. Se i baffi finiscono ed iniziano rispettivamente sul x max ed x min , allora i limiti non servono, ma se i limiti dovessero essere utilizzati e quindi se i valori più grandi e più piccoli appartenessero ai limiti, l’x max e l’ x min andrebbero comunque rappresentati con degli asterischi. Sono presenti degli outliers nel box plot? Per outliers si intendono dei valori che all’interno della distribuzione si distinguono per essere o molto più grandi o molto più piccoli da tutti gli altri valori. C’è una correlazione tra l’asimmetria e la scatola del box plot ASN>0 ASIMMETRIA POSITIVA ASN<0 ASIMMETRIA NEGATIVA ASN=0 SINTOMO DI SIMMETRIA La larghezza della scatola ci fornisce un’idea della variabilità, ad una maggiore larghezza corrisponde una maggiore variabilità ed ad una larghezza minore corrisponde una minore variabilità , questo perché la larghezza della scatola è data da: larghezza scatola= Q3-Q1. Grafico per la rappresentazione di una distribuzione unitaria: DIAGRAMMA DI DISPERSIONE, SCATTER PLOT. Sull’asse delle x si trova la variabile dipendente, e sull’asse delle y troviamo la variabile dipendente. Posizionando il reddito di tre famiglie su x e i giorni di vacanza su y, notiamo che con l’aumentare del reddito aumentano anche i giorni di vacanza. LE RELAZIONI STATISTICHE La ricerca dell’esistenza di relazioni statistiche tra i caratteri presuppone la conoscenza di una distribuzione doppia (bivariata). A seconda del tipo di caratteri, una distribuzione congiunta si può classificare in tre modi: 1. tabella di contingenza (entrambi i caratteri sono qualitativi) 2. tabella mista (un carattere qualitativo, l’altro quantitativo) 3. tabella di correlazione (entrambi i caratteri sono quantitativi) ù Dipendenza statistica o assoluta 0 2 4 6 8 10 12 0 0.5 1 1.5 2 2.5 3 3.5 Esistenza di un legame reciproco tra i caratteri in esame. I caratteri hanno lo stesso ruolo (simmetrico). Non è possibile stabilire un criterio di antecedenza logica per alcuno dei fenomeni. L’esistenza dell’indipendenza assoluta comporta l’inesistenza di ogni altro tipo di relazione statistica (dipendenza). Quando le frequenze teoriche (cioè quelle che teoricamente dovrebbero occupare le celle in presenza di indipendenza assoluta) sono uguali alle frequenze osservate (cioè quelle che in realtà occupano le celle) si parla di indipendenza assoluta. In caso contrario, le variabili sono connesse e la forza del legame viene misurata con gli indici di connessione (scalari sempre non negativi) tra i quali il più utilizzato è il chiquadrato. Quest’ultimo assume valore zero in caso di indipendenza e maggiore di zero in presenza di connessione tra le due variabili. 𝜒2 = ∑ ∑ ( 𝑛𝑖𝑗−𝓃𝑖𝑗)2 𝓃𝑖𝑗 𝑐 𝑗=1 𝑟 𝑖=1 0 ≤ 𝜒2 ≤ 𝑁 ∙ 𝑚𝑖𝑛[(𝑟 − 1), (𝑐 − 1)] Più le frequenze osservate si allontanano dalle frequenze teoriche più è elevato il grado di connessione tra le variabili. Il massimo valore dell’indice viene assunto quando esiste una relazione biunivoca tra i caratteri (ad ogni modalità di un carattere corrisponde una e una sola modalità dell’altro), Gli altri indici di connessione sono: Indice di contingenza quadratica media (K.Pearson): 𝜙2 = 𝜒2 𝑁 = ∑ ∑ 𝑛𝑖𝑗 2 𝑛𝑖𝑛𝑗 − 1𝑐 𝑗=1 𝑟 𝑖=1 0 ≤ 𝜙2 ≤ 𝑚𝑖𝑛[(𝑟 − 1), (𝑐 − 1)] Indice medio di contingenza (Cramer) 𝜙2 = 𝜙2 𝑀𝑖𝑛(𝑟−1,𝑐−1) 0 ≤ 𝜙2 ≤ 1 Indipendenza in media Si supponga di avere una distribuzione doppia di una variabile Y quantitativa e di una variabile X che può essere sia quantitativa che qualitativa e di voler misurare quanto Y dipenda in media da X. Y è indipendente in media da X se ogni distribuzione parziale della Y ha la stessa media. 𝑦1 = 𝑦2 = ⋯ 𝑦1 = ⋯ 𝑦𝑟 Se 0<r<1 , allora vi è concordanza. Se r=1 , allora vi è perfetta relazione lineare tra X e Y e vi è concordanza. Conclusioni È possibile stabilire la seguente gerarchia tra i tre concetti di indipendenza: Indipendenza statistica Indipendenza in mediaIndipendenza correlativa Non vale però il viceversa: indipendenza correlativa⇏indipendenza in media⇏indipendenza statistica. Quindi nelle distribuzioni doppie vogliamo andare ad individuare l’associazione tra caratteri: dipendenza assoluta= due caratteri qualitativi dipendenza in media= 1 carattere qualitativo/quantitativo dipendenza lineare= 2 caratteri quantitativi. Caso dipendenza assoluta o statistica: 1caso: prov.geografica Col.occhi azzurro Col.occhi verde Col.occhi scuro Nord 7 nij 12 nij 1 nij 20 ni Centro 3 nij 13 nij 14 nij 30 ni sud 10 nij 15 nij 5 nij 30 ni 20 n.j 40 n.j 20 n.j 80 n nij=frequenze osservate , nij*= frequenze teoriche 𝜒2 = ∑ ∑ (𝑛𝑖𝑗 − 𝑛𝑖𝑗∗)2 𝑛𝑖𝑗∗ Formula per calcolare frequenze teoriche: 𝑛𝑖𝑗∗ = 𝑛𝑖. ∙ 𝑛.𝑗 𝑛𝑖𝑗 Tabella frequenze teoriche calcolate: 5 10 5 7.5 15 7.5 7.5 17 7.5 𝜒2 = ⋯ = 14,67 n*min(r-1),(c-1) = 80*min(3-1),(3-1)= 80*min(2,2)=80*2=160 Quindi, chi quadro è un valore basso , essendo il range da 0 a 160, ciò indica la scarsa correlazione. In merito agli indici di connessione, tra questi troviamo il 𝜒2 , il 𝜙2 = 𝜒2 𝑛 , e l’indice di cramer, 𝜑2 = 𝜙2 min ( 𝑟−1;𝑐−1) 0 ≤ 𝜑2 ≤ 1 questo parametro viene introdotto in quanto ci consente una lettura rapida del risultato. CASI ESTREMI : 𝑆𝑒 𝜒2 = 0 𝑜 𝑆𝑒 𝜒2 = 𝑀𝐴𝑋 Il Chi quadrato è zero, se le frequenze osservate sono uguali alle teoriche : 𝑛𝑖𝑗 = 𝑛𝑖∗𝑗 10 20 30 5 10 15 20 40 60 In questo caso si ha indipendenza assoluta, le righe e le colonne sono proporzionali quindi il 𝜒2 = 0 𝑒𝑑 𝑖𝑙 𝜑2 = 0. Il caso di dipendenza assoluta massima, phi quadro=1 e chi quadrato =max, si ha quando in ogni riga o colonna c’è un solo elemento diverso da zero. 10 0 0 0 20 0 0 0 30 Il chi quadrato è un indice che serve a misurare l’interdipendenza tra 2 caratteri qualitativi (no rapporto di causa effetto). LA DIPENDENZA IN MEDIA: X(Causa)Y (Effetto) , la x è il carattere qualitativo e la Y è sempre il carattere quantitativo. 𝜂2 (eta quadrato) : rapporto di correlazione Es: causa= provenienza geografica, effetto= voto maturità 1 gruppo: NORD : n=20 e Media=80 e Devianza nord=150 2 gruppo: CENTRO: n=10 e Media=90 e Devianza centro=200 3 gruppo: SUD: n=30 e Media=100 e Devianza sud=300 Il rapporto di correlazione si ottiene dalla scomposizione della devianza del voto. Dev(totale)= Dev (B)+ Dev (W) Devianza Between= la devianza tra i gruppi ; Devianza Within= la devianza nei gruppi. Dev (W)= 150+200+300=650 Media italia= 80x20+90x10+100x30 / 60 = 91.67 Dev(B)=(80-91.67)2X20 + (90-91.67)2X10 +(100-91.67)2X30= Dev(B)=4833 Dev(T)=4833+650=5483 𝜂2 = 𝐷𝑒𝑣(𝐵) 𝐷𝑒𝑣(𝑇) = 0.88 0 ≤ 𝜂2 ≤ 1 La dipendenza in media del voto dalla provenienza geografica è alta. CASO ESTREMO: 𝜂2 = 0, Dipendenza in media nulla. Nord: 20,60,80 , media=70 Centro: 80,60 , media=70 Sud: 100, 60,80 , media =70 𝑑𝑒𝑣(𝑇) = 𝑑𝑒𝑣(𝑤) + 𝑑𝑒𝑣(𝑏) Dev(b)=0 non c’è variabilità del voto tra i gruppi, ma solo NEI gruppi , dev(w). 𝜂2 = 𝑑𝑒𝑣(𝑏) 𝑑𝑒𝑣(𝑡) = 0 𝑑𝑒𝑣(𝑡) = 0 Carattere totalmente indipendente in media dalla dipendenza geografica. r=-1 perfetta dipendenza lineare inversa Il coefficiente di correlazione misura l’attitudine dei punti a disporsi lungo una retta r=0 , assenza di legame lineare Relazioni tra gli indici 𝜒2 = 0 → 𝜂2 = 0 → 𝑟 = 0 Il 𝜒2 influenza tuti gli indici, ma non è vero il contrario, r non influenza e nemmeno eta. CARATTEREINDICI Qualitativo-qualitativotabella di connessione,( chi quadrato) Qualitativo-quantitativo  tabella mista ,(eta quadrato) Quantitativo-quantitativotabella di correlazione, (r) 0 1 2 3 4 5 6 7 8 9 0 2 4 6 8 10 Valori Y 0 2 4 6 8 10 0 1 2 3 4 5 6 7 8 Chart Title INFERENZA L’inferenza studia le relazioni esistenti tra una popolazione di individui ed un campione da essa estratta. Per popolazione si intende oggi un insieme o collezione di oggetti, numeri, misure o osservazioni, che sono oggetto di studio. Per campione si intende invece una parte della popolazione, che viene selezionata per l’analisi. Una popolazione può essere finita o infinita, Per popolazioni finite si fa riferimento alla distribuzione effettiva dei valori, detta distribuzione di frequenza; per popolazioni infinite alla corrispondente distribuzione di probabilità o densità di probabilità. Quindi per popolazione si intende una popolazione i cui elementi hanno una distribuzione o densità di probabilità. Uno degli aspetti principali della statistica inferenziale consiste nel trarre delle conclusioni sui parametri di una popolazione utilizzando i corrispondenti valori campionari. La necessità di ricorrere ai metodi della statistica inferenziale deriva dalla necessità del campionamento: se la popolazione è infinita, è impossibile osservarne tutti i valori, ma anche quando è finita, questo può essere non pratico o antieconomico. Le ragioni per cui la ricerca viene effettuata per campione, piuttosto che attraverso una rilevazione totale, sono principalmente le seguenti:  l’estrazione di un campione richiede meno tempo rispetto all’esame dell’intera popolazione;  un campione è meno costoso;  un campione è più pratico da gestire;  a volte l’esame dell’intera popolazione è impossibile. Si usa perciò un campione e si traggono da esso, ossia si inferiscono, risultati riguardanti l’intera popolazione. La teoria dei campioni è lo studio delle relazioni esistenti tra una popolazione ed i campioni estratti da essa. Tale teoria si applica ad esempio per ottenere la stima dei parametri ignoti di una popolazione, come la media μ o la varianza σ2 o anche per stabilire se ad esempio le differenze osservate tra due campioni possono essere dovute al caso o se sono significative: le risposte a questo tipo di quesito implicano l’uso dei test di ipotesi. Campionamento L’inferenza ha come premessa la definizione del campionamento ovvero l’estrazione di campioni casuali da una popolazione di interesse. La più semplice tecnica di selezione di un campione è il campionamento casuale semplice, Nel campionamento casuale semplice si indica con n la dimensione del campione, ossia il numero di elementi del campione, e con N la dimensione della popolazione, ossia il numero di elementi della popolazione. La selezione del campione può essere fatta in due modi: - con reimmissione (ovvero reintroducendo idealmente gli individui già estratti); - senza reimmissione (in caso contrario). Dalla popolazione si estrae un campione “n”, dove troviamo mi e sigma al quadrato che sono i PARAMETRI della popolazione , sono valori non noti ma fissi e vanno stimati attraverso un indagine campionaria. Teoria della Stima Statistica Con il campionamento casuale possiamo ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. E’ però più interessante trarre conclusioni sull’intera popolazione utilizzando i risultati ottenuti su campioni estratti da essa. Questi sono i problemi di cui si occupa l’inferenza statistica. I metodi della statistica inferenziale riguardano essenzialmente due aree: la stima dei parametri e i test di ipotesi. Stima dei parametri e stimatori Si definisce stima dei parametri (della popolazione) il procedimento col quale si arriva a determinare approssimativamente (con probabilità di errore α) i valori dei suddetti parametri in base ai dati campionari. I parametri della popolazione che più frequentemente accade di dover stimare sono: classica la probabilità è stabilita a priori, mentre nella concezione frequentistica è ricavata a posteriori. 3. Soggettivistica, è la misura del grado di fiducia che una persona, in base alle informazioni in suo possesso e alla sua opinione, segna il verificarsi dell’evento. Aldilà delle diverse interpretazioni della probabilità, è possibile costruire una teoria che dica come costruire i modelli probabilistici ed analizzarne le implicazioni. La definizione assiomatica di probabilità ha definito tre assiomi dai quali sono ricavabili alcune proprietà: La probabilità che un evento si verifichi è compresa tra zero e uno, se la probabilità che l’evento si verifichi è zero allora l’evento è impossibile, se la probabilità che l’evento si verifichi è uguale ad uno allora l’evento certo. Omega è uno spazio campionario che al suo interno comprende uno o più eventi. Una probabilità è una funzione a valori reali che viene definita sugli eventi e tale che: un evento ha sempre una probabilità maggiore o uguale a zero e la somma delle probabilità di tutti gli eventi e 1. Esiste però una classificazione degli eventi: due più eventi si dicono incompatibili quando il verificarsi di uno esclude gli altri. Due o più eventi si dicono compatibili quando il verificarsi di uno non esclude il verificarsi degli altri. Nell’ambito degli eventi compatibili si distinguono eventi indipendenti ed eventi dipendenti: due o più eventi si dicono indipendenti quando il verificarsi di uno non modifica la probabilità di verificarsi degli altri. Due o più eventi si dicono dipendenti quando il verificarsi di una modifica la probabilità di verificarsi degli altri. Possiamo parlare anche di probabilità totale, si parla di probabilità totale di due o più eventi quando si vuole calcolare la probabilità che si verifichi almeno uno degli eventi, nel caso degli eventi incompatibili la probabilità che si verifichi almeno un evento tra A e B è uguale alla probabilità che si verifichi A più la probabilità che si verifichi B. Nel caso degli eventi compatibili la probabilità che si verifichi A o B è uguale alla probabilità che si verifichi A più la probabilità che si verifichi B meno la probabilità che si verifichino sia A che B. Si parla anche di probabilità composta, quando di due o più eventi si vuole calcolare la probabilità che si vadano a verificare tutti gli eventi contemporaneamente. Se gli eventi sono incompatibili questa probabilità è zero. Se gli eventi sono compatibili la probabilità cambia a seconda che gli eventi siano indipendenti o dipendenti; se sono indipendenti la probabilità che si vadano a verificare l’evento A e l’evento B è uguale alla probabilità che si verifichi A per la probabilità che si verifichi B. Nel caso di EVENTI dipendenti la probabilità che si verifichi A e la probabilità che si verifichi B è uguale alla probabilità che si verifichi A per la probabilità che si verifichi B dato A. Quest’ultimo passaggio viene indicato come probabilità condizionata , è detta così perché la probabilità di due eventi dipendenti è uguale al prodotto della probabilità che si verifichi A per la probabilità condizionata di B al verificarsi di A. Quindi quando parliamo di unione tra eventi, anche detta somma logica, siamo interessati a sapere quando si verifica solo A, solo B, sia A che B. Quando invece parliamo di intersezione tra eventi o prodotto logico siamo interessati a sapere quando si verificano sia a che B. Con l’aumentare delle difficoltà di calcolo viene introdotta la variabile casuale che è una funzione che associa ad ogni evento uno ed un solo numero reale. Una variabile casuale è completamente definita dalla sua distribuzione. La variabile che assume solo valori interi viene detta discreta e se assume solo valori non interi viene detta continua. Ad ogni variabile casuale corrisponde una distribuzione di probabilità, nella quale ogni valore che la variabile assume è associato alla sua probabilità di realizzazione. Nel caso di variabili continue si avrà la funzione di densità. Ogni variabile casuale presenta una media ed una varianza che sono i valori caratteristici. Il valore atteso di una variabile casuale è quel valore che corrisponde alla probabilità più alta, in altre parole è il valore che più probabilmente la variabile dovrebbe assumere, ma che non che assumerà per forza. Le principali variabili si distinguono in discrete e continue. Tra le variabili discrete troviamo la Bernoulliana e la Binomiale. Tra le variabili continue abbiamo la normale, anche detta gaussiana. Distribuzione di probabilità binomiale Una variabile discreta di tipo binomiale può essere utilizzata quando abbiamo prove ripetute, prove indipendenti e prove dall’esito dicotomico. X segue la binomiale con paramento n e p. Per quanto invece riguarda la variabile Bernoulliana, questa è un’altra variabile discreta, si parla di variabile Bernoulliana se abbiamo a che fare con una singola prova dicotomica. X segue una Bernoulliana con parametro 1 e p. Una sequenza di prove Bernoulliane costituisce un processo di Bernoulli. La somma di n variabili bernoulliane indipendenti e con lo stesso parametro p, da origine ad una variabile binomiale con parametri n e p. La variabile aleatoria x che conta il numero successi in n prove viene detta variabile aleatoria binomiale di parametri n e p. Riguardo le variabili continue: abbiamo la normale anche detta di gauss. La più importante è la variabile normale, ed è caratterizzata da una funzione di densità. La X segue la normale con parametri mi e sigma al quadrato. I valori caratteristici sono detti anche media o valore atteso, la varianza e l’ SQM detto anche sigma oppure deviazione standard. Le caratteristiche della curva di gauss sono che è simmetrica, campanulare e assume ogni valore reale. Il punto mi rappresenta moda, media, mediana e anche il punto di massimo della curva. Sigma invece è la distanza tra l’asse ed il punto di flesso della funzione nonchè il punto dove cambia la concavità. A parità di sigma la funzione si sposta verso destra o verso sinistra quando cambia “Mi”. A parità di “mi” la curva diventa più piatta o meno piatta in base alle variazioni di sigma. Ad un sigma maggiore corrisponde una curva più piatta e ad un sigma minore una curva meno piatta. L’aria sottesa alla funzione di densità rappresenta la probabilità. Quando viene chiesto di calcolare un punto preciso si procede con la standardizzazione, si cerca il valore Z, che la variabile normale standardizzata con parametri zero ed uno. TEOREMA DI DE MOIVRE-LAPLACE UNA VARIABILE BINOMIALE PUO’ ESSERE APPROSSIMATA CON UNA VARIABILE NORMALE SE n È SUFFICIENTEMENTE GRANDE (n maggiore uguale di 30). Ma qual è la condizione migliore per effettuare questa approssimazione? La condizione n maggiore uguale di trenta è una condizione necessaria, poi p dovrebbe essere = 0.50, ma se p è diverso da 0.50 allora n x p deve essere maggiore uguale di 5 e anche n x p x q maggiore uguale di 5. Se entrambe le condizioni sono vere, allora ci troviamo nelle condizioni migliori per approssimare, con l’errore più basso possibile. Qui diventa importante inserire la CORREZIONE DI CONTINUITA’: visto che stiamo effettuando un passaggio da una variabile discreta ad una continua, per migliorare l’approssimazione si opera una La stima puntuale si basa su un solo campione e per questo motivo non viene utilizzata poiché la probabilità che il parametro sia uguale alla stima e zero . Poi abbiamo la stima intervallare che va a costruire un intervallo intorno alla stima puntuale . Con riferimento all’intervallo di confidenza basato sulla media abbiamo quattro casi disponibili: Quando sigma al quadrato è nota per valori di N maggiori uguali di 30 e minori 30 e quando sigma al quadrato non è nota per valori di N maggiore uguali di 30 e inferiori a 30. 1 caso: la distribuzione X è incognita ma segue la normale per il teorema del limite centrale. 2 caso : la X va supposta normale , solo così x segnato è normale e l’intervallo si costruirà a partire da Z cioè la variabile normale standardizzata. 3 caso :La X segue una distribuzione incognita, la x segnata segue la normale per il TLC .non essendo nota la varianza utilizziamo la varianza campionaria corretta e si usa la distribuzione t student. 4 caso: in questo caso andiamo a supporre che X normale e x segnato è normale di riflesso e non essendo nota la varianza sigma al quadrato possiamo utilizzare la standardizzazione con t student. Molto importante nell’intervallo è l’errore campionario e le leve che spostano l’errore rendendo l’intervallo più o meno piccolo sono N, alfa e sigma. L’intervallo però può essere applicato anche sulla proporzione ed in questo caso si parlerà di f , Cioè la proporzione campionaria. F seguirà una distribuzione normale per N maggiore uguale di 30 secondo il TLC. Esiste la probabilità di dover calcolare un intervallo inversamente , cioè dato l’errore , trova la n. Nel caso dell’ intervallo sulla media per ottenere N, bisognerà utilizzare la formula inversa dell’errore. Questo caso però può essere utilizzato anche per la proporzione e in questo caso abbiamo due formule , una ufficiale dove la f è nota ed una dove la f non è nota e verrà utilizzato 1/4. Fattori che fanno variare l’intervallo di confidenza : Numerosità del campione : se la n aumenta , l’ampiezza dell intervallo si riduce e diventa più preciso. Tutto ciò ha motivazione matematica : trovandosi la n al denominatore dell’errore campionario , questo viene ridotto con l’aumento della n. La motivazione statistica: allargando il campione la stima diventa più precisa. Il grado di fiducia : se aumenta il grado di fiducia, allora l’intervallo risulta più ampio . La stima e meno precisa ma più affidabile. Variabilità : con l’aumento della variabilità l’intervallo risulta più ampio . Motivazione matematica : l’aumento della variabilità comporta un aumento dell’ Sqm che si trova al numeratore dell’errore e quindi lo rende più grande . Motivazione statistica : la variabilità e sinonimo di dispersione rispetto alla media , più è elevata più l’intervallo e ampio . Regressione lineare semplice La regressione lineare semplice è uno studio causa effetto tra due variabili quantitative. La X, la causa, è detta variabile indipendente o regressore, mentre la Y è la variabile dipendente. Il modello di regressione lineare semplice è una relazione che lega la variabile X e la variabile Y. Y=f(x)+ epsilon La f(x) È la parte sistematica cioè la parte che rappresenta il legame che lega la X alla Y. Epsilon invece è la parte casuale cioè la parte che al suo interno contiene tutto ciò che riguarda la X e che la Y non riesce ad esprimere, e al suo interno contiene altri regressori. La regressione lineare è detta semplice perché va a considerare un solo Regressore. E’ lineare perché si suppone che la parte sistematica sia una funzione lineare (retta) fatta in questo modo: Y= BETA0 + BETA1x + EPSILON Y è la variabile dipendente, EPSILON è la variabile errore e sono variabili STOCASTICHE , cioè seguono una certa distribuzione di probabilità (la normale). Mentre X è la variabile deterministica, ovvero fissata dal ricercatore. Beta zero e beta uno sono parametri: beta zero è il parametro dell’ intercetta: l’intercetta esprime il valore di Y quando la X e zero . Beta uno è il parametro del coefficiente angolare: esprime la variazione di Y a seguito di un incremento unitario di X. Il modello di regressione lineare semplice si regge su delle ipotesi: 1. Ipotesi sulla variabile esplicativa: Y è considerato una variabile casuale, così come l’errore, mentre la variabile indipendente non viene considerata una variabile casuale, poiché la sua modalità viene fissato dal ricercatore. 2. Ipotesi di Linearità 3. Ipotesi di varianza costante : OMOSCHEDASTICITÁ : epsilon segue la normale Per parametri (zero, sigma al quadrato) quindi la media è zero e la varianza è sigma al quadrato. Y segue la normale per dei parametri (beta0 + beta1x ; sigma al quadrato) la media è uguale alla parte sistematica e la varianza è sigma al quadrato. Secondo L’ OMOSCHEDASTICITÀ la varianza non dipende da x , per questo motivo è costante. 4. Ipotesi di indipendenza: gli errori sono variabili, casuali, e indipendenti, di riflesso lo sono anche le Y. 5. Ipotesi di normalità: la variabile casuale è distribuita normalmente. Beta0 e beta1X vanno stimate tramite campione, abbiamo però tre parametri da stimare: beta zero, beta uno, sigma quadrato.i primi due vengono stimati tramite l’ OLS. Beta0 tramite campione e tramite OLS otteniamo B0 e b0 che è la stima dell’intercetta. Beta1 tramite campione e tramite OLS otteniamo B1 e b1 che è la stima del coefficiente angolare. Il sigma quadrato si stima in maniera differente :Sigma al quadrato diventa MSE , cioè l’errore quadratico medio , e mse che è la stima della varianza di Y o di epsilon. L’analisi di regressione ha come obiettivo la stima dei coefficienti di regressione e la varianza della popolazione sulla base di N osservazioni campionarie. una volta estratto il campione, attraverso la tecnica matematica nota come metodo dei minimi quadrati (o LS) si individuano coefficiente angolare ed intercetta della retta dei minimi quadrati che meglio si adatta ai dati disponibili. Il metodo suddetto consiste nel minimizzare la somma dei quadrati dei residui. La retta che si ottiene si può scrivere y= b1x1+b0+e. La retta di regressione Y= y cappelletto + e Y è il valore osservato, Y cappelletto è il valore teorico ed e è il residuo. la retta di regressione presenta delle proprietà: 1. La retta dei minimi quadrati è l’unica retta che minimizza la somma dei quadrati residui 2. La retta di minimi quadrati passa per il centro di gravità della nube dei punti 3. La retta dei minimi quadrati e tale che la somma dei residui sia zero Il residuo esprime la differenza tra il valore osservato il valore teorico.è positivo se il punto è posto sopra la retta, ed è negativo se posto sotto la retta. I residui hanno delle proprietà: 1. I residui se sommati fanno sempre zero 2. La somma dei residui al quadrato è SSE( la devianza residua) Come si stima la varianza del modello sigma al quadrato? Con il campionamento casuale possiamo ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. E’ però più interessante trarre conclusioni sull’intera popolazione utilizzando i risultati ottenuti su campioni estratti da essa. Questi sono i problemi di cui si occupa l’inferenza statistica. I metodi della statistica inferenziale riguardano essenzialmente due aree: la stima dei parametri e i test di ipotesi. Stima dei parametri e stimatori Si definisce stima dei parametri (della popolazione) il procedimento col quale si arriva a determinare approssimativamente (con probabilità di errore α) i valori dei suddetti parametri in base ai dati campionari. I parametri della popolazione che più frequentemente accade di dover stimare sono:  la media µ di una popolazione;  la varianza σ2 di una popolazione;  la proporzione p di individui di una popolazione che appartengono a una certa classe di interesse; Ragionevoli stimatori campionari di questi parametri sono:  per µ, la media campionaria  per σ2 , la varianza campionaria  per p, la proporzione campionaria f = x/n dove x è il numero di individui in un campione di ampiezza n appartenenti alla classe di interesse. Il primo passo verso il parametro è il campionamento, si sceglie un campione casuale e semplice : x1, x2….xn Queste variabili formano un campione e sono indipendenti e identicamente distribuite. Il secondo passo è definire uno stimatore( statistica campionaria) E’ una funzione delle variabili estratte ed esso stesso è una variabile , ed essendo una variabile ha una media E(T) e una varianza V(T). Il terzo passo è la stima , dove andrò ad applicare lo stimatore (T) ad un parametro per ottenere la stima. Proprietà degli stimatori Come si sceglie lo stimatore giusto per un certo parametro θ della popolazione? Per esempio se si vuole stimare la media di una popolazione µ, si potrebbe in linea teorica usare anche la mediana campionaria o magari la media fra il più piccolo e il più grande fra i valori del campione. Per decidere quale fra i possibili stimatori è preferibile usare ci basiamo sulla verifica di alcune proprietà che gli stimatori devono possedere per essere giudicati i più adatti. Innanzitutto lo stimatore deve essere analogico, deve cioè avere lo stesso significato del parametro incognito della popolazione che deve stimare (in altri termini per stimare la proporzione p non devo utilizzare la media campionaria ma la proporzione campionaria che ha lo stesso significato) Gli stimatori hanno delle proprietà , che sono : CORRETTEZZA, EFFICIENZA, SUFFICIENZA, PROPRIETA’ ASINTOTICHE. Uno stimatore è corretto se la sua media è pari al parametro che esso stima , lo stimatore può essere corretto o distorto. La distorsione è pari alla sua media meno il parametro che stima . Quando parliamo di efficienza, dobbiamo introdurre l’EQM, cioè l’errore quadratico medio, lo stimatore più efficiente è quello con l’EQM minore. L’eqm non è presente se lo stimatore è corretto, e tra due stimatori corretti si sceglie quello con varianza minore. L’efficienza è relativa. Ma esiste il concetto di efficienza assoluta? Si . Se uno stimatore è corretto ,esso si dice efficace in senso assoluto se la sua varianza è pari all’estremo di CRAMER RAO. La sufficienza Uno stimatore T è una variabile casuale che condensa le n variabili casuali (X1, X2 , … , Xn) in una sola. Si vuole verificare se tale condensazione comporta una perdita di informazione dovuta alla riduzione delle variabili (da n a una). Se tale perdita di informazione è trascurabile, lo stimatore viene detto sufficiente per il parametro θ ed esso sintetizza tutte le informazioni disponibili nel campione intorno a θ. ASINTOTICHE: Efficienza correttezza e sufficienza sono proprietà esatte, si basano su un numero finito. TEOREMA LIMITE CENTRALE SIANO X1, X2 ED XN, N VARIABILI ESTRATTE DA UNA POPOLAZIONE DI FORMA INCOGNITA, SE LA N E’ SUFFICIENTEMENTE GRANDE , LA SOMMA DI TALI VARIABILI SEGUE APPROSSIMATAMENTE UNA DISTRIBUZIONE NORMALE. X SEGUE LA NORMALE PER PARAMETRI MI E SIGMA QUADRO FRATTO N LE RELAZIONI STATISTICHE La ricerca dell’esistenza di relazioni statistiche tra i caratteri presuppone la conoscenza di una distribuzione doppia (bivariata). A seconda del tipo di caratteri, una distribuzione congiunta si può classificare in tre modi: 4. tabella di contingenza (entrambi i caratteri sono qualitativi) 5. tabella mista (un carattere qualitativo, l’altro quantitativo) 6. tabella di correlazione (entrambi i caratteri sono quantitativi) ù Dipendenza statistica o assoluta Esistenza di un legame reciproco tra i caratteri in esame. I caratteri hanno lo stesso ruolo (simmetrico). Non è possibile stabilire un criterio di antecedenza logica per alcuno dei fenomeni. L’esistenza dell’indipendenza assoluta comporta l’inesistenza di ogni altro tipo di relazione statistica (dipendenza). Quando le frequenze teoriche (cioè quelle che teoricamente dovrebbero occupare le celle in presenza di indipendenza assoluta) sono uguali alle frequenze osservate (cioè quelle che in realtà occupano le celle) si parla di indipendenza assoluta. In caso contrario, le variabili sono connesse e la forza del legame viene misurata con gli indici di connessione (scalari sempre non negativi) tra i quali il più utilizzato è il chiquadrato. Quest’ultimo assume valore zero in caso di indipendenza e maggiore di zero in presenza di connessione tra le due variabili. 𝜒2 = ∑ ∑ ( 𝑛𝑖𝑗−𝓃𝑖𝑗)2 𝓃𝑖𝑗 𝑐 𝑗=1 𝑟 𝑖=1 0 ≤ 𝜒2 ≤ 𝑁 ∙ 𝑚𝑖𝑛[(𝑟 − 1), (𝑐 − 1)] Più le frequenze osservate si allontanano dalle frequenze teoriche più è elevato il grado di connessione tra le variabili. Il massimo valore dell’indice viene assunto quando esiste una relazione biunivoca tra i caratteri (ad ogni modalità di un carattere corrisponde una e una sola modalità dell’altro), Gli altri indici di connessione sono: Indice di contingenza quadratica media (K.Pearson): 𝜙2 = 𝜒2 𝑁 = ∑ ∑ 𝑛𝑖𝑗 2 𝑛𝑖𝑛𝑗 − 1𝑐 𝑗=1 𝑟 𝑖=1 0 ≤ 𝜙2 ≤ 𝑚𝑖𝑛[(𝑟 − 1), (𝑐 − 1)] Indice medio di contingenza (Cramer) 𝜙2 = 𝜙2 𝑀𝑖𝑛(𝑟−1,𝑐−1) 0 ≤ 𝜙2 ≤ 1 Indipendenza in media Indipendenza statistica Indipendenza in mediaIndipendenza correlativa Non vale però il viceversa: indipendenza correlativa⇏indipendenza in media⇏indipendenza statistica. Quindi nelle distribuzioni doppie vogliamo andare ad individuare l’associazione tra caratteri: dipendenza assoluta= due caratteri qualitativi dipendenza in media= 1 carattere qualitativo/quantitativo dipendenza lineare= 2 caratteri quantitativi STATISTICA DESCRITTIVA  Calcolo indici e rappresentazioni grafiche  DISTRIBUZIONI SINGOLE: Singola no frequenze no classi (D1) Singola si frequenze no classi (D2) Singola si frequenze si classi (D3)  Verifica relazioni tra due caratteri DISTRIBUZIONI DOPPIE: Doppia unitaria, senza frequenze Doppia congiunta, con frequenze UNITA’ STATISTICHE: Ognuno degli individui appartenenti ad una popolazione o ad un campione di riferimento oggetto di indagine statistica. CARATTERE: Per carattere si intende una variabile (età, sesso, professione) rilevato su una o più unità statistiche appartenenti a una popolazione o un campione di riferimento come esito di un’indagine. MODALITA’: Per modalità di un carattere si intende uno dei suoi possibili valori (numerali o letterali). Ad esempio dato il carattere colore occhi, alcune modalità sono azzurro, marrone, verde. DISTRIBUZIONE: Insieme di dati rilevati su un collettivo statistico relativamente a un carattere (distribuzione singola) o a più caratteri ( distribuzione doppia, tripla). La statistica descrittiva studia diversi indici statistici:  indici di posizione/di sintesi/di tendenza centrale,  indici di variabilità,  indici di forma INDICE STATISTICO: un indice statistico (o indicatore statistico) è una funzione di un insieme finito o infinito di valori e viene calcolato allo scopo di descrivere la distribuzione. Prima di descrivere gli indici statistici bisogna attuare una classificazione dei caratteri. Su ogni unità statistica si rilevano una o più informazioni di interesse (caratteri). Il modo in cui un carattere si manifesta in un’unità statistica è detto modalità. Esistono varie tipologie di caratteri: 3. CARATTERI QUALITATIVI (espressi con parole o lettere) O MUTABILI  Sconnessi: hanno per modalità denominazioni qualitative tra le quali non esiste (e non è possibile stabilire) un ordinamento. Es.: maschio e femmina;  Ordinati: hanno per modalità denominazioni qualitative tra le quali esiste un ordinamento naturale implicito. Es.: grado di istruzione; 4. CARATTERI QUANTITATIVI (espressi con numeri) O VARIABILI  Discreti: le modalità sono i numeri interi: 0,1,2… Es.: numero dei figli;  Continui: le modalità sono (teoricamente) tutti i numeri reali compresi in un determinato intervallo. Es.: altezza e peso; Esercizio: numero di addetti in un’azienda  discreti religione  sconnessi altezza  continui reddito  ordinati Medie statistiche:  Media Aritmetica Le proprietà della media aritmetica sono: 5. L’INTERNALITA’: la media è sempre un valore interno alla distribuzione; 6. OMOGENEITA’: se si moltiplica ciascun termine della distribuzione per un valore k la nuova media si ottiene moltiplicando la nuova media per k. 7. TRASLATIVITA’: se a ciascun termine della distribuzione si somma un valore k la nuova media si ottiene sommando alla vecchia media lo stesso valore k. 8. ASSOCIATIVITA’: la media aritmetica delle medie di due gruppi fornisce la media aritmetica di tutto il collettivo. La somma algebrica degli scostamenti di ciascun termine della distribuzione dalla media è pari a zero. La somma algebrica dei quadrati degli scostamenti di ciascun termine della distribuzione dalla media è un minimo.  Media Geometrica (Mg): si utilizza la media geometrica quando ha senso moltiplicare fra loro i dati statistici. Si deve calcolare la media geometrica , e non la media aritmetica, ad esempio, per determinare il tasso di incremento medio o di decremento di prezzi, o il tasso di accrescimento di una popolazione.  Media Armonica (Mh): la media armonica, semplice o ponderata, è uguale al reciproco della media aritmetica, semplice o ponderata, dei reciproci. La media armonica si applica quando ha senso calcolare il reciproco dei dati.  Media Quadratica (M2): fra le medie considerate, la media quadratica è quella che ha valore maggiore ed è la più influenzata dai valori molto piccoli o molto grandi della distribuzione, la media quadratica è perciò utilizzata per mettere in evidenza l’esistenza di valori che si scostano molto dai valori centrali. Relazione tra le medie: x1<= Mh<=Mg<=M<=M2<=xn GLI INDICI STATISTICI sono:  Media aritmetica (M oppure x): è quel valore numerico che, sostituito a tutti i numeri presenti, in distribuzione non altera la loro somma; DELTA= 28+28/ 5(5-1)= 2.8 2.8 è la differenza media tra i cinque valori della distribuzione La media è =6 , quindi delta è 12, e 2.8 su 12 è un valore basso, quindi la variabilità è bassa. Nella differenza semplice media CON RIPETIZIONE , la differenza sta nella formula del delta, al denominatore la n è al quadrato. INDICI DI VARIABILITA’ RELATIVI: Coefficiente i variazione CV= SQM/ Media Quando si utilizza il coefficiente di variazione? Il CV si utilizza quando è richiesto un confronto di variabilità tra due distribuzioni. Qual è la distribuzione più variabile? Quella con il CV maggiore. INDICE DI ETEROGENEITA’ DI GINI: IE Si può applicare ANCHE per i caratteri qualitativi ed è l’unico indice a poterlo fare. Si calcola l’IE, successivamente l’IE MAX e dopo l’IE NORMALIZZATO, questo è compreso tra 0 e 1 . Se l’IE N è 0 abbiamo omogeneità massima, mentre se è 1 abbiamo massima eterogeneità. RAPPORTO DI CONCENTRAZIONE DI GINI 0 ≤ 𝑅 ≤ 1 R=0 equidistribuzione o concentrazione nulla ( 20,20,20) 3 5 6 7 9 3 0 2 3 4 6 5 0 1 2 4 6 0 1 3 7 0 2 9 0 R=1 concentrazione massima ( 100,0,0) i xi Ai Pi i/n Qi Ai/tot Pi-qi 1 7 7 1/6 7/89 1/6-7/89 2 7 14 2/6 14/89 2/6-14/89 3 10 24 3/6 24/89 3/6-24/89 4 20 44 4/6 44/89 4/6-44/89 5 21 65 5/6 65/89 5/6-65/89 6 24 89 1 1 89 tot 𝑅 = ∑ (𝑝𝑖 − 𝑞𝑖)𝑛−1 𝑖−1 ∑ 𝑝𝑖𝑛−1 𝑖=1 Il rapporto di Gini si può rappresentare con la curva di Lorenz. La relazione tra il rapporto di Gini e la differenza semplice media R= DELTA/DELTA MAX INDICI DI FORMA Gli indici di forma si dividono in: INDICI DI ASIMMETRIA e INDICI DI CURTOSI (rari), tra gli indici di asimmetria troviamo β e ASN. Il concetto di simmetria/asimmetria di una distribuzione Asimmetria positiva: maggiore addensamento in corrispondenza con i valori più bassi, il ramo destro è più allungato di quello sinistro. 𝛽 𝑒 𝐴𝑆𝑁 > 0 𝑀𝑜 < 𝑀𝑒 < 𝑀 Asimmetria negativa: maggiore addensamento in corrispondenza con i valori più alti, il ramo sinistro è più allungato di quello destro. 𝛽 𝑒 𝐴𝑆𝑁 < 0 𝑀 < 𝑀𝑒 < 𝑀𝑜 (se β e ASN sono pari a 0, non è detto che vi sia asimmetria) Simmetria: Moda=Mediana=Media 𝛽 𝑒 𝐴𝑆𝑁 = 0 Esempio: la seguente tabella riporta la quantità di biscotti in kg ed il numero di dipendenti di un campione di 6 filiali di un’azienda casertana. Bisc in kg 13 23 19 18 9 22 n.dipendenti 11 108 9 10 11 15 C) Calcolare moda, media e mediana per num.dipendenti e commentare D) Calcolare un indice di asimmetria per la variabile num. Dipendenti A: 9, 10,11,11,15,108 Moda: 11 Mediana: 11 Media aritmetica: 27.33 La distribuzione non è simmetrica in quanto media, moda e mediana non hanno lo stesso valore. Essendo la media il valore maggiore, c’è asimmetria positiva ( un maggiore addensamento sui valori maggiori) B: 𝐴𝑆𝑁 = 𝑄1+𝑄3−2∙𝑀𝑒 𝑄3−𝑄1 -1≤ASN≤1 Me=11,Q1=10, Q3=15 ASN= 10+15-2X11/ 15-10 = 0.6 ASN>0 = ASIMMETRIA POSITIVA BETA=….= >0 = ASIMMETRIA POSITIVA <0 = ASIMMETRIA NEGATIVA =0 = SINTOMO DI SIMMETRIA GRAFICI PER CARATTERI Istruzioni per la costruzione del baffo sinistro: inizia sul valore più grande tra x min ed il limite inferiore. Istruzioni per la costruzione del baffo destro: finisce sul valore più piccolo tra x max ed il limite superiore. Se i baffi finiscono ed iniziano rispettivamente sul x max ed x min , allora i limiti non servono, ma se i limiti dovessero essere utilizzati e quindi se i valori più grandi e più piccoli appartenessero ai limiti, l’x max e l’ x min andrebbero comunque rappresentati con degli asterischi. Sono presenti degli outliers nel box plot? Per outliers si intendono dei valori che all’interno della distribuzione si distinguono per essere o molto più grandi o molto più piccoli da tutti gli altri valori. C’è una correlazione tra l’asimmetria e la scatola del box plot ASN>0 ASIMMETRIA POSITIVA ASN<0 ASIMMETRIA NEGATIVA ASN=0 SINTOMO DI SIMMETRIA La larghezza della scatola ci fornisce un’idea della variabilità, ad una maggiore larghezza corrisponde una maggiore variabilità ed ad una larghezza minore corrisponde una minore variabilità , questo perché la larghezza della scatola è data da: larghezza scatola= Q3-Q1. Grafico per la rappresentazione di una distribuzione unitaria: DIAGRAMMA DI DISPERSIONE, SCATTER PLOT. 0 2 4 6 8 10 12 0 0.5 1 1.5 2 2.5 3 3.5 Sull’asse delle x si trova la variabile dipendente, e sull’asse delle y troviamo la variabile dipendente. Posizionando il reddito di tre famiglie su x e i giorni di vacanza su y, notiamo che con l’aumentare del reddito aumentano anche i giorni di vacanza. LE RELAZIONI STATISTICHE La ricerca dell’esistenza di relazioni statistiche tra i caratteri presuppone la conoscenza di una distribuzione doppia (bivariata). A seconda del tipo di caratteri, una distribuzione congiunta si può classificare in tre modi: 7. tabella di contingenza (entrambi i caratteri sono qualitativi) 8. tabella mista (un carattere qualitativo, l’altro quantitativo) 9. tabella di correlazione (entrambi i caratteri sono quantitativi) ù Dipendenza statistica o assoluta Esistenza di un legame reciproco tra i caratteri in esame. I caratteri hanno lo stesso ruolo (simmetrico). Non è possibile stabilire un criterio di antecedenza logica per alcuno dei fenomeni. L’esistenza dell’indipendenza assoluta comporta l’inesistenza di ogni altro tipo di relazione statistica (dipendenza). Quando le frequenze teoriche (cioè quelle che teoricamente dovrebbero occupare le celle in presenza di indipendenza assoluta) sono uguali alle frequenze osservate (cioè quelle che in realtà occupano le celle) si parla di indipendenza assoluta. In caso contrario, le variabili sono connesse e la forza del legame viene misurata con gli indici di connessione (scalari sempre non negativi) tra i quali il più utilizzato è il chiquadrato. Quest’ultimo assume valore zero in caso di indipendenza e maggiore di zero in presenza di connessione tra le due variabili. 𝜒2 = ∑ ∑ ( 𝑛𝑖𝑗−𝓃𝑖𝑗)2 𝓃𝑖𝑗 𝑐 𝑗=1 𝑟 𝑖=1 0 ≤ 𝜒2 ≤ 𝑁 ∙ 𝑚𝑖𝑛[(𝑟 − 1), (𝑐 − 1)] Più le frequenze osservate si allontanano dalle frequenze teoriche più è elevato il grado di connessione tra le variabili. Il massimo valore dell’indice viene assunto quando esiste una relazione biunivoca tra i caratteri (ad ogni modalità di un carattere corrisponde una e una sola modalità dell’altro), Gli altri indici di connessione sono: Indice di contingenza quadratica media (K.Pearson): 𝜙2 = 𝜒2 𝑁 = ∑ ∑ 𝑛𝑖𝑗 2 𝑛𝑖𝑛𝑗 − 1𝑐 𝑗=1 𝑟 𝑖=1 0 ≤ 𝜙2 ≤ 𝑚𝑖𝑛[(𝑟 − 1), (𝑐 − 1)] Indice medio di contingenza (Cramer) 𝜙2 = 𝜙2 𝑀𝑖𝑛(𝑟−1,𝑐−1) 0 ≤ 𝜙2 ≤ 1 Indipendenza in media Si supponga di avere una distribuzione doppia di una variabile Y quantitativa e di una variabile X che può essere sia quantitativa che qualitativa e di voler misurare quanto Y dipenda in media da X. Y è indipendente in media da X se ogni distribuzione parziale della Y ha la stessa media. 𝑦1 = 𝑦2 = ⋯ 𝑦1 = ⋯ 𝑦𝑟 Stesso discorso è ripetibile nel caso X quantitativa e Y qualitativa. La dipendenza in media viene misurata dal rapporto di correlazione (indice eta quadrato) che è anche uguale al rapporto tra devianza esterna dev(B) e devianza totale dev(Y). 𝜂𝑌𝑋 2 = ∑(𝑦𝑖−𝑦)2𝑛𝑖 ∑(𝑦𝑖−𝑦)2 𝑛𝑗 = 𝐷𝑒𝑣(𝐵) 𝐷𝑒𝑣(𝑌) Il rapporto di correlazione varia tra zero (indipendenza in media) a 1 (massima dipendenza in media). 0 ≤ 𝜂𝑌𝑋 2 ≤ 1 Se entrambi le variabili sono quantitative possono essere calcolati due rapporti di correlazione. In generale: 𝜂𝑋𝑌 2 ≠ 𝜂𝑋𝑌 2 La devianza “Between” descrive la variabilità “tra” i gruppi, ossia la variabilità delle medie parziali di Y rispetto alla media generale. La devianza “Within” descrive la variabilità “interna” ai gruppi, ossia la somma delle variabilità della Y in ciascun gruppo. Quanto più i gruppi sono ben discriminati tanto maggiore è la componente di variabilità esterna rispetto a quella interna. Ciò implica che la variabile X “spiega” il comportamento della Y. Indipendenza lineare o correlativa nij=frequenze osservate , nij*= frequenze teoriche 𝜒2 = ∑ ∑ (𝑛𝑖𝑗 − 𝑛𝑖𝑗∗)2 𝑛𝑖𝑗∗ Formula per calcolare frequenze teoriche: 𝑛𝑖𝑗∗ = 𝑛𝑖. ∙ 𝑛.𝑗 𝑛𝑖𝑗 Tabella frequenze teoriche calcolate: 5 10 5 7.5 15 7.5 7.5 17 7.5 𝜒2 = ⋯ = 14,67 n*min(r-1),(c-1) = 80*min(3-1),(3-1)= 80*min(2,2)=80*2=160 Quindi, chi quadro è un valore basso , essendo il range da 0 a 160, ciò indica la scarsa correlazione. In merito agli indici di connessione, tra questi troviamo il 𝜒2 , il 𝜙2 = 𝜒2 𝑛 , e l’indice di cramer, 𝜑2 = 𝜙2 min ( 𝑟−1;𝑐−1) 0 ≤ 𝜑2 ≤ 1 questo parametro viene introdotto in quanto ci consente una lettura rapida del risultato. CASI ESTREMI : 𝑆𝑒 𝜒2 = 0 𝑜 𝑆𝑒 𝜒2 = 𝑀𝐴𝑋 Il Chi quadrato è zero, se le frequenze osservate sono uguali alle teoriche : 𝑛𝑖𝑗 = 𝑛𝑖∗𝑗 10 20 30 5 10 15 20 40 60 In questo caso si ha indipendenza assoluta, le righe e le colonne sono proporzionali quindi il 𝜒2 = 0 𝑒𝑑 𝑖𝑙 𝜑2 = 0. Il caso di dipendenza assoluta massima, phi quadro=1 e chi quadrato =max, si ha quando in ogni riga o colonna c’è un solo elemento diverso da zero. 10 0 0 0 20 0 0 0 30 Il chi quadrato è un indice che serve a misurare l’interdipendenza tra 2 caratteri qualitativi (no rapporto di causa effetto). LA DIPENDENZA IN MEDIA: X(Causa)Y (Effetto) , la x è il carattere qualitativo e la Y è sempre il carattere quantitativo. 𝜂2 (eta quadrato) : rapporto di correlazione Es: causa= provenienza geografica, effetto= voto maturità 1 gruppo: NORD : n=20 e Media=80 e Devianza nord=150 2 gruppo: CENTRO: n=10 e Media=90 e Devianza centro=200 3 gruppo: SUD: n=30 e Media=100 e Devianza sud=300 Il rapporto di correlazione si ottiene dalla scomposizione della devianza del voto. Dev(totale)= Dev (B)+ Dev (W) Devianza Between= la devianza tra i gruppi ; Devianza Within= la devianza nei gruppi. Dev (W)= 150+200+300=650 Media italia= 80x20+90x10+100x30 / 60 = 91.67 Dev(B)=(80-91.67)2X20 + (90-91.67)2X10 +(100-91.67)2X30= Dev(B)=4833 Dev(T)=4833+650=5483 𝜂2 = 𝐷𝑒𝑣(𝐵) 𝐷𝑒𝑣(𝑇) = 0.88 0 ≤ 𝜂2 ≤ 1 La dipendenza in media del voto dalla provenienza geografica è alta. CASO ESTREMO: 𝜂2 = 0, Dipendenza in media nulla. Nord: 20,60,80 , media=70 Centro: 80,60 , media=70 Sud: 100, 60,80 , media =70 𝑑𝑒𝑣(𝑇) = 𝑑𝑒𝑣(𝑤) + 𝑑𝑒𝑣(𝑏) Dev(b)=0 non c’è variabilità del voto tra i gruppi, ma solo NEI gruppi , dev(w). 𝜂2 = 𝑑𝑒𝑣(𝑏) 𝑑𝑒𝑣(𝑡) = 0 𝑑𝑒𝑣(𝑡) = 0 Carattere totalmente indipendente in media dalla dipendenza geografica. 𝜂2 = 1 Dipendenza in media massima Nord: 80,80,80,80 media 80 Centro: 100,100,100 , media 100 Sud: 60,60,60 , media 60 Dev(t)=dev(w)+dev(b) C’è variabilità tra I gruppi, mentre è 0 nei gruppi. Dev(t)= dev(w)+dev(b)=dev(b) 𝜂2 = 𝑑𝑒𝑣(𝑏) 𝑑𝑒𝑣(𝑡) = 1 variabilità massima. Dipendenza lineare Correlazione XY, non c’è causa effetto. r è il coefficiente di correlazione di Pearson. Età Peso 20 70 22 68 24 65 27 80 n=4, media età e peso : media x età=23,25 media y peso= 70,75 devianza(x)=26.75>0 devianza(y)=126.75>0 𝜒2 = 0 → 𝜂2 = 0 → 𝑟 = 0 Il 𝜒2 influenza tuti gli indici, ma non è vero il contrario, r non influenza e nemmeno eta. CARATTEREINDICI Qualitativo-qualitativotabella di connessione,( chi quadrato) Qualitativo-quantitativo  tabella mista ,(eta quadrato) Quantitativo-quantitativotabella di correlazione, (r) INFERENZA L’inferenza studia le relazioni esistenti tra una popolazione di individui ed un campione da essa estratta. Per popolazione si intende oggi un insieme o collezione di oggetti, numeri, misure o osservazioni, che sono oggetto di studio. Per campione si intende invece una parte della popolazione, che viene selezionata per l’analisi. Una popolazione può essere finita o infinita, Per popolazioni finite si fa riferimento alla distribuzione effettiva dei valori, detta distribuzione di frequenza; per popolazioni infinite alla corrispondente distribuzione di probabilità o densità di probabilità. Quindi per popolazione si intende una popolazione i cui elementi hanno una distribuzione o densità di probabilità. Uno degli aspetti principali della statistica inferenziale consiste nel trarre delle conclusioni sui parametri di una popolazione utilizzando i corrispondenti valori campionari. La necessità di ricorrere ai metodi della statistica inferenziale deriva dalla necessità del campionamento: se la popolazione è infinita, è impossibile osservarne tutti i valori, ma anche quando è finita, questo può essere non pratico o antieconomico. Le ragioni per cui la ricerca viene effettuata per campione, piuttosto che attraverso una rilevazione totale, sono principalmente le seguenti:  l’estrazione di un campione richiede meno tempo rispetto all’esame dell’intera popolazione;  un campione è meno costoso;  un campione è più pratico da gestire;  a volte l’esame dell’intera popolazione è impossibile. Si usa perciò un campione e si traggono da esso, ossia si inferiscono, risultati riguardanti l’intera popolazione. La teoria dei campioni è lo studio delle relazioni esistenti tra una popolazione ed i campioni estratti da essa. Tale teoria si applica ad esempio per ottenere la stima dei parametri ignoti di una popolazione, come la media μ o la varianza σ2 o anche per stabilire se ad esempio le differenze osservate tra due campioni possono essere dovute al caso o se sono significative: le risposte a questo tipo di quesito implicano l’uso dei test di ipotesi. Campionamento L’inferenza ha come premessa la definizione del campionamento ovvero l’estrazione di campioni casuali da una popolazione di interesse. La più semplice tecnica di selezione di un campione è il campionamento casuale semplice, Nel campionamento casuale semplice si indica con n la dimensione del campione, ossia il numero di elementi del campione, e con N la dimensione della popolazione, ossia il numero di elementi della popolazione. La selezione del campione può essere fatta in due modi: - con reimmissione (ovvero reintroducendo idealmente gli individui già estratti); - senza reimmissione (in caso contrario). Dalla popolazione si estrae un campione “n”, dove troviamo mi e sigma al quadrato che sono i PARAMETRI della popolazione , sono valori non noti ma fissi e vanno stimati attraverso un indagine campionaria. Teoria della Stima Statistica Con il campionamento casuale possiamo ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. E’ però più interessante trarre conclusioni sull’intera popolazione utilizzando i risultati ottenuti su campioni estratti da essa. Questi sono i problemi di cui si occupa l’inferenza statistica. I metodi della statistica inferenziale riguardano essenzialmente due aree: la stima dei parametri e i test di ipotesi. Stima dei parametri e stimatori Si definisce stima dei parametri (della popolazione) il procedimento col quale si arriva a determinare approssimativamente (con probabilità di errore α) i valori dei suddetti parametri in base ai dati campionari. I parametri della popolazione che più frequentemente accade di dover stimare sono:  la media µ di una popolazione;  la varianza σ2 di una popolazione;  la proporzione p di individui di una popolazione che appartengono a una certa classe di interesse; Ragionevoli stimatori campionari di questi parametri sono:  per µ, la media campionaria  per σ2 , la varianza campionaria  per p, la proporzione campionaria f = x/n dove x è il numero di individui in un campione di ampiezza n appartenenti alla classe di interesse. Il primo passo verso il parametro è il campionamento, si sceglie un campione casuale e semplice : x1, x2….xn Queste variabili formano un campione e sono indipendenti e identicamente distribuite. Il secondo passo è definire uno stimatore( statistica campionaria) E’ una funzione delle variabili estratte ed esso stesso è una variabile , ed essendo una variabile ha una media E(T) e una varianza V(T). Il terzo passo è la stima , dove andrò ad applicare lo stimatore (T) ad un parametro per ottenere la stima. Proprietà degli stimatori Come si sceglie lo stimatore giusto per un certo parametro θ della popolazione? A che serve il valore critico? A definire la Regione critica (o di rifiuto) Errore di prima specie e di seconda specie. (Rifarsi a quello schema con 4 scenari visto a lezione) Qual è l’obiettivo dell’inferenza statistica. (Stimare il valore dei parametri attraverso indagini campionarie) Esempio di parlamentari della popolazione? (Credo parametri. Mi sigma2 p cioè media, varianza e proporzione) Cosa dice la proprietà degli stimatori? (Quale proprietà? Comunque avete la correttezza e l'efficienza spiegate a lezione. Sufficienza e consistenza nel file inf2020) Un esempio di stimatore corretto? (Media campionaria) Come si calcola il valore critico? (Quello standardizzato leggendolo sulle tavole, quello non standardizzato con la formula (vedere penultima lezione)) Perché si parla di efficienza relativa e non assoluta? Qual è la differenza tra efficienza assoluta e relativa? (si parla di efficienza relativa quando si confronta l’eqm di uno stimatore con l’eqm di un altro stimatore, vedi file inf2020) (uno stimatore corretto è invece efficiente in senso assoluto se la sua varianza raggiunge il limite inferiore della disuguaglianza di Cramér Rao)(la differenza è quindi che l’efficienza relativa si definisce tramite un confronto tra le varianze di due stimatori mentre quella assoluta si definisce tramite il confronto tra la varianza di uno stimatore e un livello di riferimento) Varianza dello stimatore media campionaria?(Sigma2/n, vedi lezione 7) Che relazione esiste tra l’errore di prima e seconda specie? (Inversa) C’è un modo per minimizzare contemporaneamente alfa e beta? (Risposta: aumentare la numerosità campionaria) Come si gestiscono l’errore di prima e seconda specie? (Alfa si fissa basso, si cerca di minimizzare Beta) A) considerazioni sulla potenza del test • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando la dimensione campionaria • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando il livello di significatività (ma questa scelta ci espone a maggiori rischi di errore di tipo I) • maggiore è la distanza tra ipotesi alternativa e l’ipotesi nulla, maggiore sarà la potenza del test • minore è la dispersione della variabile, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test • maggiore è l’α prescelto (minore sarà beta), maggiore sarà la potenza del test • maggiore è la dimensione campionaria, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test aggiungo che a parità di alfa i test unilaterali (destro o sinistro) sono sempre piu' potenti di quello bilaterale
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved