Scarica statistica descrittiva, appunti e riassunti della teoria e più Appunti in PDF di Statistica solo su Docsity! STATISTICA IN GENERALE: La statistica riguarda tutte le “operazioni” che rientrano in un processo di indagine finalizzato all’accrescimento della conoscenza. La statistica è la scienza che studia le decisioni in condizioni di incertezza. La statistica descrittiva raccoglie, sintetizza, elabora, descrive i singoli dati, attraverso metodi numerici, tabellari e grafici, e li trasforma in informazioni. La statistica inferenziale fornisce le basi che consentono di trasformare le informazioni in conoscenza, ha lo scopo di trarre conclusioni e/o prendere decisioni riguardanti una popolazione sulla base dei soli dati campionari, mediante l’utilizzo di stime e ipotesi. PARTE I: LA STATISTICA DESCRITTIVA 1. Raccogliere i dati: (sondaggio) 2. Presentare i dati: (tabelle e grafici) 3. Sintetizzare i dati: (es. Media campionaria) IDENTIFICARE IL TIPO DI CARATTERE STATISTICO E IL LIVELLO DIMISURAZIONE: Variabili o caratteri categorici: assumono modalità rappresentate da attributi e non da numeri. ORDINALI: es. Giorni mese, titolo di studio, elementi ordinabili NOMINALI: es. “sì/no” “vero o falso” generano risposte appartenenti a gruppi. o Livelli di misurazione NOMINALE: riferiti ai dati ottenuti dalle domande di tipo categorico. Es. su sesso, cittadinanza ORDINALE: riferiti ai dati ordinati con un ordine gerarchico. Es giudizio sulla qualità del prodotto Variabili o caratteri numerici : assumono intensità rappresentate da numeri reali DISCRETE: può avere un numero finito di valori, elementi conteggiati. CONTINUE: può assumere un qualsiasi valore all’interno di un intervallo. Es. Peso, altezza o Livelli di misurazione: SCALA DI INTERVALLO: SCALA DI RAPPORTO: RAPPRESENTARE LA GRAFICA DEI CARATTERI STATISTICI Il tipo di grafico da usare per organizzare i dati dipende dalla variabile che si vuole sintetizzare. VARIABILI CATECORICHE: DISTRIBUZIONI DI FREQUENZE: è una tabella che mostri sia i valori/modalità che possono essere assunti da una variabile sia la frequenza con la quale ogni valore/modalità ricorre all’interno della variabile stessa. DIAGRAMMA A BARRE: una tabella che mostri sia i valori/modalità che possono essere assunti da una variabile sia la frequenza con la quale ogni valore/modalità ricorre all’interno della variabile stessa. DIAGRAMMA A TORTA: Un grafico a torta mostra il rapporto tra le parti e un intero per una variabile. DIAGRAMMA DI PARETO: dati distribuiti in ordine decrescente. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali. I diagrammi di Pareto, che sono dei grafici a barre particolari, spesso includono una curva della percentuale cumulativa. Nelle due assi verticali vengono distribuite le frequenze relative (costituiscono le barre) e le frequenze cumulate (costituiscono la spezzata). VARIABILI NUMERICHE: GRAFICO PER SERIE STORICHE: viene usato per rappresentare i valori di una variabile nel tempo. DISTRIBUZIONI DI FREQUENZE: tabelle contenenti classi di intervallo e le corrispondenti frequenze, ciascuna classe ha la stessa ampiezza, che si determina: valore max- valore min/ numero di classi. ISTOGRAMMA: è il grafico dei dati contenuti in una distribuzione di frequenze, nell’asse verticale viene rappresentata la frequenza (relativa o percentuale) nell’asse orizzontale sono rappresentati gli intervalli con eguale altezza. OGIVA: rappresenta con una spezzata le frequenze cumulate, cioè la somma delle frequenze relative fino alla i-esima intensità. (classi) DIAGRAMMA RAMO-FOGLIA: Mostra la forma dei dati e identifica gli outlier. La struttura di questi diagrammi è così composta: il ramo è collocato nella parte sinistra e mostra il primo numero di ogni cifra. A destra è invece presente la foglia, il cui scopo principale è quello di mostrare i numeri rimanenti di ogni cifra. IDENTIFICARE GLI INDICI: INDICI DI POSIZIONE: misure di tendenza centrale MEDIA MODA MEDIANA misura di tendenza centrale più comune, influenzata da valore esterni (outliers); è il valore che si presenta più frequentemente, può essere utilizzata sia per dati categorici sia per dati numerici. è l’osservazione centrale di un insieme di osservazioni ordinate, presenta il 50% delle osservazioni a destra, il 50% a sinistra, non è influenzata da valori esterni, è un indice più robusto. QUANTILI: valori che bipartiscono la distribuzione delle intensità/ modalità in due gruppi disgiunti. 1. Q1 primo quartile: la funzione di ripartizione è 0,25, occupa la posizione o,25 x n+1 nella successione ordinata delle intensità 2. Q2 mediana: valore centrale, F= 0,5 3. Q3 terzo quartile: la funzione di ripartizione è 0,75, occupa la posizione 0,75 x n+1 nella successione ordinata della intensità. INDICI DI VARIABILITA’ INDICE DI ASSIMETRIA DI FISHER INDICE DI CURTOSI Calcola la forma della distribuzione, se AF= 0 forma simmetrica AF > 0 forma di asimmetria positiva AF < 0 forma di asimmetria negativa L'indice di Fisher è compreso tra meno infinito e più infinito. Serve per verificare se una distribuzione unimodale mostra una curva più piatta o più appuntita ad una normale. Se AKF= 0 distribuzione normale, simmetrica Se AKF > 0 distribuzione leptocurtica, più stretta e lunga Se AKF <0 distribuzione platicurtica, più bassa e larga. STUDIARE LE RELAZIONI STATISTICHE TRA DUE O PIU’ CARATTERI TABELLA A DOPPIA ENTRATA È una tabella a due variabili, categoriche o ordinali, che permette il confronto tra esse. Una tabella a doppia entrata è costituita da un numero arbitrario di righe e di colonne, all'incrocio delle quali ci sono spazi chiamati celle, nel quale si possono inserire i dati. Permette di analizzare la distribuzione congiunta delle due variabili. A destra della tabella troviamo i totali dei valori delle righe mentre in basso il totale dei valori delle colonne, questi valori costituiscono distribuzioni marginali. La somma dei valori totale delle righe = la somma dei valori delle colonne e la somma si trova nell'angolo in basso a destra. RELAZIONI STATISTICHE PER DISTRIBUZIONI DOPPIE: Le relazioni statistiche per distribuzioni doppie possono essere di tre tipi: DIPENDENZA O CONNESSIONE: ESISTE UNA RELAZIONE CAUSA EFFETTO TRA DUE CARATTERI. Due variabili X e Y si dicono connesse quando la modalità di un carattere influenzano il manifestarsi dell'altro carattere. ovvero la conoscenza della variabile X ci informa della presenza della variabile Y. Il Chi-quadrato è l'indice che fornisce una misura della dipendenza o indipendenza tra due variabili. Ci dice in altre parole se le modalità di un certo carattere X possono avere un'influenza sulle modalità di un altro carattere Y. Se chi-quadrato è uguale a zero: le variabili sono indipendenti Se chi-quadrato è diverso da zero, non c’è indipendenza. Con l’indice di Phi quadro di Fischer calcoliamo connessione unilaterale di Y da X: per ogni modalità di X esiste solo una modalità di Y con frequenza diversa da 0 (righe > colonne). o se esiste dipendenza bilaterale (n righe = al n delle colonne). CORRELZIONE O INTERDIPENDENZA: ESISTE UNA RELAZIONE DI DIPENDENZA RECIPROCA TRA DUE CARATTERI QUANTITATIVI. L’indice di correlazione (o coefficiente di correlazione lineare) misura la forza, il grado di relazione lineare tra due variabili (X e Y), ossia l’intensità e la direzione delle due variabili, Si calcola con il coefficiente di Bravis Pearson (p) è un valore compreso tra –1 e +1. Se p = 0 incorrelazione Se p = 1 perfetta correlazione diretta Se p= -1 perfetta correlazione inversa Se –1< p < 0 correlazione inversa Se 0 < p < 1 correlazione diretta Il NUMERATORE di p si denomina covarianza. Esso ci fornisce informazioni su come co variano simultaneamente le due variabili considerate. È un numero compreso tra meno infinito e più infinito. Se cov =0 incorrelazione Se cov> 0 interdipendenza positiva Se cov < 0 interdipendenza negativa IL SEGNO DI p DIPENDE DALLA COV. L’INDIPENDENZA IMPILICA L’INCORRELAZIONE, L’INCORRELAIZONE NON IMPILICA NECESSARIAMENTE L’INDIPENDENZA. DIPENDENZA LINEARE: ESISTE UNA RELAZIONE LINEARE TRA UNA VARIABILE DIPENDENTE E UNA VARIABILE INDIPENDENTE. La relazione lineare è studiata attraverso la stima dei parametri della retta di regressione che esprime la relazione di dipendenza lineare della variabile Y dipendente dalla variabile X indipendente. L'equazione della retta di regressione è y*=β0+β1x in cui β1 misura la pendenza della retta e β0 l’ordinata all’origine. La stima dei valori β0 e β1 è ottenuta con il metodo dei minimi quadrati. Questo procedimento ci permette di selezionare una retta che meglio si adatta all’insieme di punti osservati. La retta che interpola meglio i dati è quella a cui corrisponde la più piccola somma dei quadrati delle differenze tra valori osservati di Y e i valori stimati di X. La variabilità complessiva di Y è composta da due parti: SST= SSR + SSE: la somma dei quadrati totale= somma dei quadrati della regressione + somma dei quadrai degli errori. il coefficiente di determinazione R- quadro è la porzione di variabilità totale della variabile dipendente spiegata dalla variazione della variabile indipendente. R= SSR/SST. È un numero compreso tra 0 e 1. Se R2 = 1 RELAZIONE LINEARE PERFETTA Se 0 <R2< 1 RELAZIONE LINEARE DEBOLE TRA X E Y Se R2=0 NON ESISTE RELAZIONE LINEARE NB: se due caratteri non presentano alcuna relazione si dicono indipendenti. LO STUDIO DELLE PROBABILITA’ LE PROBABILITA’ CONCETTI BASE - INTERSEZIONE DI EVENTI: A ∩ B - EVENTI MUTUAMENTE ESCLUSIVI: se non hanno in comune alcun evento elementare di eventi: A u B - EVENTI COLLETTIVAMENTE ESAUSTIVI: se l’unione di tutti gli eventi compone interamente lo spazio. - EVENTO COMPLEMENTARE: è l’insieme di tutti gli eventi elementari che non appartengono ad A. La probabilità indica la possibilità che un vento incerto sì manifesti. È sempre compresa tra 0 e 1. COME CALCOLARE LE PROBABILITA’ - Impostazione classica: ipotizzare che tutti i risultati dello spazio siano ugualmente possibili. La probabilità che un evento si verifichi è uguale al rapporto tra il numero di casi favorevoli al verificarsi di un certo evento e il numero di risultato possibili - Impostazione frequentista: la probabilità è il limite della proporzione di volte (o il limite della frequenza relativa) in cui l’evento A si verifica in un numero elevato di ripetizioni dell’esperimento n. P(A) = Na/N. - Impostazione soggettiva: un’opinione o una credenza individuale circa la probabilità del verificarsi di un certo evento. OVERINVOLVEMENT RATIO La probabilità dell’evento A1 condizionata dall’evento B1 divisa per la probabilità di A1 condizionata dall’evento B2 viene definita overinvolvement ratio. P (A | B1) / P (A1 | B2). Se OR > 1 implica che l’evento A1 aumenta il rapporto degli odds condizionati in favore di B1. IL CALCOLO COMBINATORIO Il principio generale di ogni problema di conteggio segue il concetto generale del prodotto cartesiano. Dati due insiemi A e B con na e nb elementi rispettivamente, il prodotto cartesiano AXB che rappresenta tutte le possibili coppie ordinate di elementi (a, b) sarà costituito da na x nb. CARD (A)= na; CARD (B) = nb; CARD (AXB)= na x nb. Es. 20 domande a risposta multipla, vero o falso. 1 domanda card 2 2 domande, card 2^2 20 domande card 2^20 Permutazioni semplici di n oggetti, senza ripetizioni: sono tutti gruppi che si possono formare con tutti gli n elementi tutti diversi fra loro. N! = (n-1) x (n- 2) x (n-...) es. Quanti anagrammi di una parola con quattro lettere distinte si possono ottenere? n= 4, 4! = 24 Permutazioni di n oggetti, con ripetizione: n elementi, in cui un elemento è ripetuto r1 volte, un altro r2 volte... es. Determina gli anagrammi della parola essere; 6! / 2! 3! La parola ha 6 lettere la E si ripete 3 volte, la S si ripete 2 volte. Disposizioni senza ripetizione di n oggetti presi k alla volta (k<n): D n,k = n! /(n-k)! es. (a,b,c,d) quante sono le sequenze di due elementi senza ripetizione? D 4,2 = 4! / (4-2)! =12 Disposizioni con ripetizione di n oggetti presi k alla volta (k<n): Dn =n^k es. (a, b, c); n=3, k=2; 3^2 Combinazioni semplici di n oggetti, senza ripetizione, presi k alla volta (k<n): C n,k = n! / k! (n- k)! es. quante sono le possibili combinazioni del superenalotto? Sono tutte le possibili sequenze di 6 numeri selezionati senza ripetizione tra 90 elementi. C 90,6 = 90! / 6! 84! Combinazioni con ripetizione di n oggetti presi k alla volta (k<n): C r, n, k = (n+ k-1)! / k! (n-1)
Permutazioni n!
si conk Ph
ripetizioni " rile-re!
Permutazioni
inetizioni?
si) Ripetizioni?
No Py="n!
si si Disposizioni
no con lalpr, = n
i ripetizioni n
Nel formare i
co
Stat NON,| Disposizioni D,; = ni
semplici "| Pak @- kh)!
no i
Combinazioni |S! Combinazioni M+k-1)!
con Cha 3
nk
ripetizioni? ripetizioni Ki n- 1!
No Coefficiente Binomiale
Combinazioni - (mi (ny__
Pl om= = (Za