Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

statistica descrittiva, appunti e riassunti della teoria, Appunti di Statistica

appunti dettagliati degli argomenti di statistica descrittiva

Tipologia: Appunti

2021/2022
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 09/02/2023

veronica-y0g
veronica-y0g 🇮🇹

5

(3)

2 documenti

Anteprima parziale del testo

Scarica statistica descrittiva, appunti e riassunti della teoria e più Appunti in PDF di Statistica solo su Docsity! STATISTICA IN GENERALE: La statistica riguarda tutte le “operazioni” che rientrano in un processo di indagine finalizzato all’accrescimento della conoscenza. La statistica è la scienza che studia le decisioni in condizioni di incertezza.  La statistica descrittiva raccoglie, sintetizza, elabora, descrive i singoli dati, attraverso metodi numerici, tabellari e grafici, e li trasforma in informazioni.  La statistica inferenziale fornisce le basi che consentono di trasformare le informazioni in conoscenza, ha lo scopo di trarre conclusioni e/o prendere decisioni riguardanti una popolazione sulla base dei soli dati campionari, mediante l’utilizzo di stime e ipotesi. PARTE I: LA STATISTICA DESCRITTIVA 1. Raccogliere i dati: (sondaggio) 2. Presentare i dati: (tabelle e grafici) 3. Sintetizzare i dati: (es. Media campionaria) IDENTIFICARE IL TIPO DI CARATTERE STATISTICO E IL LIVELLO DIMISURAZIONE:  Variabili o caratteri categorici: assumono modalità rappresentate da attributi e non da numeri. ORDINALI: es. Giorni mese, titolo di studio, elementi ordinabili NOMINALI: es. “sì/no” “vero o falso” generano risposte appartenenti a gruppi. o Livelli di misurazione NOMINALE: riferiti ai dati ottenuti dalle domande di tipo categorico. Es. su sesso, cittadinanza ORDINALE: riferiti ai dati ordinati con un ordine gerarchico. Es giudizio sulla qualità del prodotto  Variabili o caratteri numerici : assumono intensità rappresentate da numeri reali DISCRETE: può avere un numero finito di valori, elementi conteggiati. CONTINUE: può assumere un qualsiasi valore all’interno di un intervallo. Es. Peso, altezza o Livelli di misurazione: SCALA DI INTERVALLO: SCALA DI RAPPORTO: RAPPRESENTARE LA GRAFICA DEI CARATTERI STATISTICI Il tipo di grafico da usare per organizzare i dati dipende dalla variabile che si vuole sintetizzare. VARIABILI CATECORICHE:  DISTRIBUZIONI DI FREQUENZE: è una tabella che mostri sia i valori/modalità che possono essere assunti da una variabile sia la frequenza con la quale ogni valore/modalità ricorre all’interno della variabile stessa.  DIAGRAMMA A BARRE: una tabella che mostri sia i valori/modalità che possono essere assunti da una variabile sia la frequenza con la quale ogni valore/modalità ricorre all’interno della variabile stessa.  DIAGRAMMA A TORTA: Un grafico a torta mostra il rapporto tra le parti e un intero per una variabile.  DIAGRAMMA DI PARETO: dati distribuiti in ordine decrescente. Utile nell'evidenziare i “vital few”, ossia i pochi elementi essenziali. I diagrammi di Pareto, che sono dei grafici a barre particolari, spesso includono una curva della percentuale cumulativa. Nelle due assi verticali vengono distribuite le frequenze relative (costituiscono le barre) e le frequenze cumulate (costituiscono la spezzata). VARIABILI NUMERICHE:  GRAFICO PER SERIE STORICHE: viene usato per rappresentare i valori di una variabile nel tempo.  DISTRIBUZIONI DI FREQUENZE: tabelle contenenti classi di intervallo e le corrispondenti frequenze, ciascuna classe ha la stessa ampiezza, che si determina: valore max- valore min/ numero di classi.  ISTOGRAMMA: è il grafico dei dati contenuti in una distribuzione di frequenze, nell’asse verticale viene rappresentata la frequenza (relativa o percentuale) nell’asse orizzontale sono rappresentati gli intervalli con eguale altezza.  OGIVA: rappresenta con una spezzata le frequenze cumulate, cioè la somma delle frequenze relative fino alla i-esima intensità. (classi)  DIAGRAMMA RAMO-FOGLIA: Mostra la forma dei dati e identifica gli outlier. La struttura di questi diagrammi è così composta: il ramo è collocato nella parte sinistra e mostra il primo numero di ogni cifra. A destra è invece presente la foglia, il cui scopo principale è quello di mostrare i numeri rimanenti di ogni cifra. IDENTIFICARE GLI INDICI:  INDICI DI POSIZIONE: misure di tendenza centrale MEDIA MODA MEDIANA misura di tendenza centrale più comune, influenzata da valore esterni (outliers); è il valore che si presenta più frequentemente, può essere utilizzata sia per dati categorici sia per dati numerici. è l’osservazione centrale di un insieme di osservazioni ordinate, presenta il 50% delle osservazioni a destra, il 50% a sinistra, non è influenzata da valori esterni, è un indice più robusto.  QUANTILI: valori che bipartiscono la distribuzione delle intensità/ modalità in due gruppi disgiunti. 1. Q1 primo quartile: la funzione di ripartizione è 0,25, occupa la posizione o,25 x n+1 nella successione ordinata delle intensità 2. Q2 mediana: valore centrale, F= 0,5 3. Q3 terzo quartile: la funzione di ripartizione è 0,75, occupa la posizione 0,75 x n+1 nella successione ordinata della intensità.  INDICI DI VARIABILITA’ INDICE DI ASSIMETRIA DI FISHER INDICE DI CURTOSI Calcola la forma della distribuzione, se AF= 0 forma simmetrica AF > 0 forma di asimmetria positiva AF < 0 forma di asimmetria negativa L'indice di Fisher è compreso tra meno infinito e più infinito. Serve per verificare se una distribuzione unimodale mostra una curva più piatta o più appuntita ad una normale. Se AKF= 0 distribuzione normale, simmetrica Se AKF > 0 distribuzione leptocurtica, più stretta e lunga Se AKF <0 distribuzione platicurtica, più bassa e larga. STUDIARE LE RELAZIONI STATISTICHE TRA DUE O PIU’ CARATTERI  TABELLA A DOPPIA ENTRATA È una tabella a due variabili, categoriche o ordinali, che permette il confronto tra esse. Una tabella a doppia entrata è costituita da un numero arbitrario di righe e di colonne, all'incrocio delle quali ci sono spazi chiamati celle, nel quale si possono inserire i dati. Permette di analizzare la distribuzione congiunta delle due variabili. A destra della tabella troviamo i totali dei valori delle righe mentre in basso il totale dei valori delle colonne, questi valori costituiscono distribuzioni marginali. La somma dei valori totale delle righe = la somma dei valori delle colonne e la somma si trova nell'angolo in basso a destra.  RELAZIONI STATISTICHE PER DISTRIBUZIONI DOPPIE: Le relazioni statistiche per distribuzioni doppie possono essere di tre tipi:  DIPENDENZA O CONNESSIONE: ESISTE UNA RELAZIONE CAUSA EFFETTO TRA DUE CARATTERI. Due variabili X e Y si dicono connesse quando la modalità di un carattere influenzano il manifestarsi dell'altro carattere. ovvero la conoscenza della variabile X ci informa della presenza della variabile Y. Il Chi-quadrato è l'indice che fornisce una misura della dipendenza o indipendenza tra due variabili. Ci dice in altre parole se le modalità di un certo carattere X possono avere un'influenza sulle modalità di un altro carattere Y. Se chi-quadrato è uguale a zero: le variabili sono indipendenti Se chi-quadrato è diverso da zero, non c’è indipendenza. Con l’indice di Phi quadro di Fischer calcoliamo connessione unilaterale di Y da X: per ogni modalità di X esiste solo una modalità di Y con frequenza diversa da 0 (righe > colonne). o se esiste dipendenza bilaterale (n righe = al n delle colonne).  CORRELZIONE O INTERDIPENDENZA: ESISTE UNA RELAZIONE DI DIPENDENZA RECIPROCA TRA DUE CARATTERI QUANTITATIVI. L’indice di correlazione (o coefficiente di correlazione lineare) misura la forza, il grado di relazione lineare tra due variabili (X e Y), ossia l’intensità e la direzione delle due variabili, Si calcola con il coefficiente di Bravis Pearson (p) è un valore compreso tra –1 e +1. Se p = 0 incorrelazione Se p = 1 perfetta correlazione diretta Se p= -1 perfetta correlazione inversa Se –1< p < 0 correlazione inversa Se 0 < p < 1 correlazione diretta Il NUMERATORE di p si denomina covarianza. Esso ci fornisce informazioni su come co variano simultaneamente le due variabili considerate. È un numero compreso tra meno infinito e più infinito. Se cov =0 incorrelazione Se cov> 0 interdipendenza positiva Se cov < 0 interdipendenza negativa  IL SEGNO DI p DIPENDE DALLA COV.  L’INDIPENDENZA IMPILICA L’INCORRELAZIONE, L’INCORRELAIZONE NON IMPILICA NECESSARIAMENTE L’INDIPENDENZA.  DIPENDENZA LINEARE: ESISTE UNA RELAZIONE LINEARE TRA UNA VARIABILE DIPENDENTE E UNA VARIABILE INDIPENDENTE. La relazione lineare è studiata attraverso la stima dei parametri della retta di regressione che esprime la relazione di dipendenza lineare della variabile Y dipendente dalla variabile X indipendente. L'equazione della retta di regressione è y*=β0+β1x in cui β1 misura la pendenza della retta e β0 l’ordinata all’origine. La stima dei valori β0 e β1 è ottenuta con il metodo dei minimi quadrati. Questo procedimento ci permette di selezionare una retta che meglio si adatta all’insieme di punti osservati. La retta che interpola meglio i dati è quella a cui corrisponde la più piccola somma dei quadrati delle differenze tra valori osservati di Y e i valori stimati di X. La variabilità complessiva di Y è composta da due parti: SST= SSR + SSE: la somma dei quadrati totale= somma dei quadrati della regressione + somma dei quadrai degli errori. il coefficiente di determinazione R- quadro è la porzione di variabilità totale della variabile dipendente spiegata dalla variazione della variabile indipendente. R= SSR/SST. È un numero compreso tra 0 e 1. Se R2 = 1 RELAZIONE LINEARE PERFETTA Se 0 <R2< 1 RELAZIONE LINEARE DEBOLE TRA X E Y Se R2=0 NON ESISTE RELAZIONE LINEARE NB: se due caratteri non presentano alcuna relazione si dicono indipendenti. LO STUDIO DELLE PROBABILITA’  LE PROBABILITA’  CONCETTI BASE - INTERSEZIONE DI EVENTI: A ∩ B - EVENTI MUTUAMENTE ESCLUSIVI: se non hanno in comune alcun evento elementare di eventi: A u B - EVENTI COLLETTIVAMENTE ESAUSTIVI: se l’unione di tutti gli eventi compone interamente lo spazio. - EVENTO COMPLEMENTARE: è l’insieme di tutti gli eventi elementari che non appartengono ad A.  La probabilità indica la possibilità che un vento incerto sì manifesti. È sempre compresa tra 0 e 1.  COME CALCOLARE LE PROBABILITA’ - Impostazione classica: ipotizzare che tutti i risultati dello spazio siano ugualmente possibili. La probabilità che un evento si verifichi è uguale al rapporto tra il numero di casi favorevoli al verificarsi di un certo evento e il numero di risultato possibili - Impostazione frequentista: la probabilità è il limite della proporzione di volte (o il limite della frequenza relativa) in cui l’evento A si verifica in un numero elevato di ripetizioni dell’esperimento n. P(A) = Na/N. - Impostazione soggettiva: un’opinione o una credenza individuale circa la probabilità del verificarsi di un certo evento.  OVERINVOLVEMENT RATIO La probabilità dell’evento A1 condizionata dall’evento B1 divisa per la probabilità di A1 condizionata dall’evento B2 viene definita overinvolvement ratio. P (A | B1) / P (A1 | B2). Se OR > 1 implica che l’evento A1 aumenta il rapporto degli odds condizionati in favore di B1.  IL CALCOLO COMBINATORIO Il principio generale di ogni problema di conteggio segue il concetto generale del prodotto cartesiano. Dati due insiemi A e B con na e nb elementi rispettivamente, il prodotto cartesiano AXB che rappresenta tutte le possibili coppie ordinate di elementi (a, b) sarà costituito da na x nb. CARD (A)= na; CARD (B) = nb; CARD (AXB)= na x nb. Es. 20 domande a risposta multipla, vero o falso. 1 domanda card 2 2 domande, card 2^2 20 domande card 2^20 Permutazioni semplici di n oggetti, senza ripetizioni: sono tutti gruppi che si possono formare con tutti gli n elementi tutti diversi fra loro. N! = (n-1) x (n- 2) x (n-...) es. Quanti anagrammi di una parola con quattro lettere distinte si possono ottenere? n= 4, 4! = 24 Permutazioni di n oggetti, con ripetizione: n elementi, in cui un elemento è ripetuto r1 volte, un altro r2 volte... es. Determina gli anagrammi della parola essere; 6! / 2! 3! La parola ha 6 lettere la E si ripete 3 volte, la S si ripete 2 volte. Disposizioni senza ripetizione di n oggetti presi k alla volta (k<n): D n,k = n! /(n-k)! es. (a,b,c,d) quante sono le sequenze di due elementi senza ripetizione? D 4,2 = 4! / (4-2)! =12 Disposizioni con ripetizione di n oggetti presi k alla volta (k<n): Dn =n^k es. (a, b, c); n=3, k=2; 3^2 Combinazioni semplici di n oggetti, senza ripetizione, presi k alla volta (k<n): C n,k = n! / k! (n- k)! es. quante sono le possibili combinazioni del superenalotto? Sono tutte le possibili sequenze di 6 numeri selezionati senza ripetizione tra 90 elementi. C 90,6 = 90! / 6! 84! Combinazioni con ripetizione di n oggetti presi k alla volta (k<n): C r, n, k = (n+ k-1)! / k! (n-1) Permutazioni n! si conk Ph ripetizioni " rile-re! Permutazioni inetizioni? si) Ripetizioni? No Py="n! si si Disposizioni no con lalpr, = n i ripetizioni n Nel formare i co Stat NON,| Disposizioni D,; = ni semplici "| Pak @- kh)! no i Combinazioni |S! Combinazioni M+k-1)! con Cha 3 nk ripetizioni? ripetizioni Ki n- 1! No Coefficiente Binomiale Combinazioni - (mi (ny__ Pl om= = (Za
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved