Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica Descrittiva / Calcolo Delle Probabilità / Inferenza Statistica, Schemi e mappe concettuali di Statistica

Questo documento Word contiene tutti gli argomenti che si svolgono durante tutto il corso di Statistica, scritti con facilità di leggibilità e comprensione.

Tipologia: Schemi e mappe concettuali

2021/2022

Caricato il 07/06/2022

Utente sconosciuto
Utente sconosciuto 🇮🇹

5

(7)

3 documenti

1 / 16

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Statistica Descrittiva / Calcolo Delle Probabilità / Inferenza Statistica e più Schemi e mappe concettuali in PDF di Statistica solo su Docsity! Statistica (corso del 2° semestre del 1° anno di studi di Economia Aziendale) Statistica Descrittiva Terminologia essenziale  COLLETTIVO STATISTICO (O POPOLAZIONE): Totalità dei casi individuali in cui il fenomeno studiato si manifesta.  UNITA’ STATISTICA: Il caso individuale componente del collettivo statistico oggetto di studio.  CARATTERE: Ogni caratteristica oggetto di rilevazione nelle unità statistiche del collettivo. Esistono due diversi tipi: il carattere quantitativo, le cui modalità sono espresse numericamente, e il carattere qualitativo, le cui modalità sono espresse con parole. Nel primo caso distinguiamo i caratteri quantitativi continui, ovvero quando possono assumere gli infiniti valori di un intervallo reale, dai caratteri quantitativi discreti, quando possono assumere un numero finito di valori o un’infinità numerabile. Esiste poi la distinzione tra qualitativi sconnessi, quando le modalità non hanno un ordine naturale, e qualitativi a modalità, invece, ordinabile.  MODALITA’: I diversi modi in cui si manifesta il carattere nelle unità statistiche del collettivo. Frequenze  (ni) FREQUENZA ASSOLUTA: Il numero di volte in cui si presenta una modalità in una distribuzione di dati.  ( f 1) FREQUENZA RELATIVA: Il rapporto tra la rispettiva frequenza assoluta e il numero totale di unità statistiche.  ( pi) FREQUENZA PERCENTUALE: Il prodotto tra la rispettiva frequenza relativa e 100.  (N i ; Fi ; Pi) FREQUENZA CUMULATA: La somma della frequenza assoluta/relativa/percentuale con tutte le frequenze precedenti. Si chiama densità di frequenza assoluta/relativa/percentuale/cumulata della classe, il rapporto: hi= frequenzadellaclasse d i . Dove d i=ci−c i−1 viene chiamato ampiezza della classe. Il numero di unità comprese tra c i−1 e un generico numero x appartenete alla classe, è dato dalla seguente formula: ni d i (x−c i−1). Funzione di probabilità / Funzione di ripartizione / Istogramma Definizione di distribuzione statica semplice disaggregata (o unitaria) Box-Plot Esso è una rappresentazione grafica, che viene associata a cinque numeri. Si costruisce nel seguente modo: 1. Si traccia un asse orizzontale (chiamata scala del carattere), al di sopra del quale viene disegnato il diagramma. 2. Si disegna un rettangolo (la scatola) che ha il primo e il terzo quartile come estremi della base (cioè pari allo scarto interquartile). L’altezza del rettangolo è arbitraria. 3. Si traccia, all’interno del rettangolo, una linea verticale in corrispondenza della mediana. 4. si tracciano due linee verticali (di altezza uguale o minore all’altezza del rettangolo) in corrispondenza del valore massimo e del valore minimo. Questi due segmenti vengono chiamati “baffi” del Box-Plot. 5. Infine si tracciano due linee orizzontali che collegano i “baffi” al rettangolo. Le utilità che si possono trarre dal Box-Plot sono elencate di seguito:  La mediana riassume la tendenza centrale della distribuzione.  I quartili danno un’indicazione sulla variabilità, perché con essi si calcola lo scarto interquartile (misura più robusta del campo di variazione).  Gli estremi forniscono indicazioni non solo sul valore massimo e valore minimo, ma soprattutto sull’eventuale presenza di dati con caratteristiche anomale (al limite impossibili) dovute ad errori di misura, di trascrizione, ecc…  Il Box-Plot è un’ottima sintesi, ma comunque non dice come si distribuiscono esattamente le osservazioni tra un quartile e un altro. Distribuzioni doppie Le distribuzioni doppie prendono in esame dati riguardanti un fenomeno statistico descritto da due variabili, X e Y, rilevati mediante coppie ordinate (x¿¿ i ; y i)¿. Tali dati vengono definiti “dati bivariati”. Le frequenze di ogni coppia di dati, dette “frequenze congiunte o interne”, possono essere rappresentate in una tabella a doppia entrata: quando entrambe le modalità sono quantitative si hanno “tabelle di correlazione”, se sono entrambe qualitative “tabelle di contingenza” e se una modalità è quantitativa e l’altra qualitativa “tabelle miste”. Due caratteri sono indipendenti se nella tabella a doppia entrata ogni frequenza congiunta è il prodotto del totale della sua riga per il totale della sua colonna diviso per il numero di osservazioni, altrimenti vengono chiamati dipendenti. Nelle indagini statistiche reali è altamente improbabile ottenere delle frequenze congiunte che soddisfino esattamente la condizione di indipendenza, anche se i due caratteri sono comunque indipendenti in modo evidente: la differenza tra una frequenza congiunta rilevata e la corrispondente frequenza congiunta teorica si chiama “contingenza”. L’indice chi quadrato ( χ¿¿2)¿ permette di valutare il grado di indipendenza in questi casi ed è pari alla somma dei rapporti fra il quadrato di ogni contingenza e la relativa frequenza congiunta teorica. χ2 vale 0 nel caso di perfetta indipendenza. Regressione lineare La regressione si occupa dell’individuazione di un legame tra due variabili statistiche X e Y. Può essere di “Y su X” o, viceversa, di “X su Y”. La retta di regressione di Y su X ha equazione: y− y=a (x−x). Mentre l’equazione della retta di X su Y: x−x=b( y− y). Nel caso “Y su X” a si calcola nel seguente modo: a= ∑ i=1 n (x i−x )( y i− y ) ∑ i=1 n (x i−x )2 Nel caso “X su Y” b si calcola nel seguente modo: b= ∑ i=1 n (x i−x )( y i− y ) ∑ i=1 n ( y i− y )2 Dove x e y sono i valori medi rispettivamente delle somme dei x i e dei y i. Se si considera l’angolo che si forma tra le due rette di regressione “Y su X” e “X su Y”, valgono le seguenti affermazioni:  Più l’angolo è piccolo, migliore sarà il grado di approssimazione dei dati da parte delle due rette.  Se l’angolo è retto, non c’è dipendenza lineare tra le due variabili. Ciò non significa che non ci sia relazione tra i due caratteri, ma vuol dire solo che il modello di regressione lineare non è adeguato.  Se l’angolo è nullo, la regressione viene definita “perfetta” e in questo caso le coppie di valori dei dati individuano punti che appartengono tutti quanti alle due rette coincidenti. Correlazione La teoria della correlazione si occupa di stabilire se tra due variabili esiste un legame e, in caso affermativo, di esprimerlo con un numero che misuri quanto e come una variabile dipende dall’altra. Definiamo la covarianza di X e Y, che indica il grado di relazione tra le due variabili, come segue: σ XY= ∑ i=1 n (x i− x)( y i− y) n  Se σ XY >0, all’aumentare di una variabile, aumenta in media l’altra.  Se σ XY <0, all’aumentare di una variabile, diminuisce invece l’altra.  Se σ XY=0, non c’è dipendenza lineare tra le due variabili. Per esprimere il legame che c’è tra due variabili statistiche X e Y, viene utilizzato un indice puro, che prende il nome di coefficiente di Per confrontare due distribuzioni aventi media e scarto quadratico medio diversi, si utilizza uno strumento che consente di eliminare sia la differenza di intensità sia la differenza di unità di misura, ovvero la standardizzazione: Zi= x i−E (X ) σ . La distribuzione che si ottiene (detta “distribuzione standardizzata”) ha media 0 e deviazione standard pari a 1. Variabili casuali continue Una variabile casuale X si dice continua se esiste una funzione f(x) tale che la funzione di ripartizione F ( x )=p(X ≤x ) è data dall’area sottesa a f(x) a sinistra di x. La funzione f(x) è chiamata “funzione di densità di probabilità”. Una funzione f(x) può essere definita una funzione di densità se è non negativa e se l’area che essa sottende (ovvero il suo integrale) è pari a 1. La media è la varianza di una variabile casuale continua sono date da: E ( x )=∫ −∞ ∞ x ∙ f (x )dx Var ( x )=∫ −∞ ∞ (x−μ ) 2 f (x )dx Quantili e centili Fissato un livello di probabilità p, si chiama quantile di livello di p la quantità x p in corrispondenza della quale la funzione di ripartizione assume il valore p: F (x p )=p ( X≤ x p )=p. Con “centile” si indica l’ascissa di x p. Standardizzazione di una variabile casuale Data la variabile casuale X, discreta o continua, si chiama variabile casuale standardizzata la quantità: Z= X−μ σ . Ogni variabile casuale standardizzata ha media 0 e varianza uguale a 1. Distribuzione binomiale La distribuzione binomiale è la distribuzione di probabilità della variabile casuale “numero di successi in n prove indipendenti di un esperimento Bernoulliano (dove gli esiti sono i due eventi incompatibili)”. La sua media e varianza valgono: E ( x )=np; Var (X )=np(1−p). Distribuzione di Poisson La distribuzione di Poisson trova applicazione quando il fenomeno aleatorio è costituito dal conteggio delle occorrenze di un evento casuale in uno specifico intervallo di tempo, in una determinata area o in un altro contesto. La sua media e varianza valgono: E ( x )=λ; Var (X )= λ. La distribuzione di Poisson può approssimare la distribuzione binomiale se il rapporto tra n e p soddisfa la disuguaglianza: n p >500. Distribuzione normale (o di Gauss) La media e la varianza della normale valgono: E ( x )=μ; Var (X )=σ2. La sua funzione di densità possiede le seguenti cinque proprietà:  Simmetrica rispetto l’asse di simmetria x=μ.  Crescente nell’intervallo (−∞; μ) e decrescente in (μ ;∞ ).  Ha due punti di flesso: uno in x=μ e l’altro in x=μ+σ.  E’ concava (rivolta verso il basso) nell’intervallo (μ−σ ; μ+σ ), mentre è convessa (rivolta verso l’alto) altrove.  Ha come asintoto l’asse x. La deviazione standard σ determina il grado di “concentrazione” della curva attorno l’asse di simmetria. La distribuzione normale standardizzata non è altro che la distribuzione normale con media 0 e varianza uguale a 1 e la sua funzione di densità viene indicata col simbolo Φ (), con la quale si calcolano le varie probabilità come aria che sottende il grafico da −∞ a z: p (X<z )=Φ (z) p (X<−z )=Φ (−z )=1−Φ (z) p (X>z )=p (X← z )=Φ (−z )=1−Φ (z) p (X>−z )=p (X<z )=Φ(z ) p ( z1<X<z2 )=Φ ( z2 )−Φ(z1) Con z standardizzata e Φ (z) ricavata dalla tavola della normale standard. Distribuzione chi-quadrato Una variabile casuale X avente distribuzione chi-quadrato ha media e varianza pari a: E (X )=r; Var (X )=2r. Dove r è detto “gradi di libertà”. La distribuzione chi-quadrato tende alla normale per r tendente all’infinito. Equazioni dei grafici delle distribuzioni FUNZIONE DI DENSITA’ DELLA BINOMIALE: f ( x )= n ! x ! (n−x ) ! px (1−p)n−x Con x=0 ;1 ;2;…; n e 0< p<1. FUNZIONE DI DENSITA’ DELLA POISSON: f ( x )= λx x! e− λ Con x=0 ;1 ;2;…; n e λ>0. FUNZIONE DI DENSITA’ DELLA NORMALE: f ( x )= 1 σ √2π e−( x−μ) 2 /2σ 2 Con −∞<x<∞, −∞<μ<∞ e 0<σ2<∞. FUNZIONE DI DENSITA’ DELLA CHI-QUADRATO: f ( x )={a x r 2 −1e−x /2 se x≥0 0altrove Teorema del limite centrale Tale teorema afferma che la somma di un numero elevato di variabili aleatorie indipendenti, tende ad avere approssimativamente una distribuzione normale, quale che sia la loro stessa distribuzione iniziale. Approssimazione della binomiale con la normale nulla (o di base) e viene indicata con H 0. Se non risulterà valida l'ipotesi nulla, allora lo sarà l'ipotesi alternativa H 1. L’ipotesi alternativa può essere bilaterale (se si richiede essere diversa dall’ipotesi nulla) o unilaterale (destra, se viene richiesta maggiore dell’ipotesi nulla, oppure sinistra, se si richiede essere minore dell’ipotesi nulla). L'ipotesi nulla viene verificata attraverso una statistica test ST, ovvero una formula che sulla base delle osservazioni campionarie ci permette di decidere se accettare o meno l'ipotesi nulla: se la ST cade nella regione d'accettazione, NON rifiuto H 0, Se la ST cade nella regione di rifiuto, rifiuto H 0 → il test è “SIGNIFICATIVO”. Durante la verifica di ipotesi si possono commettere due tipi di errori:  Errore di 1° tipo: rifiutare H 0, quando questa è vera.  Errore di 2° tipo: non rifiutare H 0, quando questa è falsa. Il livello di significatività (α ) è la probabilità di commettere l'errore di 1° tipo, mentre β è la probabilità di commettere l'errore di 2° tipo. Quindi 1-β è la probabilità di NON commettere l'errore di 2° tipo e viene chiamata “potenza del test”. Se aumenta α diminuisce β e viceversa: per cui non è possibile ridurre sia α che β, cioè non è possibile ridurre entrambi i tipi di errore contemporaneamente. Determinare le statistiche test per la verifica di ipotesi Asseconda del parametro preso in considerazione:  Media: o Se la numerosità dello spazio campionario è elevata: Z (X )= X−μ0 σ /√n N (0 ;1) Con regione di rifiuto formata da:  ¿ se l’ipotesi alternativa è unilaterale destra.  ¿ se l’ipotesi alternativa è unilaterale sinistra.  Entrambi gli intervalli se l’ipotesi alternativa è bilaterale, ma con z α 2 anziché zα. Dove zα / z α 2 è ricavata dalla tavola della normale standard. o Se la numerosità dello spazio campionario NON è elevata:  Se σ della popolazione è nota: Z (X )= X−μ0 σ /√n N (0 ;1) (uguale al caso precedente)  Se σ della popolazione NON è nota: T ( X )= X−μ0 σ /√n t(r) Con regione di rifiuto delimitata da t α ;r o t α 2 ; r scelto, con rispettivo segno, in base allo stesso criterio di prima, ma ricavato questa volta dalla tavola della t di Student.  Proporzione: o Se la numerosità dello spazio campionario è elevata: Z(P)= P−p0 √ p0(1−p0) n N (0 ;1) Con regione di rifiuto delimitata da zα o z α 2 scelta, con rispettivo segno, in base allo stesso criterio di prima e ricavata sempre dalla tavola della normale standard.  Varianza: σ2(n−1) σ0 2 χ2(r ) Con regione di rifiuto formata da: o ¿ se l’ipotesi alternativa è unilaterale destra. o ¿ se l’ipotesi alternativa è unilaterale sinistra. o ¿¿ se l’ipotesi alternativa è bilaterale.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved