Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

prima parte statistica descrittiva , Appunti di Statistica

appunti statistica descrittiva teoria

Tipologia: Appunti

2020/2021

Caricato il 04/05/2024

chiaramadeddu
chiaramadeddu 🇮🇹

3 documenti

Anteprima parziale del testo

Scarica prima parte statistica descrittiva e più Appunti in PDF di Statistica solo su Docsity! Statistica Concetti chiave La popolazione è l’insieme completo di tutte le unità oggetto di studio (N rappresenta la dimensione della popolazione). Il campione è il sottoinsieme delle unità osservate nella popolazione (n rappresenta la dimensione del campione). Popolazione Campione Il parametro è una caratteristica specifica della popolazione. I valori calcolati usando i dati sulla popolazione sono chiamati parametri. La statistica è una caratteristica specifica del campione. I valori calcolati usando i dati campionari sono chiamati statistiche. Distinguiamo due tipi di campionamento, il campionamento casuale semplice, che dà luogo al campione semplice, e il campionamento sistematico, che da luogo al campione sistematico. Il campionamento casuale semplice è il procedimento nel quale:  ciascuna unità della popolazione è scelta rigorosamente a caso;  ciascuna unità della popolazione ha la stessa opportunità di essere scelta;  ogni possibile campione di dimensione assegnata n ha la stessa possibilità di essere selezionato. Il campionamento sistematico è il procedimento nel quale:  le unità della popolazione devono essere organizzate in una lista, indipendente dalla caratteristica di interesse; 1 a b c d ef gh i jk l m n o p q rs t u v w x y z b c g i n o r u y  selezionare un’unità ogni j-mo elemento della popolazione, dove j, il passo di campionamento, è il rapporto tra la dimensione della popolazione “N”, e la dimensione del campione “n”: j : N n  la prima unità del campione sistematico si ottiene con la scelta casuale di numero tra 1 e j. Esistono due branche della statistica, la statistica descrittiva, con tecniche per collezionare, sintetizzare ed elaborare i dati in modo da trasformarli in informazioni, e la statistica inferenziale, che fornisce le basi per le previsioni e per le stime che consentono di trasformare le informazioni in conoscenza (l’inferenza è il processo tramite il quale si estraggono conclusioni o si prendono decisioni circa una popolazione sulla base dei risultati campionari). Le scale di misurazione della risposte Per informazione statistica si intendono i dati raccolti attraverso un’indagine sulle unità statistiche di un particolare collettivo (popolazione o campione) rispetto a uno o più fenomeni. Tale informazione statistica è codificata dal concetto di carattere, inteso come il fenomeno oggetto di studio, rilevato sulle unità statistiche del collettivo di riferimento e codificato secondo le esigenze dell’analisi statistica. Il carattere può essere: 2 DIAGRAMMA A BARRE DIAGRAMMA A TORTA Il diagramma di Pareto viene usato per rappresentare dati categorici, graficamente possiamo assimilarlo a un diagramma a barre, in cui le categorie sono rappresentate in ordine decrescente di frequenza. Il diagramma di Pareto è usato per separare “poche cause rilevanti” dalle “numerose cause insignificanti”. Per sviluppare un diagramma di Pareto prendiamo una tabella di distribuzione di frequenze, e mettiamo in ordine decrescente le categorie rispetto alla causa del difetto, per poi determinare la percentuale (%) per ciascuna categoria. A questo punto, selezionando i dati ordinati in maniera decrescente possiamo creare il grafico. Un grafico per serie storiche viene usato per rappresentare i valori di una variabile nel tempo; il tempo viene rappresentato sull’asse orizzontale, mentre nell’asse verticale troviamo la variabile di interesse. 5 Una distribuzione di frequenze è una lista o una tabella contenente delle classi di intervallo (categorie o intervalli a cui i dati appartengono) e le corrispondenti frequenze con cui i dati appartengono alle classi o categorie. La distribuzione di frequenze è un modo per riassumere i dati, essa condensa i dati grezzi in forma più utile e ne consente una veloce interpretazione grafica. N.B.: ciascuna classe di intervallo ha la stessa ampiezza; per determinarla si usa la seguente formula: Gli intervalli non si sovrappongono mai, e inoltre, bisogna usarne almeno 5, ma non più di 15-20. Un istogramma è un grafico che nasce da dati contenuti in una distribuzione di frequenze; gli estremi degli intervalli sono rappresentati sull’asse orizzontale, mentre sull’asse verticale viene rappresentata la frequenza, la frequenza relativa, oppure la percentuale. Delle barre di altezza appropriata sono usate per rappresentare il numero di osservazioni in ciascuna classe. Nel caso in cui siano presenti troppe classi (classi di intervallo piccole) il grafico può produrre una distribuzione molto frastagliata con spazi dovuti a classi vuote, e potrebbe dare una cattiva indicazione di come la frequenza cambia nelle classi n 6 Nel caso in cui siano presenti poche (classi di intervallo ampie) il grafico può comprimere troppo la variazione e produrre una distribuzione a blocchi, inoltre potrebbe oscurare importanti andamenti nella variazione. L’ogiva (o curva delle frequenze cumulate) è una spezzata che rappresenta la distribuzione delle frequenze percentuali cumulate. Infatti unisce i punti che rappresentano le percentuali cumulate di osservazioni con valori minori del limite superiore di ciascuna classe. 7 dimensione n: x= ∑ i=1 n x i n = x1+ x2+…+ xn n dove al numeratore abbiamo i valori osservati, e al denominatore la dimensione del campione. La mediana è l’osservazione centrale di un insieme di osservazioni ordinate in modo non decrescente. Se n, la dimensione del campione, è un numero dispari, la mediana è l’osservazione centrale; se n è un numero pari, la mediana si ottiene dalla media delle due osservazioni centrali. Più in generale, si potrebbe dire che la mediana si trova nella posizione 0.50 (n+1) della sequenza ordinata. In una lista ordinata, la mediana è il valore “centrale” (50% sopra, 50% sotto); essa è usata spesso siccome non è influenzata da valori estremi. La moda è la modalità che si presenta il maggior numero di volte dato un insieme di osservazioni (numeriche o categoriche); non è influenzata da valori estremi, può non essere presente, e può essere più di una. La forma della distribuzione descrive come i dati sono distribuiti, può essere simmetrica o asimmetrica. I percentili e i quartili indicano la posizione di un dato relativamente a tutto l’insieme di dati. Generalmente sono utilizzati per la descrizione di dataset molto grandi. 10 Per quanto riguarda i quartili, essi dividono la sequenza ordinata dei dati in 4 segmenti contenenti lo stesso numero di valori. N.B.: Q2 coincide con la mediana (50% sono minori, 50% sono maggiori). Un quartile si trova determinando il valore della sua posizione nella sequenza ordinata dei dati, dove:  posizione primo quartile: Q1 = 0.25(n+1);  posizione secondo quartile (la posizione della mediana): Q2 = 0.50(n+1);  posizione terzo quartile: Q3 = 0.75(n+1). Le misure di variabilità forniscono informazioni sulla dispersione o variabilità dei valori. La variabilità (informazione) va come variano i dati, se essi variano poco allora questo indice sarà basso, e viceversa. Sono indici compresi tra 0 e +∞, quindi non possono essere negativi. Il campo di variazione è la più semplice misura di variabilità; si calcola facendo la differenza tra il massimo e il minimo dei valori osservati. Tale misura ha due svantaggi: ignora il modo in cui i dati sono distribuiti, ed è sensibile agli outlier. Campodi Variazione=Xmassimo−Xminimo La differenza interquartile (che misura la lunghezza della scatola del box plot) viene usata per eliminare il problema legato agli outlier. Tale misura elimina i valori osservati più alti e più bassi e calcola il campo di variazione del 50% centrale dei dati. La differenza si calcola sottraendo al terzo quartile il primo quartile. IQR=Q3−Q1 Sia per la varianza, sia per lo scarto quadratico medio (o deviazione standard) usiamo due distinte formule se stiamo calcolando tali valori per la popolazione o per il campione. La varianza della popolazione (σ 2¿si calcola nel seguente modo σ 2=∑ i=1 N ¿¿. Essa è la media dei quadrati delle differenze fra ciascuna osservazione e la media. 11 La varianza del campione (S2) si calcola nel seguente modo S2=∑ i=1 N ¿¿¿ . Essa è la media (approssimativamente) dei quadrati delle differenze fra ciascuna osservazione e la media. Lo scarto quadratico medio della popolazione mostra la variabilità rispetto alla media, esso ha la stessa unità di misura dei dati originali. Per calcolarlo usiamo la seguente formula σ=√∑i=1 N ¿¿¿¿ Lo scarto quadratico medio del campione si calcola invece con la seguente formula S=√∑i=1 n ¿¿¿¿ Nella media ponderata i valori non hanno tutti lo stesso peso; per calcolarla usiamo la seguente formula x= ∑ i=1 n w i x i ∑w = w1 x1+w2 x2+…+wn xn ∑w i Il coefficiente di variazione misura la variabilità relativa rispetto alla media, esso viene espresso in percentuale, e può essere usato per confrontare due o più set di dati misurati con unità di misura diverse. Esso si calcola facendo la deviazione standard del campione, o della popolazione, fratto la media del campione o della popolazione. CV = S X ∗100 % La covarianza misura la forza della relazione lineare tra due variabili e non implica un effetto casuale. Anch’essa ha due formule distinte se la calcoliamo per la popolazione, o se la calcoliamo per il campione. Per la popolazione usiamo la seguente formula: Cov ( x , y )=σ x , y= ∑ i=1 N ( x i−μx )( y i−μ y) N Per il campione usiamo questa formula: Cov ( x , y )=Sxy= ∑ i=1 n (x i−x )( y i− y ) n−1 Covarianza tra due variabili può essere:  Cov(x,y) > 0, allora x e y tendono a muoversi nella stessa direzione; 12 Unione di Eventi - Se A e B sono due eventi in uno spazio campionario S, allora l’unione, A U B, è l’insieme di tutti gli eventi elementari di S che appartengono ad A oppure a B. Due eventi sono mutualmente esclusivi quando se si verifica uno non si può verificare l’altro. A e B sono eventi mutuamente esclusivi se non hanno in comune alcun evento elementare, infatti, l’insieme A ∩ B è vuoto. Due eventi sono collettivamente esaustivi quando o capita uno o capita l’altro, non può capitare nient’altro. L’evento complementare di un evento A è l’insieme di tutti gli eventi elementari nello spazio campionario che non appartengono ad A. L’evento complementare è indicato da A La Probabilità La probabilità è il rapporto tra il numero di eventi elementare che definiscono il successo fratto il numero totale degli eventi elementari. La probabilità è un numero compreso tra 0 (quando l’evento è impossibile) e 1 (quando l’evento è certo). Sono degli assiomi non dimostrabili che noi prendiamo come veri. Per valutare la probabilità di un evento incerto possiamo usare tre approcci: 1. La probabilità classica, la quale ipotizza che tutti i risultati dello spazio campionario siano ugualmente possibili, e quindi la probabilità di un evento è la proporzione di volte che l’evento si verifica; 15 2. L’interpretazione frequentista, la quale prevede che la probabilità è il limite della proporzione di volte che un evento A si verifica in un numero molto elevato n di ripetizioni in un esperimento; 3. La probabilità soggettiva, la quale prevede che un’opinione o credenza individuale siano la probabilità del verificarsi di un certo evento; Gli assiomi della probabilità sono tre: 1. Se A è un qualunque evento dello spazio campionario S, allora 0 ≤ P(A) ≤ 1; 2. Sia A un evento di S, e indichiamo con Oigli eventi elementari. Allora P ( A )=∑ A P (Oi¿)¿; 3. P(S) = 1. Le regole che possiamo applicare alla probabilità sono le seguenti:  La regola dell’evento complementare: P ( A )=1−P(A ), ovvero P ( A )+P ( A )=1  La regola additiva, ci dice che la probabilità dell’unione di due eventi è: P ( A ∪ B )=P ( A )+P (B )−P ( A ∩B )  La regola moltiplicativa per due eventi A e B è: P ( A ∩B )=P ( A|B ) P ( B ) , o , P ( A ∩ B )=P ( B|A ) P(B) Una probabilità condizionata è la probabilità di un evento, dato che l’altro evento si è verificato: P ( A|B )= P( A ∩ B) P(B) La probabilità condizionata di A dato che B si verifichi. P (B|A )= P ( A ∩ B ) P ( A ) La probabilità condizionata di B dato che A si verifichi. L’indipendenza statistica prevede che la probabilità di un evento non sia influenzata dall’altro evento: l’evento B se si è verificato non cambia la probabilità di verificarsi dell’evento A. 16 Due eventi sono statisticamente indipendenti se, e solo se:P( A ∩ B)=P ( A ) P (B) Se A e B sono indipendenti allora:  P ( A|B )=P ( A ) se P ( B )>0  P (B|A )=P (B ) se P ( A )>0 Le probabilità congiunte sono quelle probabilità delle intersezioni P( Ai ∩ B j); mentre le probabilità per i singoli eventi P ( A i ) e P(B j) sono le probabilità marginali, che possono essere calcolate sommando le probabilità delle corrispondenti righe o colonne. Due insiemi di eventi, considerati congiuntamente, sono chiamati bivariati, e le relative probabilità sono dette probabilità bivariate. Gli Odds rappresentano il rapporto tra la probabilità dell’evento e la probabilità dell’evento complementare; gli Odds in favore di A sono:Odds : P( A) 1−P (A ) =P( A) P ( A ) Il teorema di Bayes, ci fornisce un modo per poter aggiornare le probabilità condizionate usando le informazioni di cui disponiamo. La formula di questo teorema è la seguente: P ( Ei|A )= P ( A|E i ) P (Ei) P( A) = P ( A|Ei ) P(Ei) P ( A|E1 ) P ( E1 )+P ( A|E2 ) P ( E2 )+…+P ( A|E k ) P (Ek ) Dove:  Ei è uno dei tanti eventi di k eventi mutuamente esclusivi e collettivamente esaustivi;  A è il nuovo evento che può avere un impatto su P(E¿¿i)¿. Le Variabili Aleatorie Una variabile aleatoria è un possibile valore numerico che otteniamo da un esperimento aleatorio. Distinguiamo in variabile aleatorie discreta (che può assumere solo un insieme numerabile di valori) e variabili aleatorie continua (che può assumere un qualunque valore in un intervallo). 17 P(x) è la probabilità di x successi in n prove, con probabilità di successo P in ogni prova; dove:  x = numero di ‘successi’ nel campione, (x = 0, 1, 2, ..., n);  n = dimensione del campione (numero di prove o osservazioni);  P = probabilità di “successo”. Possiamo affermare che la forma di questo tipo di distribuzione dipende dai valori P e n. Considera n = 5 e P = 0.1 Considera n = 5 e P = 0.5 Le misure di tendenza centrale per la probabilità binomiale sono:  La media è μ=E (x )=nP  La varianza è σ 2=nP(1−P)  Lo scarto quadratico medio è σ 2=√nP (1−P ) La distribuzione ipergeometrica La distribuzione ipergeometrica è una variabile aleatoria discreta. Viene usata per stimare la probabilità di ottenere un certo numero di successi in un campione di dimensione fissa, estratto senza reinserimento da una popolazione finita. Ciò vuol dire che, una volta estratti “n” elementi dal campione essi vengono rimossi e non possono essere selezionati nuovamente. Inoltre i risultati delle prove sono dipendenti. Essa riguarda il calcolo della probabilità di “X” successi nel campione quando ci sono “S” successi nella popolazione; abbiamo “n” prove in un campione estratto da una popolazione finita di dimensione “N”. La funzione di probabilità è la seguente: P ( x )= C x s Cn−x N−S Cn N = S! x ! (S−x )! ∗( N−S )! (n−x )! ( N−S−n+x ) ! N ! n! ( N−n ) ! N = dimensione della popolazione S = numero di successi nella popolazione N – S = numero di insuccessi nella popolazione n = dimensione del campione 20 x = numero di successi nel campione n – x = numero di insuccessi nel campione La Distribuzione di Poisson La probabilità di Poisson fa parte delle variabili aleatorie discrete, si usa per calcolare la probabilità di successi in un dato intervallo continuo (di tempo, di superficie, di lunghezza). Il numero medio di eventi per unità è “λ” (lambda): Assumiamo che un intervallo sia diviso in un numero molto grande di sotto intervalli, in modo che la probabilità del verificarsi di un evento in ogni sotto intervallo sia molto piccola. Le ipotesi della distribuzione di probabilità di Poisson sono:  La probabilità che un evento si verifichi in un sotto intervallo è molto bassa ed è la stessa per tutti i sotto intervalli;  Il numero di eventi che si verificano in un sotto intervallo è indipendente dal numero di eventi che si verificano in un altro sotto intervallo;  L’evento non si può verificare più di una volta in ciascuno dei sotto intervalli. La funzione di probabilità per la distribuzione di probabilità di Poisson è la seguente: P ( x )= e−λ λx x ! Dove:  x = il numero di successi per unità  λ = il numero atteso di successi per unità  e = la base dei logaritmi naturali (2.718) Le misure di tendenza centrale per la probabilità di Poisson sono:  media: μ=E (x )=λ  varianza: σ 2=E ¿  scarto quadratico medio: σ=√ λ La forma della distribuzione di Poisson dipende dal parametro λ: λ= 0.50 21 λ= 0.50 Teorema di Chebychev Tale teorema nasce per determinare, per ogni insieme di dati, indipendentemente dalla forma della distribuzione, degli intervalli che contengono una percentuale minima di osservazioni. Per ogni popolazione con media µ, scarto quadratico medio σ , e k > 1, la percentuale di osservazioni che appartengono all’intervallo [μ+kσ ] è almeno 100[1−( 1 k2 )]%, dove k rappresenta il fattore moltiplicativo dello scarto quadratico medio. Indipendentemente da come i dati sono distribuiti, almeno (1− 1 k 2 ) dei valori cadranno entro k scarti quadratici medi della media (per k > 1). Se la distribuzione dei dati ha una forma campanulare, allora l’intervallo μ ±1σ contiene circa il 68% dei valori della popolazione o del campione. L’intervallo μ ±2σ contiene circa il 95% dei valori della popolazione o del campione. L’intervallo μ ±3 σ contiene circa il 99,7% dei valori della popolazione o del campione. 22 f(x) = valore della funzione di densità a qualunque valore x a = valore minimo di x b = valore massimo di x Una distribuzione uniforme ha: - media pari a: μ= a+b 2 - varianza pari a: σ 2=¿¿ inserire slide 14+15+16 La distribuzione normale La distribuzione normale ha una forma campanulare, è simmetrica, e la sua media, la sua mediana e la sua moda coincidono. La tendenza centrale è determinata dalla media (μ), la variabilità dallo scarto quadratico medio (σ ); la variabile aleatoria ha un campo di variazione infinito. La forma della distribuzione può variare in due modi diversi: - se cambia μ, la distribuzione si sposta verso destra o verso sinistra; - se cambia σ , la dispersione aumenta o diminuisce. La distribuzione normale approssima molto bene le distribuzioni di probabilità̀ di un numero elevato di variabili aleatorie. In presenza di campioni “grandi” la distribuzione delle medie campionarie è approssimata dalla distribuzione normale. La distribuzione di probabilità̀ normale ha prodotto buone decisioni finanziarie/economiche in molti problemi applicativi. INSERIRE SLIDE 22+23+24+25 La Normale Standard Qualunque distribuzione normale (con qualunque combinazione di media e varianza) può̀ essere trasformata nella distribuzione normale standard (Z), con media 0 e varianza 1. 25 Z N (0,1) Bisogna trasformare la variabile X nella variabile Z, per fare ciò si deve sottrarre la media di X e dividerla per il suo scarto quadratico medio. INSERIRE SLIDE 30 La tavola della Normale Standard La tavola della Normale Standard fornisce i valori della funzione di ripartizione della distribuzione normale; Per un dato valore a di Z, la tavola fornisce F(a) (l’area sottesa alla curva da meno infinito al valore a) INSERIRE SLIDE 32 & 33 INSERIRE SLIDE 34+35+36+37+38+39+40+41+42+43+44+45+46+47+48+49+50+51 La Distribuzione Esponenziale La distribuzione esponenziale viene usata per modellare l’ammontare di tempo tra due occorrenze di un evento (il tempo fra gli arrivi), come ad esempio il tempo tra transazioni ad un bancomat. INSERIRE SLIDE 54 La media della distribuzione esponenziale si indica con λ. La funzione di ripartizione, ovvero la probabilità che un tempo di arrivo è minore di qualche specifico tempo t, è F ( t )=1−e−λt (RIVEDERE DLIDE 55) La funzione di ripartizione congiunta Siano x1 , x2 ,…, xk variabili aleatorie continue, la loro funzione di ripartizione congiunta sarà F (x1 , x2 ,…, xk); tale funzione definisce la probabilità che, simultaneamente, X1 sia minore di x1, che X2 sia minore di x2, …; cioè F ( x1 , x2 , …, xk )=P(X1<x1∩ X2< x2 ∩… Xk<xk ) Le funzioni di ripartizione congiunta delle singole variabili aleatorie sono chiamate funzioni di ripartizione marginale. F ( x1 ) ,F ( x2) , …, F (xk) Le variabili aleatorie sono indipendenti solo se F ( x1 , x2 , …, xk )=F ( x1 ) F ( x2 ) … F (xk) 26 INSERIRE SLIDE 59+60+61+62+63+64+65 Campionamento e Distribuzioni Campionarie Esistono due macroaree della statistica: la statistica descrittiva (che raccoglie, presenta e descrive i dati)) e la statistica inferenziale (che serve per estrapolare conclusioni e/o prendere decisioni riguardanti una popolazione sulla base solo dei dati campionari). Per lavorare con la statistica usiamo o la popolazione, che è l’insieme di tutte le unità o individui oggetto di studio, oppure usiamo il campione, un sottoinsieme della popolazione. Si usa il campione perché possiede diversi vantaggi rispetto alla popolazione: - richiede meno tempo di un censimento; - è meno costoso da amministrare; - è possibile ottenere risultati statistici con precisione sufficientemente alta sulla base dei campioni. Es. 6.5: un analista dispone di due previsioni, F1e F2, riguardanti gli utili per azione previsti, nell’anno successivo, per una società quotata in borsa. Il suo scopo è quello di combinare le due previsioni in modo da ottenere una previsione “pesata” X F1+(1−X) F2, dove X rappresenta il peso della prima previsione e (1-X) quello della seconda. L’analista vorrebbe scegliere un valore tra 0 e 1 per il peso X, ma è molto incerto su quale potrebbe essere la scelta migliore. Alla fine, decide che la scelta migliore è quella di indentificare X con una 27
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved