Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica Economica (descrittiva probabilità e inferenza), Appunti di Statistica Economica

Statistica descrittiva probabilità e inferenza

Tipologia: Appunti

2020/2021
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 10/07/2021

gianni-pala-2
gianni-pala-2 🇮🇹

4

(4)

4 documenti

1 / 20

Toggle sidebar
Discount

In offerta

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Statistica Economica (descrittiva probabilità e inferenza) e più Appunti in PDF di Statistica Economica solo su Docsity! Statistica Che cos'è la statistica La statistica è la scienza legata fortemente alla matematica che viene utilizzata per prendere delle decisioni quando vi è incertezza. La statistica si divide in due branche: Statistica descrittiva (la capacità di descrivere un fenomeno) e inferenza statistica (ci dice che partendo da un campione si riesce a prendere delle decisioni ed avere dei risultati per l’intera popolazione). La statistica Descrittiva: colleziona dati, presenta i dati e sintetizza i dati. La Statistica inferenziale: fa una stima dei dati, verifica le ipotesi. L'inferenza è un processo mediante il quale si estraggono conclusioni o si prendono decisioni circa una popolazione sulla base dei risultati campionari. Che cos'è la popolazione La popolazione è l'insieme completo di tutte le unità oggetto di studio di studio. N rappresenta la dimensione della popolazione. | valori calcolati usando i dati sulla popolazione sono chiamati parametri Che cos'è il campione Il campione è il sottoinsieme delle unità osservate nella popolazione. n rappresenta la dimensione del campione. | valori calcolati usando i dati campionari sono chiamati statistiche. Il campionamento casuale semplice è il procedimento nel quale: ciascuna unità della popolazione è scelta rigorosamente a caso, ciascuna unità della popolazione ha la stessa probabilità di essere scelta, ogni possibile campione di dimensione assegnata n ha la stessa possibilità di essere selezionato. Il campione ottenuto con questo metodo è noto come c ampione casuale Tipi di dati Categorici e Numerici, si hanno diversi livelli di misurazione in base alle scale: Scala di rapporto (Differenze fra misurazioni, esiste lo zero assoluto) Scala a intervallo (Differenze fra misurazioni, ma non esiste lo zero assoluto) Dati ordinari (Categorie ordinate ranghi, ordine, o scala) Dati normali (categorie no ordine e direzione) Rappresentazione Grafica dei dati | dati in forma grezza non sono generalmente facili da usare nel processo decisionale. Una qualche organizzazione si rende necessaria in Tabelle e Grafici. Il tipo di grafico da usare dipende dalla variabile che vogliamo sintetizzare. Da una parte abbiamo le variabili categoriche quali distribuzione di frequenza, diagramma a barre, diagramma a torta e diagramma di Pareto, dall'altra le variabili numeriche quali grafico per serie storiche, distribuzione di frequenza, istogramma, diagramma ramo-foglia e diagramma di dispersione. DATI CATEGORICI si dividono in tabulazione (tabelle della distribuzione di frequenza che riassumono i dati per categoria) e grafici (diagramma a barre, diagramma a torta e diagramma di Pareto utilizzati per dati qualitativi). || diagramma di Pareto è formato da un diagramma a barre in cui le categorie sono rappresentate in ordine decrescente di frequenza e un poligono della frequenza cumulata che viene rappresentato nello stesso grafico, viene utilizzato per separare poche cause rivelanti dalle numerose cause insignificanti. DATI NUMERICI si dividono in distribuzioni di frequenza quali (istogrammi e ogiva) e diagrammi ramo-foglia Grafici per serie storiche Viene usato per rappresentare una variabile nel tempo, dove il tempo viene rappresentato sull'asse orizzontale e la variabile di interesse sull’asse verticale Distribuzioni di frequenza è una lista o tabella contenente classi di intervallo e le corrispondenti frequenze con cui i dati appartengono alle classi o categorie, è un modo per riassumere i dati, condensare i dati grezzi in forma più utile e consente una veloce interpretazione grafica dei dati. Nelle classi di intervallo ciascuna dovrebbe avere la stessa ampiezza che è determinata da W= ampiezza intervallo= Valore massimo — valore minimo / numero classi. E' bene che gli intervalli non si sovrappongano mai. Per risolvere una distribuzione di frequenza come prima cosa dobbiamo: Ordinare in ordine crescente i dati, trovare il campo di variazione con valore massimo-valore minimo, selezionare il numero di classi di solito 5, calcolare l'ampiezza dell'intervallo, determinare i limiti dell'intervallo e infine contare le osservazioni e assegnarle alle classi. Una piccola cosa che ci può essere utile per la creazione delle classi è che con troppe classi si potrebbe produrre una distribuzione troppo frastagliata con spazi dovuti a classi vuole e quindi può dare una cattiva indicazione di come la frequenza cambia nelle classi, poche classi possono comprimere troppo la variazione e produrre una distribuzione a blocchi e quindi può oscurare importanti andamenti nella variazione. La forma della distribuzione di frequenza si dice simmetrica se osservazioni sono bilanciate o distribuite in modo regolare attorno al centro, mentre è detta asimmetrica se le osservazioni non sono distribuite in modo simmetrico rispetto al centro. Può essere asimmetrica positiva se ha una coda che si estende verso destra nella direzione dei valori superiori, si può dire asimmetria negativa se ha una coda che si estende a sinistra nella direzione dei valori inferiori Istogramma Un grafico dei dati contenuti in una distribuzione di frequenze è chiamato istogramma. Gli estremi degli intervalli sono rappresentati sull’asse orizzontale l’asse verticale rappresenta le frequenze solo se le classi hanno pari ampiezza. Barre di altezza appropriata sono usate per rappresentare la numerosità di ciascuna classe Diagramma ramo-foglia Si tratta di un modo semplice per vedere i dettagli della distribuzione di un set di dati, abbinando il dettaglio della distribuzione di frequenze e la sintesi grafica propria dell’istogramma. Consiste nel separare la serie di dati ordinata in cifre più significative (i rami) e cifre meno significative (le foglie) esempio 38 39 dove 3 sarebbe il ramo e 8 e 9 le foglie. Relazioni fra variabili Quando consideriamo due variabili vengono utilizzate altre tecniche, nelle variabili categoriche vengono utilizzate le tabelle a doppia entrata nelle variabili numeriche viene utilizzato il diagramma a dispersione Diagramma a dispersione sono usati per osservazioni accoppiate relative a due variabili numeriche. Una variabile viene rappresentata sull'asse verticale e l’altra variabile viene rappresentata sull'asse orizzontale Tabella a doppia entrata viene chiamata anche tabella a contingenza elenca il numero di osservazioni per ogni combinazione di valori per le due variabili categoriche o ordinali, se ci sono r categorie per la prima variabile (righe) e c categorie per la seconda variabile (colonna) la tabella viene chiamata tabella a doppia entrata rx c Descrizione numerica dei dati si ha una tendenza centrale con la MEDIA ARITMETICA, MEDIANA E MODA. Si ha una variabilità con CAMPO DI VARIAZIONE, DIFFERENZA INTERQUARTILE, VARIANZA, SCARTO QUADRATICO MEDIO E COEFFICIENTE DI VARIAZIONE. Tendenza centrale Media aritmetica ovvero l’individuazione di una misura sintetica che tenda ad esprimere la tipicità delle distribuzioni è la somma di tutte le unità diviso il numero totale indicato con N influenzata da valori esterni chiamati outlier. La prima proprietà della media aritmetica è il criterio di Cauchy ovvero che la media è un valore compreso tra X1 e Xn. Possiamo definire la media come il baricentro della distribuzione e come il valore che rende minima la somma degli scarti quadratici medi. Ci sono vari concetti importanti che ricoprono le probabilità. Esperimento aleatorio un processo che porta un risultato incerto; Esperimento elementare un possibile risultato di un esperimento aleatorio; Spazio campionario l'insieme di tutti i risultati di un esperimento aleatorio; Evento qualsiasi sottoinsieme di eventi elementari di uno spazio campionario. Intersezione di eventi Se A e B sono due eventi in uno spazio campionario S allora l'intersezione di A A n B è l'insieme di tutti gli eventi elementari in S che appartengono si ad A che ache B s A e B sono eventi mutualmente esclusi Ss Unione degli eventi Se A e B sono due eventi in uno spazio campionario S allora l'unione A U B è l'insieme di tutti gli eventi elementari di S che appartengono ad A oppure B s i se non hanno in comune nessun evento elementare L'area ombreggiata rappresenta A U B Gli eventi E1, E2, ...... Ek sono collettivamente esaustivi se E1U E2U ...... U Ek = S quindi gli eventi compongono lo spazio campionario. L'evento complementare di un evento A è l'insieme di tutti gli eventi elementari nello spazio campionario che non appartengono ad A, l'evento complementare è indicato con A Pertanto la negazione di un evento A è quell'evento E che si verifica quando non si verifica A s — A Alcuni eventi particolari Evento certo = I si verifica sempre Evento impossibile = 6 non può verificarsi Evento incompatibile = 4NB=%@ Evento necessario = AU B = In una prova l’evento deve verificarsi Evento elementare = per ogni A siha AUE =E Lo spazio degli eventi è la classe degli eventi a cui si vuole assegnare una probabilità e che a questa classe sia un’algebra ovvero che contenga S e @ e deve essere chiusa sia all'unione e alla complementazione. Quando s è costituito da un numero finito(K) di elementi lo spazio degli eventi può essere rappresentato dall'insieme di tutti i possibili sottoinsiemi di S ed ha cardinalità 2 elevato k. Esempio lancio di un dado lo spazio campionari (S) = [1,2,3,4,5,6] poniamo l'evento A risultato pari e l'evento B risultato numero superiore a 4 quindi A=[2,4,6] B=[4,5,6]. Lo spazio campionario (S) sarà = [1 2 3 4 5 6] dove l’insieme A sarà= [2 4 6] mentre l'insieme B sarà= [4 5 6] la negazione di A sarà [1,3,5] mentre la negazione di B sarà [1 2 3], l'intersezione di AA n B = [46] e l'intersezione di A n B [5] L'unione invece A U B [2 45 6] e l’unione di AUVA[123456]=S Da questo esempio possiamo notare che A e B non sono mutamente esclusivi perché i risultati 4 e 6 sono comuni ad entrambi. Non sono neanche collettivamente esaustivi perché AUB non contiene 1 e 3 Regole della probabilità regola dell'evento complementare o di negazione è data da P(4) = 1— P(A). Regola Additiva ovvero la probabilità di unione di due eventi P(A U B) = P(A) + P(B) — P(An B). Un esempio della probabilità additiva lo si può avere con un mazzo di 52 carte dove si ha un Evento A la carta è un asso e l'evento B dove la carta è rossa P(Rossa U Asso) = P(Rossa) + P(Asso) - P(Rossa n Asso) = 26/52 + 4/52 - 2/52 = 28/52 ——{ Non contare | \ Colore dhe Mali rossi Nera 7 Tipo Totale Asso 2) 4 2 Non-Asso| \24/| 24 | 48 Totale 26 26 52 Un'altra regola è quella data dalla probabilità condizionata ovvero la probabilità di un evento, dato che l’altro evento si è verificato La probabilità condizionata di A dato che B si è verificato. Esempio = În una concessionaria di macchine usate, 70% delle loro macchine hanno l’aria condizionata (AC) e/40% hanno un lettore CD (CD). 20% delle loro macchine fanno entrambi. CD |NoCD/Tofale 7) AC ‘2 | A Noac | 2474 | 3 Totale £ | 6 | 10 P(CDAAC) 2 P(CDIAC)= ——____ = .2857 (EDTACI== ao) 777289 Regola moltiplicativa P(A n B) = P(A : B) * P(B) inoltre P(A n B) = P(B : 4) » P(A) P(Rossa N Asso) = P(Rossa| Asso)P(Asso) - 4) 2 _\4A52} 52 _ numero di carte che sono rosse e asso _ 2° ° numero complessivo di carte 3 Colore Tipo |Rossa | Nera_rotale Asso (2 } 2 4 Non-Asso| 24 24 48 Totale 26 26 52 Indipendenza statistica Due eventi sono statisticamente indipendenti se e solo se P(A n B) = P(A)*P(B) gli eventi A e B sono indipendenti quando la probabilità di un evento non è influenzata dall’altro evento. Se A e B sono indipendenti allora P(ATB)=P(A)] sepepo P(B|A)=P(B)] seP(Apo ESEMPIO Bi Ba rr B, Ai P(AMB,) P(A,MB,) ne P(A,0B,) A; | PASB) | PASBIA |... | PASSA) Ah P(ANB,) | P(AMB,) nu. PIA,OB,) Gli ODDS Gli odds in favore di un particolare evento sono dati dal rapporto tra la probabilità dell’evento e la probabilità dell'evento complementare. Si associa una probabilità ad un evento senza conoscerla aiutano a determinare il verificarsi dell'evento ESEMPIO: Calcolare la probabilità di vittoria se gli odds sono 3a 10DDS = i = 200). adesso moltiplicando entrambi i lati dell'equazione per 1-P(A) e risolvendoli rispetto a P(A) si avrà: 3*(1-P(A)) =P(A) 3-3P(A)=P(A) 3=4P(A) P(A)= 0.75 Teorema di Bayes Serve a risolvere problemi di causa effetto ovvero quale sia la causa più probabile che ha prodotto quel effetto. P(A]JE,)P(E, Pea SRGSO) _ PIAIE)PIE) PAIEJPIE)P(AIE)P(E,)++PAIE)PIE,) Dove E; = im° evento di k eventi mutuamente esclusivi e collettivamente esaustivi A = nuovo evento che può avere un impatto su P(E;) ESAMPIO Una compagnia di trivellazione ha stimato che la probabilità di trovare petrolio nel suo nuovo pozz è del 40%. Per raccogliere nuove informazioni la compagnia programma un test programmato. Storicamente, 60% dei pozzi di successo sono passati attraverso un test dettagliato, e 20% dei pozzi non di successo sono passati attraverso un test dettagliato. Dato che questo pozzo viene programmato per un test dettagliato, qual è la probabilità che il pozzo sarà di successo? = Sia S= pozzo di successo U = pozzo non di successo P(S)=.4, P(U)=.6 (probabilità a priori) Denotiamo l'evento “test dettagliato" con D = Probabilità condizionate: P(D|JS) = .6 P(DJU) = .2 L'obbiettivo è di trovare P(S|D) Applichiamo il Teorema di Bayes: [I P(sjp)= —P(PISIPS) P(D]S)P(S) +P(D|U)P(U) ____(6).4) (.6)(.4)+(.2)(.6) alta __24+.12 Quindi la probabilità di successo revisionata (dalla stima iniziale di .4), dato che il pozzo è stato programmato per un test dettagliato, è .667 Variabili aleatorie Rappresentano un possibile valore numerico prodotto dall’esperimento aleatorio, è una funzione che associa ad E evento elementare nello spazio campionario S uno ed un solo numero reale. Con le variabili aleatorie (casuali) si studia la probabilità che quella variabile/evento si verifichi, quindi sarà possibile associare una misura di probabilità allo spazio numerico della variabile casuale utilizzando la misura di probabilità definita sui sottoinsiemi dello spazio campionario S Si suddividono in: Variabili aleatorie discrete e variabili aleatorie continue Variabile discrete Può assumere solo un insieme numerabile di valori. Molto importante dire che la variabile è nota solo se si conosce la sua distribuzione di probabilità. Un esempio può essere nel lancio di un dado per 2 volte. Sia X il numero di volte che viene 4 e allora X può essere 0, 1, 2 volte. Funzione di ripartizione indicata con F(x0) esprime la probabilità che X non superi il valore x0 FG)=PX3xg) Fou)= 290 in altre parole La media o valore atteso è determinata da y = E(x) = YxP(x) » Esempio: Lancia 2 monete, x = # di teste, be è|z calcoliamo il valore atteso di x: E(x)=(0x .25) +(1x.50) +(2x.25) =1.0 Varianza e scarto quadratico medio * Varianza di una variabile aleatoria discreta X 0° =E(X-u)f =Y (x-u)?P(x) =» Scarto Quadratico Medio di una variabile aleatoria discreta X = vo = |Y (x-4)P(x) x Distribuzione di probabilità comprende la distribuzione delle variabili discrete (Binomiale, ipergeometrica e Poisson) e variabili continue (Uniforme, Normale e Esponenziale) Distribuzione Bernoulliana. Quando parliamo di variabile disceta binomiale dobbiamo assolutamente dire che è una estensione della variabile Bernoulliana quella variabile che si riferisce al verificarsi di due eventi ovvero un evento che può o non può accadere. Si usa indicare con E il verificarsi dell'evento e con È il non verificarsi dell'evento e quindi P la probabilità di successo e 1-P la probabilità di insuccesso. Si definisce la variabile aleatoria X dove X=1 se successo X=0 se insuccesso. La funzione di probabilità di Bernoulli P(0) = (1— P)eP(1) = P La media 1 = E(X) = Xx xP() = (0)(1- P)+(1)P =P La Varianza 02 = P(1- P) o? = E[(X- w?]= X.(x — w)?P(x) = (0— P)?(1- P)+(1-P)YP= P(1-P) La variabile Binomiale come detto prima è una estensione della bernoulliana in particolare si usa quando si hanno più prove da fare esempio lancio di una moneta 10 volte queste prove sono indipendenti fra loro e il lancio di una moneta non condiziona l’altro lancio. Il numero di prove deve essere a probabilità costante X-Bin(n P) n=numero prove P=probabilità Se x =0 significa che in n sottoprove non si è verificato nemmeno un successo Se x=1 significa che una sola volta si è verificato un successo e X* PO)= Dove: x = numero di successi per unità à.= numero atteso di successi per unità @ = base dei logaritmi naturali (2.71828...) = Varianza e Scarto Quadratico Medio 0° = E[(X-2)°]=A o=vA dove = numero atteso di successi per unità Distribuzione di probabilità congiunta Viene usata per esprimere la probabilità che X assuma un particolare valore x e, contemporaneamente Y assuma il valore y come funzione di x e y P(x,y) = P(X =xNY = y) Le probabilità marginali sono: P(x) = YZ, P(x,y) PY) = YxP(,y) Distribuzione di probabilità condizionata della variabile aleatoria Y esprime la probabilità che Y assuma il valore y quando si specifica il valore x per X. analogamente la distribuzione di probabilità condizionata di X dato Y=y è Indipendenza Le variabili aleatorie X e Y distribuite congiuntamente sono dette indipendenti se e solo se la loro distribuzione di probabilità congiunta è uguale al prodotto delle loro distribuzioni di probabilità marginali P(x,y)=P(x)P(y) per tutte le possibili coppie di valori di x e y. Un insieme di k variabili aleatorie sono indipendenti se e solo se P(X1, X2, ...... , Xk)=P(x1)P(x2).....P(xk) Covarianza Siano X e Y due variabili aleatorie discrete con media rispettivamente ux e py il valore atteso di (X- yX)(Y-uY) è chiamato covarianza di X e Y. Per variabili aleatorie discrete Cov(X, Y)= EX 4, )(Y —hy)]= DX (x-4,)(y-H,)P(x,y) Un espressione equivalente è Cow(X, Y)=E(XY)-u,, = XY xyP(,y)- 4h, x _y Covarianza e indipendenza La covarianza misura la forza della relazione lineare tra due variabili aleatorie, se due variabili aleatorie sono statisticamente indipendenti la loro covarianza vale 0 La correlazione = Lacorrelazione tra X e Y è Cov(xX, Y) xy p=Corr(X,Y)= = p=0 = nonc'relazione lineare tra X e Y =" p>O = relazione lineare positiva tra X e Y * quando X assume valori alti (bassi) allora anche Y probabilmente assume valori alti (bassi) ® p= +1 = dipendenza lineare perfetta positiva = p<0 = relazione lineare negativa tra X e Y * quando X assume valori alti (bassi) allora Y probabilmente assume valori bassi (alti) * p=-1 = dipendenza lineare perfetta negativa Distribuzione di probabilità continue è una variabile che può assumere qualsiasi valore in un intervallo possono assumere qualsiasi valore dipendentemente solo dall’abilità di misurare con precisione. La funzione di ripartizione F(x) per una variabile aleatoria continua X esprime la probabilità che X non superi x quindi F(x)=P(X<=x). Siano a e b due possibili valori di X con a <b. La probabilità che X assuma valori tra a e b è P(a<X<n)=F(b)-F(a). La funzione di densità di probabilità, f(x), di una variabile aleatoria X ha le seguenti proprietà: f(x) > 0 per qualunque valore di x L'area sottesa alla funzione di densità di probabilità f(x) su tutto l’intervallo di valori ammissibili di X vale 1. La probabilità che X assuma valori in un intervallo è l’area sottesa alla funzione di densità sull’intervallo. La funzione di ripartizione F(x 0) è l’area sottesa alla funzione di densità f(x) dal valore minimo xm fino al valore x0 f(xo) = Se f\dx dove xm è il valore minimo della variabile aleatoria x. Distribuzione aleatoria Uniforme è la distribuzione di probabilità che assegna la stessa probabilità a tutti i valori di una variabile aleatoria. È una distribuzione dipendente da due parametri A e B può assumere parametri solo nell’intervallo [a b] La Distribuzione Uniforme Continua: 1 b-a seaSx<b f(x) = 0 altrove dove f(x) = valore della funzione di densità a qualunque valore x a = valore minimo di x b = valore massimo di x La media di una distribuzione uniforme è: a)? 12 La varianza è: 0? = Esempio: Distribuzione di probabilità uniforme nell'intervallo 2 s x £ 6: f)= 513 =.25 per 25x56 fo) a+b 2+6 4 .25 Lea 3 lo? = (b-a)? _ (6-2)? - 1.333 2 6 Xx 12 12 La distribuzione normale Si distribuisce e dipende da due parametri la media e la varianza. È una variabile casuale continua che può assumere valori che vanno da +00 ; a — co. Ha una forma campanulare simmetrica che si concentra attorno al proprio valore atteso. Media moda e mediana coincidono fra di loro; La tendenza centrale è determinata dalla media; la variabilità è determinata dallo scarto quadratico medio. Possiamo dire che la distribuzione normale approssima molto bene le distribuzioni di probabilità di un numero elevato di variabili aleatorie. In presenza di campioni “grandi” la distribuzione delle medie campionarie è approssimata alla distribuzione normale, il suo calcolo delle probabilità è diretto ed elegante e la distribuzione di probabilità normale ha prodotto buone decisioni finanziarie/economiche in molti problemi applicativi x-N(4, 07) La funzione di densità La f(x) è sempre negativa la sua formula è: * La formula per la funzione di densità di probabilità normale è fj=— etto 20 Dove e=la costante matematica approssimata da 2.71828 TT = la costante matematica approssimata da 3.14159 4 = la media della popolazione © = lo scario quadratico medio della popolazione x = qualunque valore della variabile continua, —c° < x < se Più ci si avvicina con le x a +infinito e -infinito più la funzione tenderà a 0. Se f(x9 è simmetrica rispetto a x=w significa che y è il valore cetrale della nostra distribuzione, in più questa nostra condizione di simmetria si deduce che f (4 — x) = f(4 + x) cioè tutto quello che ritroviamo a destra della media lo ritroviamo anche a sinistra.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved