Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Statistica Descrittiva e Teoria della Probabilità, Appunti di Statistica

Le metodologie per descrivere e sintetizzare fenomeni osservati attraverso la raccolta e la sintetizzazione di dati. Vengono inoltre presentati strumenti per modellare la causalità di un evento utilizzando modelli probabilistici e metodi per trarre conclusioni di carattere generale a partire dall'osservazione di un insieme di dati. Viene anche introdotto il software R, specifico per l'analisi statistica dei dati.

Tipologia: Appunti

2020/2021

In vendita dal 16/02/2022

_marthiinaa
_marthiinaa 🇮🇹

17 documenti

1 / 16

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Statistica Descrittiva e Teoria della Probabilità e più Appunti in PDF di Statistica solo su Docsity! statistica descrittiva insieme delle metodologie alte a descrivere e sintetizzare uno o piu ' fenomeni osservati . Si raccoglie una grande quantità di dati e si sintetizzano per trarre conoscenza sul fenomeno indagato . TEORIA DELLA PROBABILITA' = strumenti per imparare a modellare la causalità di un evento , utilizzando modelli probabilistici . INFERENZA STATISTICA = insieme di metodi che ti permettono di trarre delle conclusioni di carattere generale a partire dall' osservazione di un insieme di dati . SOFTWARE R : linguaggio di programmazione e ambiente di sviluppo specifico per l' analisi statistica dei dati . CAMPIONE e' un sottoinsieme di ciò che viene detta POPOLAZIONE . fenfmjppnpf.pl azione reddito famiglia n.ly?!Iia?YYlelementare r / ✗ (n > { Un , Ma . . . . . Un } > Il > valido per PN ? ciò che osserviamo sul campione di unita' statistiche -1 campione può essere genera- numerosità n inferenza statistica tirato sull' intera popolazione statistica descrittiva media matematica (induzione inversa) \ così si crea conoscenza . non(sintesi) limitandosi solo a descrivere un dato L' inferenza statistica e' al contrario del sillogismo aristotelico , ovvero si va dal particolare al generale , che non e ' certo ; le scienze certe invece vanno dal generale al particolare , quindi non c'e ' errore e non si crea nuova conoscenza. Il campione e' composto da unita ' statistiche di cui si osservano delle variabili . • quante variabili ? •. di che tipo ? Unita' di misura • qual e ' il nostro campione ? 131 Koala • popolazione di riferimento ? l' intera popolazione di koala VARIABILE / CARAITERE : fenomeno di interesse a MODALITA ' : valori / categorie che se puo ' assumere 21 , . . . . % UNITÀ STATISTICA : entita ' elementare su cui se viene osservato 1 . . . . . n POPOLAZIONE : insieme di tutte le unita' elementari su cui se può essere osservato PN CAMPIONE : sottoinsieme della popolazione Cn , n s N VARIABILI QUALITATIVE > le modalita' non sono valori numerici ↳ SCONNESSE. se le modalita ' non hanno ordinamento al loro interno colore capelli solo 2 modalita' <"""""° "" " "°↳ ORDINATE, se le modalità hanno un ordinamento posizione in graduatoriasi dicono DICOTOMICHE (es : vero /falso : si/noi) → rettilinee , le cui modalita' oltre ad avere ordinamento , si ha quella di dette anche DUMMY IN210 e di fine asilo , superiori , Universita ' → cicliche , se le modalita' di inizio e fine non sono fisse , ma esistono solo per convenzione mesi di nascita ( gen - dic) VARIABILI QUANTITATIVE > hanno valori numerici come modalita' ☐ DISCRETE , le cui modalita ' costituiscono un insieme discreto di valori numerici se si possono contare gli elementi di un insieme (IN) voto d' esame (18-30) ☐ e distinguerli l' uno dall' altro D CONTINUE , le cui modalita' costituiscono un insieme continuo di valori numerici infinita' non numerabile poiche ' non distinguibili D o innumerabili ( IR) Una volta che si ha la distribuzione elementare di dati , essa viene sintetizzata nella DISTRIBUZIONE DI FREQUENZA 1 2 colonna 1 : modalita ' se freq2 : carattere o variabile colonna 2 : frequenze di ogni21 ^^ frequenze modalita'K : numero di modalita' che 2 PUO ' Ass . ha ha assolute Rj , j = 1 , . . . . K : generica modalita ' che i i NK NK µ puo ' assumere TOT n • hj , j = 1 . . . . , K ; frequenza assoluta cioe ' il nymero di volte che la modalita ' sei di K viene assunta ; nj 70 , VI. , = , nj = n NI = µ , nn , j = 1. . . . . K : freq. assoluta cumulata di K ci dice il numero di unita' • fj = % , j ; 1 . . . . . K : frequenza relativa ; o sfj E 1 , Pj , ÷ , fj = 1 Statistiche sul quale e ' stato osservato il carattere 2 fino Fj = µ , fh , j = 1 , . . . , K : freq . relativa cumulata alla j- esima modalita' ( Ni . Fi . Pi ) → solo con variabili quantitative o K qualitative ordinate • pj = fj ✗ 100 , j = 1 . . . . . K : frequenza relativa percentuale ; g. = , pi = 100 Pi = % , pn , j = 1 . . . . . K : freq . percentuale cumulata DIMOSTRAZIONI PROPRIETA ' E 1) ✗min s Is ✗max µ, ✗(a) E ✗ (2) E . . . E ✗( n) , ma✗ Ordinamento non decrescente dei valori osservati ✗(1) E ✗( i ) E ✗ (n) n n n i = , ✗ (1) / h E i = , ✗ ( i) /n s ÷ , ✗ (n) / h ⇒ ✗(1) 5 È S ✗ ( n) h 2) i = , ✗i = ME la somma dei valori Xn . ✗a . . . . Yn assunti da un insieme di n unita ' statistiche e ' Uguale al valore medio moltiplicato per il numero di unita ' ☒ = In " ✗i- né = ✗ " SCARTÒ = 1 3) ÷ , (✗ i - E) = O la somma delle differenze tra i valori delle Xi e la loro media aritmetica I e' pari a 0 (Xi - E) + (✗a - F) + . . . 1- ( Xi - I ) + . . . + (✗n - E) h ( ✗1 1- ✗a -1 . . . + Xj -1 . . . + ✗n ) - ( E -1 E -1 . . . + F) = i⇒ ✗ i - MI = O TÈ h 4) ÷ , (✗i - X-P= min la somma degli scarti al quadrato dei valori di Xi da una costante c e ' minima quando c e ' uguale alla media aritmetica n n n i⇒ Hi - c)' e ' min per c = E - 2 i⇒ (✗ i - F) = 0→ ÷, (✗ i - E) = 0 h h ⇐ a. ✗ i - ÷ , E = 0 → i! ✗ i - ne = 0 qld quod erat demonstrandum h h 5) f- i. taxi+ b) = a # ÷ , ✗ i ) + b ✗ ; a , b costanti ; Y = a ✗+ b ; E ; g- = ai + b ↳ flx ) ; f- lineare n n h h F- f- ⇐ g. ✗ i→ %-1 ? , la✗ i + b)→ F- f- ⇐aaxi + i. ab → F- In a i. ☐✗ i tnb 4-= a f- ÷ , ✗ + b → Y= aiitb qed la media complessiva di piu' gruppi parziali e ' n ° uguale alla media aritmetica ponderata delle6) È= fa i⇒✗ i = ×Ì = % g. a Igino medie parziali , con pesi pari al numero dinn -1 ha -1 . . . -1 NG valori di ciascun gruppo✗ ; n ; (✗n . . . . . ✗ i , . . . , ✗ n ) G- gruppi ; ng g- 1. , . . . , G- campione diviso in tanti sottoinsiemi (✗% i ✗& ; . . . ; ×? i . . . ; ✗ it ) ; Ig E = f- " i = a ✗ i ' = -114 + . . . + (×: + ×: + . . . + * + . . _ + ×:) + l' I] G : | f- (nn. In. -1 . . . tngxg -1 . . . + natia ) - fi g. a Igna MEDIA ARITMETICA PONDERATA ☒ • simile alla media aritmetica • e' una media in cui alcuni dati contribuiscono piu ' di altri al valore " della media finale → PESO g-= ✗1711 + ✗272 t . . 1- Xn In = i = , ✗i "i • Tia , Tia . . . . . Tin : pesi non negativi n Tin 1- TI 2 -1 . . . + Tin Yi i = A MEDIE DI ORDINE r la media aritmetica si deduce per r = 1. dall' espressione della media di ordine r Mr = In % , ×: " " dove re R - { o} e ✗i > 0 . Der : n • r = -1. Si ottiene la media armonica M - n. = n i = n . È • r = 2 si ottiene la media quadratica Ma = fai:X! • Emo Mr = Mo che è la media geometrica MEDIA GEOMETRICA Mo di n valori distinti ✗i > o e' la radice n-esima del loro prodotto Mo = " II.✗i Per osservazioni raggruppate in una distribuzione di frequenza è Mo = " # % " j = 1 Proprieta' : • identita' di prodotto : II. ✗i = TÈ . %. " = Mi n • il logaritmo della media geometrica e' la media aritmetica dei logaritmi : logMo = fai⇒ togli • la media geometrica dei rapporti 2-i = . per i = 1 . . . . . h e ' uguale al rapporto tra la mediayi geometrica delle Xi e la media geometrica delle yi : " TI = " i -_ a Yi " ¥ , Yi tasso di capitale a anni " tritesse fine anno DIMOSTRAZIONI PROPRIETA' Mo ci 1) TÈ . ✗i = Mi > Mo = " II. ✗i elevo ad n I 0.02 20400 I 0,04 21216 es : Co = 20.000 f- III 0,06 22488,96 tasso di interesse medio annuo 2) log Mo = In " log ✗ i > r → ho dei coerfiuenti di incremento (1- + ri ) i = A n Mo = > 1,02 ✗ 1,04 ✗ 1,06 =1,0399 ⇒ 3,99% log " II.✗i = -1 wg Ti ✗i = -1 e.⇒ togli i-_ a C al termine del 3° anno ? 20.000 ✗ 1,03993=22.488,96 3) Io = " II, 2-i = " È, §; = " ti ✗i " ti ✗i Yi Yi = n y, y , = Mo (×) Mo (y) MEDIANA Me = indice di posizione definito per caratteri ordinati e variabili quantitative; la modalita' che occupa il posto centrale nella successione ordinata (non decrescente) delle n osservazioni individuali , cioe ' quel valore che lascia alla sua sinistra il 50% delle unità . 50% E Me s 50% Nel caso di distribuzione unitaria : *. h DISPARI : la medicina e ' il valore che nella sequenza ordinata occupa la posizione " Me = ✗ n¥ • il PARI : la mediana e' data dalla semisomma dei 2 valori che nella sequenza ordinata occupano le posizioni G- e I-11 Me = ✗ I + ✗ ¥ +a 2 Nel caso di distribuzione di frequenza , e' comodo usare le frequenze cumulate (assolute o relative) per individuare la classe a cui appartiene l' unità statistica che occupa la posizione mediana . Se il carattere e' qualitativo ordinato o discreto la regola generale è : Me e ' la piu ' piccola fra le modalita' a cui corrisponde Fj > 0,5 freq , relativa cumulata se Fj = 0,5 allora la mediana e ' in qualunque valore tra ✗j e ✗ s' +a Me = ✗i + "+a 2 Se il carattere e ' distribuito in classi , allora la mediana si calcola per interpolazione sotto l' ipotesi di uniforme distribuzione all' interno delle classi ; per Me nella classe Xj 1- ✗i+a Me = Xj -1 ° ' 5 Fi (✗j+a - ✗j) Me = ✗j % - Ni (✗j+a - ✗ j) fj+a nj + a Fi passa da fj a fj-11 in maniera lineare (retta passante per 2 punti ) >estremi classe mediana y = y , -1 ! (✗- ✗ a) I Flx) = Fj -1 ! (X- Xj) > Fcx) = Fj + F"" - Fi (× . ✗j )✗j+a - Xj Proprietà : • per una variabile quantitativa si ha che la somma degli scarti dalla mediana presi in valore assoluto n e' la piu ' piccola possibile : " i = , ✗ i -Me = min i. a Xi - c e ' minimo per c = Me • la presenza di valori estremi / outliers non influisce sulla mediana FORMULA CALCOLATORI A ( elimina l' approssimazione nei calcoli degli scarti quadr) ( E dei valori )' ✓ ( × ) = In % , / ✗ i - E) 2 - e al quadrato 1 n " ✗È - 2×-2-1×-2 = ¥ " ×! - È= % i.at?-2Ei?j-i-nE2--- ⇐ a ÷ , unitaria = -1 " × ; nj - E ' Proprieta' : U sia frequenza • VIX) = O se tutte le unita' assumono lo stesso valore di ✗ • ✓ (✗ + a) = VIX) con a costante • VIBXI = blu (X ) con b costante DIMOSTRAZIONI PROPRIETA' VCX ) 1) X ; V ( X ) = O se ✗ i = ✗ i tt i =/ i ' , i. i ' = 1 . . . . , n se tutti i valori sono uguali t.fi?a(Xi-X-Y---nilXi-XiY-- O 2) V ( ✗ + a) = -1 ÷ , / ( ✗ i + a) - ( Ita))? In ÷ , /xi-a-E.at ' =/ 1- " ( ✗i - E) ' = ✓( X ) n n " ⇐ a 3) VIBX ) = In ⇐☐ ( bxi - be ) ' = In ⇐ n.bz ( ✗ i - E) " ( ✗ i - x-p = bz VIX)[ b' .fi a ✗ il = atbX.VN/--Vla-bX)--VlaltV(bX)-b2VlX ) se non N . tutte le espressioni date della V e di 0 hanno denominatore n - 1 antiche' n , in tal caso si parla di varianza campionaria s2 per una distribuzione unitaria : sa = La ÷ , / ✗ i - X-P Per una distribuzione di frequenza : ga = 1 " n - 1 g. = , / Ti - F) < nj Per un carattere in classi : sa = 1 " ( Ii - E) ' hj = " ( Ij - E) ' fj h-1 j = a j = 1- CAMPO DI VARIAZIONE tv tv = ✗ max - ✗min = XK - Xo • ci dice qual è il range di valori osservati • dipende solo dai 2 valori estremi , che sono maggiormente soggetti a misura SCARTO INTERQUARTILE SI SI = Qs - Qa • vi dice quanto e' ampio l' intervallo nel quale e' contenuto il 50% delle osservazioni centrali della distribuzione • tiene conto di tutti i valori e non e' influenzato da valori estremi COEFFICIENTE DI VARIAZIONE (V (V = % (%) • e ' adimensionale ( non risente dell' unita' di misura ) • consente di confrontare la variabilita ' di distribuzioni di caratteri con medie diversi ed espressi in diverse unita' di misura . µ rispetto al valore centrale della distribuzione SIMMETRIA → una distribuzione di frequenza e' simmetrica se hj = Nk - sita per j = 1,2 . . . . K I = Me distribuzione simmetrica E = Me = No distribuzione simmetrica e unimodale E > Me > No distribuzione asimmetrica positiva di Positiva NEGATIVA Ì < Me < Ho distribuzione asimmetrica negativa SX INDICE DI SIMMETRIA P =È , Ms p = I.a Hi - X-P dove -1 7-⇒ (✗ i - X-P e' il momento centrale di ordine 5 e ho > 03 e' il cubo della deviazione standard • gli scarti piu ' elevati vengono sovrappesoti conservandone il segno : B assume valori positivi o negativi a seconda che predomina gli scostamenti positivi o negativi • o> consente il confronto tra distribuzioni perche ' rende la misura indipendente dall' unita' di misura del carattere • se B > O si ha asimmetria positiva (dx ) più scatti positivi • se po < O si ha asimmetria negativa ( sx) più scarti negativi scarti + uguali • se la distribuzione e ' simmetrica ( rispetto a E) allora p = O la variabile e' costante / a quelli - ) errore di valutazione da escludere OUTLIER→ valore estremo (alto o basso) o anomalo ? peculiarita ' del fenomeno da includere ✗si e ' un sospetto outtier se ✗ i > Qs-11,5 ✗ (Qs - Qr ) cade nella parte finale della coda di ✗i < Qi - 1.5 ✗ (03 - Qi ) cade nella parte finale della coda sx cioè se cade piu' di 1,5 ✗ (Q3 -Qi) al di sopra del tetto o al di sotto del primo quartiere . DESCRIVERE UNA DISTRIBUZIONE i metodi grafici ci permettono di avere una rapida panoramica dei dati in quanto forniscono un quadro completo e sintetico dei dati una misura di posizione descrive il centro di una distribuzione , e ' una misura della tendenza centrale e da un' idea di dove la distribuzione si colloca lungo l' asse × una misura di dispersione descrive la dispersione di una distribuzione e mostra come un carattere si distribuisce attorno a E , se e ' concentrato vicino a I O lontano una misura di asimmetria mostra se la meta' sinistra della distribuzione e' una immagine speculare della meta ' destra o no , e fornisce un' indicazione sulla forma della distribuzione più lungo e ' ll batto piu ' e' variabile il 25% delle osservazioni piu ' piccole (piu' pesante coda sx ) BOXPLOT ÌÌAWRE MASSIMO OSSERVATO • e ' il grafico piu ' ertaente per rappresentare la distribuzione di un carattere se il segmento piu ' lunga e ' la e' al centro [• richiede 5 misure : ama scatola , scatola Piu ' allora la > Variabili sono il minimo osservazione piu ' piccola distribuzione e , 0s - as U so% dei simmetrica valori centrali il massimo osservazione piu ' grande Qi . µ@ = Q2 /VALORE MINIMO OSSERVATO ①3 PIU ' lungo e ' il basto piu ' e ' variabile il 25% delle osservazioni piu ' grandi ( più pesante • e ' utile per fare confronti tra distribuzioni coda dx ) • e ' utile per far emergere visivamente la presenza di valori anomali / estremi Qi - 1- . S ✗ (Q3 - Qi) = MIN Q3 -1 I.Sx (03 - Qi) = MAX COEFFICIENTE DI CORRELAZIONE LINEARE con (X . Y ) = pxy Iroi Date n osservazioni su due variabili quantitative ✗ e Y , p e ' un indice relativo che misura la relazione di dipendenza lineare tra le due variabili con ✗Y ) " ( ti - Illusi - DI codeVIX , Y ) Corr/ X . Y ) = pxy = j = = " ( ✗ i - E)2 yi - Y ) ' DEVIXIDEVIYI i = A ⇐ il segno di CONLKY) , che dipende da COVIX , Y ) , indica la direzione della relazione : se al crescere di X . Y cresce in media se al crescere di X , Y decresce in media ⇐ il valore assoluto di cov indica la forza della relazione - pxy f . . Pxy = +1 PERFETTA DIPENDENZA LINEARE POSITIVA . ' → j ' . . pxy = - 1 PERFETTA DIPENDENZA LINEARE NEGATIVA - ☐ pxy = 0 ASSENZA DI DIPENDENZA LINEARE ⇐ Corr IX. Y ) e' fortemente influenzata da osservazioni estreme outlier > se n N . Corr ( X, Y ) si calcola per mezzo della covarianza campionaria e delle variante campionarie delle 2 variabili fu ✗ , Y = a -1 BX ; a. b costanti finite perdita Corr ( X , Y ) = 1=1 perche ' Y e ' una trasformazione lineare correlazione lineare = corti , a + BX ) BVLX ) bvlx) VLX ) Ha + BX ) = VIX ) ba VCX ) = Ib / ✓(y) = ± " ✓ ( a + BX ) = ✓( b X ) = b ' VCX ) b si porta fuori perche ' e' una costante ma si eleva al quadrato MODELLO DI REGRESSIONE LINEARE si cerca un modello capace di descrivere e spiegare la relazione tra 2 variabili ✗ e Y si cerca l' ctfetto che ✗ ha su Y ✗ e' la variabile indipendente o esplicativa Y e' la variabile dipendente o risposta Y = f / ✗ ) + E un modello matematico diventa statistico se si aggiunge una variabile causale E 0 d' errore . L 1- ( ✗ 1 indica il comportamento di Y > E indica l' errore . ciò che di Y non può essere spiegato da ✗ che si ipotizza essere spiegato dalla ✗ mediante fl . ) di tipo lineare , Y = a + BX + E equazione della retta con una variabile causale con ✗ e Bloemaert, di regressione e ✗ parte deterministica , Y variabile dipendente ll problema e' trovare i valori di a e b tali che la retta I = a + BX approssimi al meglio i dati di Y , cioe ' si commetta un errore È = Y - Y molto piccolo . valore derivato dal campionato corrispondente valore di yi sulla retta di regressione =/ dal valore osservato componente d' errore STIME DEI MINIMI QUADRATI n insieme degli ⇐ ☐ È = Min , errori n = i = ! Yi - Ji)" = " ( y i - a - bxi) ' = min e- A b = COVIX . Y ) oy VIII. y ) =p " q, a = g- _ DI
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved