Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

statistica descrittiva, inferenza, teoria, Dispense di Statistica

Il documento analizza tutti gli argomenti sia della statistica descrittiva, sia con parte teorica sia con esempi , lo stesso anche per la parte di inferenza Dispensa completa di tutte le nozioni singolarmente approfondite per ottenere una conoscenza completa della materia.

Tipologia: Dispense

2019/2020

In vendita dal 19/01/2023

RR_26
RR_26 🇮🇹

4.3

(4)

13 documenti

1 / 12

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica statistica descrittiva, inferenza, teoria e più Dispense in PDF di Statistica solo su Docsity! Probabilità : Esistono sostanzialmente tre definizioni di probabilità: 1. LA CLASSICA che è uguale al rapporto tra il numero di casi favorevoli ed il numero di casi possibili. 2. LA FREQUENTISTICA, È uguale al rapporto tra il numero di prove riuscite ed il numero di prove effettuate (tutte le stesse condizioni). La debolezza di questa definizione è nella sua limitata applicabilità. Per utilizzarla occorre che: le prove che originano gli eventi siano illimitatamente ripetibili, le prove successive si svolgano sempre nelle medesime condizioni. Nella concezione classica la probabilità è stabilita a priori, mentre nella concezione frequentistica è ricavata a posteriori. 3. Soggettivistica, è la misura del grado di fiducia che una persona, in base alle informazioni in suo possesso e alla sua opinione, segna il verificarsi dell’evento. Aldilà delle diverse interpretazioni della probabilità, è possibile costruire una teoria che dica come costruire i modelli probabilistici ed analizzarne le implicazioni. La definizione assiomatica di probabilità ha definito tre assiomi dai quali sono ricavabili alcune proprietà: La probabilità che un evento si verifichi è compresa tra zero e uno, se la probabilità che l’evento si verifichi è zero allora l’evento è impossibile, se la probabilità che l’evento si verifichi è uguale ad uno allora l’evento certo. Omega è uno spazio campionario che al suo interno comprende uno o più eventi. Una probabilità è una funzione a valori reali che viene definita sugli eventi e tale che: un evento ha sempre una probabilità maggiore o uguale a zero e la somma delle probabilità di tutti gli eventi e 1. Esiste però una classificazione degli eventi: due più eventi si dicono incompatibili quando il verificarsi di uno esclude gli altri. Due o più eventi si dicono compatibili quando il verificarsi di uno non esclude il verificarsi degli altri. Nell’ambito degli eventi compatibili si distinguono eventi indipendenti ed eventi dipendenti: due o più eventi si dicono indipendenti quando il verificarsi di uno non modifica la probabilità di verificarsi degli altri. Due o più eventi si dicono dipendenti quando il verificarsi di una modifica la probabilità di verificarsi degli altri. Possiamo parlare anche di probabilità totale, si parla di probabilità totale di due o più eventi quando si vuole calcolare la probabilità che si verifichi almeno uno degli eventi, nel caso degli eventi incompatibili la probabilità che si verifichi almeno un evento tra A e B è uguale alla probabilità che si verifichi A più la probabilità che si verifichi B. Nel caso degli eventi compatibili la probabilità che si verifichi A o B è uguale alla probabilità che si verifichi A più la probabilità che si verifichi B meno la probabilità che si verifichino sia A che B. Si parla anche di probabilità composta, quando di due o più eventi si vuole calcolare la probabilità che si vadano a verificare tutti gli eventi contemporaneamente. Se gli eventi sono incompatibili questa probabilità è zero. Se gli eventi sono compatibili la probabilità cambia a seconda che gli eventi siano indipendenti o dipendenti; se sono indipendenti la probabilità che si vadano a verificare l’evento A e l’evento B è uguale alla probabilità che si verifichi A per la probabilità che si verifichi B. Nel caso di EVENTI dipendenti la probabilità che si verifichi A e la probabilità che si verifichi B è uguale alla probabilità che si verifichi A per la probabilità che si verifichi B dato A. Quest’ultimo passaggio viene indicato come probabilità condizionata , è detta così perché la probabilità di due eventi dipendenti è uguale al prodotto della probabilità che si verifichi A per la probabilità condizionata di B al verificarsi di A. Quindi quando parliamo di unione tra eventi, anche detta somma logica, siamo interessati a sapere quando si verifica solo A, solo B, sia A che B. Quando invece parliamo di intersezione tra eventi o prodotto logico siamo interessati a sapere quando si verificano sia a che B. C on l’aumentare delle difficoltà di calcolo viene introdotta la variabile casuale che è una funzione che associa ad ogni evento uno ed un solo numero reale. Una variabile casuale è completamente definita dalla sua distribuzione. La variabile che assume solo valori interi viene detta discreta e se assume solo valori non interi viene detta continua. Ad ogni variabile casuale corrisponde una distribuzione di probabilità, nella quale ogni valore che la variabile assume è associato alla sua probabilità di realizzazione. Nel caso di variabili continue si avrà la funzione di densità. Ogni variabile casuale presenta una media ed una varianza che sono i valori caratteristici. Il valore atteso di una variabile casuale è quel valore che corrisponde alla probabilità più alta, in altre parole è il valore che più probabilmente la variabile dovrebbe assumere, ma che non che assumerà per forza. Le principali variabili si distinguono in discrete e continue. Tra le variabili discrete troviamo la Bernoulliana e la Binomiale. Tra le variabili continue abbiamo la normale, anche detta gaussiana. Distribuzione di probabilità binomiale Una variabile discreta di tipo binomiale può essere utilizzata quando abbiamo prove ripetute, prove indipendenti e prove dall’esito dicotomico. X segue la binomiale con paramento n e p. Per quanto invece riguarda la variabile Bernoulliana, questa è un’altra variabile discreta, si parla di variabile Bernoulliana se abbiamo a che fare con una singola prova dicotomica. X segue una Bernoulliana con parametro 1 e p. Una sequenza di prove Bernoulliane costituisce un processo di Bernoulli. La somma di n variabili bernoulliane indipendenti e con lo stesso parametro p, da origine ad una variabile binomiale con parametri n e p. La variabile aleatoria x che conta il numero successi in n prove viene detta variabile aleatoria binomiale di parametri n e p. Riguardo le variabili continue: abbiamo la normale anche detta di gauss. La più importante è la variabile normale, ed è caratterizzata da una funzione di densità. La X segue la normale con parametri mi e sigma al quadrato. I valori caratteristici sono detti anche media o valore atteso, la varianza e l’ SQM detto anche sigma oppure deviazione standard. Le caratteristiche della curva di gauss sono che è simmetrica, campanulare e assume ogni valore reale. Il punto mi rappresenta moda, media, mediana e anche il punto di massimo della curva. Sigma invece è la distanza tra l’asse ed il punto di flesso della funzione nonchè il punto dove cambia la concavità. A parità di sigma la funzione si sposta verso destra o verso sinistra quando cambia “Mi”. A parità di “mi” la curva diventa più piatta o meno piatta in base alle variazioni di sigma. Ad un sigma maggiore corrisponde una curva più piatta e ad un sigma minore una curva meno piatta. L’aria sottesa alla funzione di densità rappresenta la probabilità. Quando viene chiesto di calcolare un punto preciso si procede con la standardizzazione, si cerca il valore Z, che la variabile normale standardizzata con parametri zero ed uno. TEOREMA DI DE MOIVRE-LAPLACE UNA VARIABILE BINOMIALE PUO’ ESSERE APPROSSIMATA CON UNA VARIABILE NORMALE SE n È SUFFICIENTEMENTE GRANDE (n maggiore uguale di 30). Ma qual è la condizione migliore per effettuare questa approssimazione? La condizione n maggiore uguale di trenta è una condizione necessaria, poi p dovrebbe essere = 0.50, ma se p è diverso da 0.50 allora n x p deve essere maggiore uguale di 5 e anche n x p x q maggiore uguale di 5. Se entrambe le condizioni sono vere, allora ci troviamo nelle condizioni migliori per approssimare, con l’errore più basso possibile. Qui diventa importante inserire la CORREZIONE DI CONTINUITA’: visto che stiamo effettuando un passaggio da una variabile discreta ad una continua, per migliorare l’approssimazione si opera una Epsilon invece è la parte casuale cioè la parte che al suo interno contiene tutto ciò che riguarda la X e che la Y non riesce ad esprimere, e al suo interno contiene altri regressori. La regressione lineare è detta semplice perché va a considerare un solo Regressore. E’ lineare perché si suppone che la parte sistematica sia una funzione lineare (retta) fatta in questo modo: Y= BETA0 + BETA1x + EPSILON Y è la variabile dipendente, EPSILON è la variabile errore e sono variabili STOCASTICHE , cioè seguono una certa distribuzione di probabilità (la normale). Mentre X è la variabile deterministica, ovvero fissata dal ricercatore. Beta zero e beta uno sono parametri: beta zero è il parametro dell’ intercetta: l’intercetta esprime il valore di Y quando la X e zero . Beta uno è il parametro del coefficiente angolare: esprime la variazione di Y a seguito di un incremento unitario di X. Il modello di regressione lineare semplice si regge su delle ipotesi: 1. Ipotesi sulla variabile esplicativa: Y è considerato una variabile casuale, così come l’errore, mentre la variabile indipendente non viene considerata una variabile casuale, poiché la sua modalità viene fissato dal ricercatore. 2. Ipotesi di Linearità 3. Ipotesi di varianza costante : OMOSCHEDASTICITÁ : epsilon segue la normale Per parametri (zero, sigma al quadrato) quindi la media è zero e la varianza è sigma al quadrato. Y segue la normale per dei parametri (beta0 + beta1x ; sigma al quadrato) la media è uguale alla parte sistematica e la varianza è sigma al quadrato. Secondo L’ OMOSCHEDASTICITÀ la varianza non dipende da x , per questo motivo è costante. 4. Ipotesi di indipendenza: gli errori sono variabili, casuali, e indipendenti, di riflesso lo sono anche le Y. 5. Ipotesi di normalità: la variabile casuale è distribuita normalmente. Beta0 e beta1X vanno stimate tramite campione, abbiamo però tre parametri da stimare: beta zero, beta uno, sigma quadrato.i primi due vengono stimati tramite l’ OLS. Beta0 tramite campione e tramite OLS otteniamo B0 e b0 che è la stima dell’intercetta. Beta1 tramite campione e tramite OLS otteniamo B1 e b1 che è la stima del coefficiente angolare. Il sigma quadrato si stima in maniera differente :Sigma al quadrato diventa MSE , cioè l’errore quadratico medio , e mse che è la stima della varianza di Y o di epsilon. L’analisi di regressione ha come obiettivo la stima dei coefficienti di regressione e la varianza della popolazione sulla base di N osservazioni campionarie. una volta estratto il campione, attraverso la tecnica matematica nota come metodo dei minimi quadrati (o LS) si individuano coefficiente angolare ed intercetta della retta dei minimi quadrati che meglio si adatta ai dati disponibili. Il metodo suddetto consiste nel minimizzare la somma dei quadrati dei residui. La retta che si ottiene si può scrivere y= b1x1+b0+e. La retta di regressione Y= y cappelletto + e Y è il valore osservato, Y cappelletto è il valore teorico ed e è il residuo. la retta di regressione presenta delle proprietà: 1. La retta dei minimi quadrati è l’unica retta che minimizza la somma dei quadrati residui 2. La retta di minimi quadrati passa per il centro di gravità della nube dei punti 3. La retta dei minimi quadrati e tale che la somma dei residui sia zero Il residuo esprime la differenza tra il valore osservato il valore teorico.è positivo se il punto è posto sopra la retta, ed è negativo se posto sotto la retta. I residui hanno delle proprietà: 1. I residui se sommati fanno sempre zero 2. La somma dei residui al quadrato è SSE( la devianza residua) Come si stima la varianza del modello sigma al quadrato? La varianza del modello sigma al quadrato non viene stimata tramite lo stimatore SSE Poiché questo non è corretto, lo stimatore che si utilizza è MSE. Parametri, estimatori, stime Beta zero e beta uno sono i parametri da stimare, B0 e B1 sono gli estimatori dei parametri e b0 e b1 sono le stime dei parametri ottenuti dall’applicazione degli stimatori ad un campione. Le proprietà degli estimatori BZ e B1 (stimatori OLS)? Linearità, sono corretti, sono normali, e sono consistenti. Cosa afferma il teorema di GAUSS-MARKOV? Il teorema gauss markov afferma che nella classe degli estimatori lineari e corretti, gli estimatori dei minimi quadrati sono i più efficienti, cioè presentano una varianza minima ( vengono detti BLUE). Cosa si intende per bontà di accostamento della retta ai dati? Una volta calcolata la retta di regressione ha senso valutare l’effettivo legame lineare tra le variabili.a questo scopo si scompone la devianza totale in due componenti: SSE: devianza residua SSR: devianza di regressione Il coefficiente di determinazione lineare R al quadrato viene assunto come indice della bontà del modello, se la Relazione lineare forte R al quadrato è vicino a uno, se la relazione lineare e debole R al quadrato è vicino a zero. Sul parametro beta1 può essere fatto il test di linearità dove ponendo H0: Beta1 =0 indichiamo indipendenza lineare tra le variabili, H1: diverso da 0 indichiamo dipendenza lineare tra le variabili. Si va a fare la statistica test che segue una distribuzione t student ad n-2 gradi di libertà. INFERENZA L’inferenza studia le relazioni esistenti tra una popolazione di individui ed un campione da essa estratta. Per popolazione si intende oggi un insieme o collezione di oggetti, numeri, misure o osservazioni, che sono oggetto di studio. Per campione si intende invece una parte della popolazione, che viene selezionata per l’analisi. Una popolazione può essere finita o infinita, Per popolazioni finite si fa riferimento alla distribuzione effettiva dei valori, detta distribuzione di frequenza; per popolazioni infinite alla corrispondente distribuzione di probabilità o densità di probabilità. Quindi per popolazione si intende una popolazione i cui elementi hanno una distribuzione o densità di probabilità. Uno degli aspetti principali della statistica inferenziale consiste nel trarre delle conclusioni sui parametri di una popolazione utilizzando i corrispondenti valori campionari. La necessità di ricorrere ai metodi della statistica inferenziale deriva dalla necessità del campionamento: se la popolazione è infinita, è impossibile osservarne tutti i valori, ma anche quando è finita, questo può essere non pratico o antieconomico. Le ragioni per cui la ricerca viene effettuata per campione, piuttosto che attraverso una rilevazione totale, sono principalmente le seguenti:  l’estrazione di un campione richiede meno tempo rispetto all’esame dell’intera popolazione;  un campione è meno costoso;  un campione è più pratico da gestire;  a volte l’esame dell’intera popolazione è impossibile. Si usa perciò un campione e si traggono da esso, ossia si inferiscono, risultati riguardanti l’intera popolazione. La teoria dei campioni è lo studio delle relazioni esistenti tra una popolazione ed i campioni estratti da essa. Tale teoria si applica ad esempio per ottenere la stima dei parametri ignoti di una popolazione, come la media μ o la varianza σ2 o anche per stabilire se ad esempio le differenze osservate tra due campioni possono essere dovute al caso o se sono significative: le risposte a questo tipo di quesito implicano l’uso dei test di ipotesi. Campionamento L’inferenza ha come premessa la definizione del campionamento ovvero l’estrazione di campioni casuali da una popolazione di interesse. La più semplice tecnica di selezione di un campione è il campionamento casuale semplice, Nel campionamento casuale semplice si indica con n la dimensione del campione, ossia il numero di elementi del campione, e con N la dimensione della popolazione, ossia il numero di elementi della popolazione. La selezione del campione può essere fatta in due modi: - con reimmissione (ovvero reintroducendo idealmente gli individui già estratti); - senza reimmissione (in caso contrario). Dalla popolazione si estrae un campione “n”, ed ha mi e sigma al quadrato che sono i PARAMETRI della popolazione , sono valori non noti ma fissi e vanno stimati attraverso un indagine campionaria. Teoria della Stima Statistica Con il campionamento casuale possiamo ottenere informazioni riguardanti campioni estratti casualmente da una popolazione. E’ però più interessante trarre conclusioni sull’intera popolazione utilizzando i risultati ottenuti su campioni estratti da essa. Questi sono i problemi di cui si occupa l’inferenza statistica. I metodi della statistica inferenziale riguardano essenzialmente due aree: la stima dei parametri e i test di ipotesi. Stima dei parametri e stimatori Si definisce stima dei parametri (della popolazione) il procedimento col quale si arriva a determinare approssimativamente (con probabilità di errore α) i valori dei suddetti parametri in base ai dati campionari. I parametri della popolazione che più frequentemente accade di dover stimare sono:  la media µ di una popolazione;  la varianza σ2 di una popolazione;  la proporzione p di individui di una popolazione che appartengono a una certa classe di interesse; Ragionevoli stimatori campionari di questi parametri sono:  per µ, la media campionaria  per σ2 , la varianza campionaria  per p, la proporzione campionaria f = x/n dove x è il numero di individui in un campione di ampiezza n appartenenti alla classe di interesse. Il primo passo verso il parametro è il campionamento, si sceglie un campione casuale e semplice : x1, x2….xn Queste variabili formano un campione e sono indipendenti e identicamente distribuite. Il secondo passo è definire uno stimatore( statistica campionaria) E’ una funzione delle variabili estratte ed esso stesso è una variabile , ed essendo una variabile ha una media E(T) e una varianza V(T). Il terzo passo è la stima , dove andrò ad applicare lo stimatore (T) ad un parametro per ottenere la stima. Proprietà degli stimatori verificare l’esistenza di una correlazione lineare tra due caratteri quantitativi X e Y, e quello di rappresentare la distribuzione doppia (X,Y) attraverso un grafico a dispersione. Quanto più i punti tendono ad “allinearsi” tanto più forte sarà la dipendenza lineare (correlazione) tra le variabili. Una misura assoluta della concordanza/discordanza delle variabili è la codevianza (o la covarianza, che si ottiene moltiplicando la codevianza per il numero delle unità statistiche): • Codev(X,Y) = 0 Indipendenza correlativa • Codev(X,Y) > 0 Concordanza A valori più piccoli (grandi) di uno dei due caratteri corrispondono in media valori più piccoli (grandi) della seconda variabile. • Codev(X,Y) < 0 Discordanza A valori più piccoli (grandi) di uno dei due caratteri corrispondono in media valori più grandi (piccoli) della seconda variabile. La codevianza è una misura simmetrica: Codev(X,Y) = Codev(Y,X). Una misura relativa della concordanza è data dal coefficiente di correlazione lineare : 𝑟 = 𝑐𝑜𝑑𝑒𝑣(𝑋,𝑌) √𝑑𝑒𝑣(𝑋)∙𝑑𝑒𝑣(𝑌) −1 ≤ 𝑟 ≤ 1 Il coefficiente r è un numero che varia tra –1 a 1 ed ha lo stesso segno della codevianza. Se r=-1 , allora vi è una perfetta relazione lineare tra X ed Y e vi è discordanza. Se -1<r<0 , allora vi è discordanza Se r=0 , allora non vi è relazione lineare tra X ed Y, le variabili sono incorrelate , non vi è né concordanza, né discordanza. Se 0<r<1 , allora vi è concordanza. Se r=1 , allora vi è perfetta relazione lineare tra X e Y e vi è concordanza. Conclusioni È possibile stabilire la seguente gerarchia tra i tre concetti di indipendenza: Indipendenza statistica→ Indipendenza in media→Indipendenza correlativa Non vale però il viceversa: indipendenza correlativa⇏indipendenza in media⇏indipendenza statistica. Quindi nelle distribuzioni doppie vogliamo andare ad individuare l’associazione tra caratteri: dipendenza assoluta= due caratteri qualitativi dipendenza in media= 1 carattere qualitativo/quantitativo 0 0.5 1 1.5 2 2.5 3 3.5 0 1 2 3 4 5 6 Valori Y dipendenza lineare= 2 caratteri quantitativi A che serve il valore critico? A definire la Regione critica (o di rifiuto) Errore di prima specie e di seconda specie. (Rifarsi a quello schema con 4 scenari visto a lezione) Qual è l’obiettivo dell’inferenza statistica. (Stimare il valore dei parametri attraverso indagini campionarie) Esempio di parlamentari della popolazione? (Credo parametri. Mi sigma2 p cioè media, varianza e proporzione) Cosa dice la proprietà degli stimatori? (Quale proprietà? Comunque avete la correttezza e l'efficienza spiegate a lezione. Sufficienza e consistenza nel file inf2020) Un esempio di stimatore corretto? (Media campionaria) Come si calcola il valore critico? (Quello standardizzato leggendolo sulle tavole, quello non standardizzato con la formula (vedere penultima lezione)) Perché si parla di efficienza relativa e non assoluta? Qual è la differenza tra efficienza assoluta e relativa? (si parla di efficienza relativa quando si confronta l’eqm di uno stimatore con l’eqm di un altro stimatore, vedi file inf2020) (uno stimatore corretto è invece efficiente in senso assoluto se la sua varianza raggiunge il limite inferiore della disuguaglianza di Cramér Rao)(la differenza è quindi che l’efficienza relativa si definisce tramite un confronto tra le varianze di due stimatori mentre quella assoluta si definisce tramite il confronto tra la varianza di uno stimatore e un livello di riferimento) Varianza dello stimatore media campionaria?(Sigma2/n, vedi lezione 7) Che relazione esiste tra l’errore di prima e seconda specie? (Inversa) C’è un modo per minimizzare contemporaneamente alfa e beta? (Risposta: aumentare la numerosità campionaria) Come si gestiscono l’errore di prima e seconda specie? (Alfa si fissa basso, si cerca di minimizzare Beta) A) considerazioni sulla potenza del test • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando la dimensione campionaria • è possibile ridurre l’errore di II tipo (e quindi aumentare la potenza) aumentando il livello di significatività (ma questa scelta ci espone a maggiori rischi di errore di tipo I) • maggiore è la distanza tra ipotesi alternativa e l’ipotesi nulla, maggiore sarà la potenza del test • minore è la dispersione della variabile, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test • maggiore è l’α prescelto (minore sarà beta), maggiore sarà la potenza del test • maggiore è la dimensione campionaria, minore sarà la varianza della media campionaria, più strette saranno le corrispondenti distribuzioni, e maggiore sarà la potenza del test aggiungo che a parità di alfa i test unilaterali (destro o sinistro) sono sempre piu' potenti di quello bilaterale
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved