Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

DATA ANALYSIS CAPITOLO 8, Sintesi del corso di Statistica Economica

riassunto capitolo n8 del libro di Data Analysis

Tipologia: Sintesi del corso

2019/2020

Caricato il 10/05/2020

Bia996
Bia996 🇮🇹

4.6

(6)

9 documenti

Anteprima parziale del testo

Scarica DATA ANALYSIS CAPITOLO 8 e più Sintesi del corso in PDF di Statistica Economica solo su Docsity! Lezione 5 capitolo 8 In questo caso entriamo nel campo della statistica MULTIVARIATA (ossia avremo dei data set con più di una variabile). Uno dei bisogni dunque è quello di ridurre la complessità. Molte applicazioni di analisi aziendale implicano la modellizzazione delle relazioni tra una o più variabili indipendenti e alcune variabili dipendenti. ad esempio, potremmo voler prevedere il livello delle vendite in base al prezzo che stabiliamo o estrapolare una tendenza nel futuro. come altro esempio, un'azienda potrebbe voler prevedere vendite basate sul PIL degli Stati Uniti (prodotto interno lordo) e sul tasso dei buoni del tesoro a 10 anni per catturare l'influenza del ciclo economico, oppure un ricercatore di marketing potrebbe voler prevedere l'intenzione di acquistare un particolare modello di automobile basato su un sondaggio che ha misurato le attitudini dei consumatori verso il marchio, il passaparola negativo e il livello di reddito. le linee di tendenza e l'analisi di regressione sono strumenti per costruire tali modelli e prevedere i risultati futuri. il nostro obiettivo principale è quello di acquisire una conoscenza di base su come utilizzare e interpretare le linee di tendenza e i modelli di regressione, le questioni statistiche associate all'interpretazione dei risultati dell'analisi di regressione e le questioni pratiche nell'uso della linea di tendenza e della regressione come strumenti per prendere e valutare le decisioni. Comprendere sia la matematica che le proprietà descrittive delle diverse relazioni funzionali è importante per costruire modelli analitici predittivi. comprendere sia la matematica che le proprietà descrittive delle diverse relazioni funzionali è importante per costruire modelli analitici predittivi. iniziamo spesso creando un grafico dei dati per capirli e scegliamo il tipo appropriato di relazione funzionale da incorporare in un modello analitico. per i dati trasversali, utilizziamo un grafico a dispersione; Tipi comuni di funzioni matematiche utilizzate nei modelli analitici predittivi includono:  FUNZIONE LINEARE Y = a+bx Le funzioni lineari mostrano aumenti o diminuzioni costanti nell'intervallo di x. questo è il tipo più semplice di funzione utilizzata nei modelli predittivi. è facile da capire e su piccoli intervalli di valori, può approssimare piuttosto bene il comportamento)  FUNZIONE LOGARITMICA Y=ln(x) Le funzioni logaritmiche vengono utilizzate quando la velocità di variazione in una variabile aumenta o diminuisce rapidamente. Le funzioni logaritmiche sono spesso utilizzate nei modelli di marketing in cui aumenti percentuali costanti della pubblicità, ad esempio, comportano costanti aumenti assoluti delle vendite.  FUNZIONE POLINOMIALE (di 2° ordine) y = ax2 + bx + c Un polinomio di secondo ordine è di natura parabolica e ha solo una ‘collina’. 1  FUNZIONE POLINOMIALE (di 3° ordine) y = ax3 + bx2 + dx + e Un polinomio di terzo ordine ha una o due colline. I modelli di entrate che incorporano l'elasticità dei prezzi sono spesso funzioni polinomiali.  FUNZIONE POTENZA y = axb Le funzioni di potenza definiscono fenomeni che aumentano a una velocità specifica. Le curve di apprendimento che esprimono tempi di miglioramento nell'esecuzione di un'attività sono spesso modellate con funzioni di potenza.  FUNZIONE ESPONENZIALE y = abx Le funzioni esponenziali hanno la proprietà che y aumenta o diminuisce a velocità in costante aumento. Le funzioni esponenziali sono spesso definite come y = aex dove b = e, la base dei logaritmi naturali (2.71828) EXCEL FORMAT TRENDLINE Lo strumento Excel Trend Line fornisce un metodo conveniente per determinare la relazione funzionale più adatta tra queste alternative per un set di dati. ANALISI di REGRESSIONE  mi serve prevedere il futuro per necessità, senza però tener conto del caso. Questo implica un approccio teorico: la regressione interpreta la realtà come una macchina. (o c’è input o c’è output). Una volta capito il meccanismo lo sfrutto a mio favore. Per esempio se voglio prevedere le VENDITE: se controllo il mio marketing mix io determinerò le mie vendite. Però io posso avere più cause (insieme) che determinano i risultati. Le vendite non sono solo prodotte dal prezzo, non sono solo prodotte dalle promozioni, dal luogo e così via, ma un insieme di cause. 2 La figura mostra un grafico di dati storici sui prezzi del petrolio il primo venerdì di ogni mese da gennaio 2006 a giugno 2008. utilizzando lo strumento della linea di tendenza, possiamo provare ad adattare le varie funzioni a questi dati (qui X rappresenta il numero di mesi a partire da gennaio 2006). I risultati sono i seguenti: Exponential y = 50.49e0.021x R2 = 0.664 Logarithmic y = 13.02ln(x) + 39.60 R2 = 0.382 Polynomial 2° y = 0.13x2 − 2.399x + 68.01 R2 = 0.905 Polynomial 3° y = 0.005x3 − 0.111x2 + 0.648x + 59.497 R2 = 0.928 * Power y = 45.96x0.0169 R2 = 0.397 il modello più adatto è il polinomio del terzo ordine come si può vedere: (linea di puntini rossa) 5 Quando si usano le funzioni polinomiali bisogna fare attenzione. Il valore R2 continuerà ad aumentare come l'ordine degli aumenti polinomiali; cioè un quarto ordine di polinomio fornirà un adattamento migliore di un terzo ordine, e così via. I polinomi di ordine superiore generalmente non saranno molto regolari/lisci e sarà difficile da interpretare visivamente. Pertanto, non è consigliabile andare oltre un terzo ordine di polinomio. Tu comunque usa il tuo occhio per dare un buon giudizio! Ovviamente il modello corretto da utilizzare dipende dall'ambito dei dati. Come mostra il grafico, i prezzi de erano relativamente stabili fino all'inizio del 2007 e poi hanno iniziato ad aumentare rapidamente. Includendo i primi dati, la relazione funzionale a lungo termine potrebbe non esprimere adeguatamente la tendenza a breve termine. Ad esempio, adattando un modello solo ai dati che iniziano con gennaio 2007 si ottengono questi modelli: exponential y = 50.56 e0.044x R2= 0.969 polynomial (2°) y= 0.121x2 + 1232x + 53.48 R2= 0.968 linear y= 3.548x + 45.76 R2= 0.944 La differenza nella previsione può essere significativa. Ad esempio, per prevedere il prezzo 6 mesi dopo l'ultimo punto dati (x = 36) si ottengono $ 172,24 per l'adattamento polinomiale del terzo ordine con tutti i dati e $ 246,45 per il modello esponenziale con solo i dati recenti. Pertanto, l'analisi deve essere attenta a selezionare la quantità corretta di dati per l'analisi. la domanda diventa quindi quella di scegliere i migliori presupposti per il modello. è ragionevole supporre che i prezzi aumentino in modo esponenziale o forse a un ritmo più lento, come nel caso del modello lineare? o si livellerebbero e inizierebbero a cadere? chiaramente fattori diversi dalle tendenze storiche entrerebbero in questa scelta. come ora sappiamo, i prezzi del petrolio sono crollati nella seconda metà del 2008; pertanto, tutti i modelli predittivi sono rischiosi. In generale: cosa ci dice il grafico? 6 Ci dice quanto varia una variabile rispetto all’altra. Es. Prezzi: variabile esplicativa che determina  Domanda: variabile dipendente. Devono essere variabili NUMERICHE. REGRESSIONE LINEARE SEMPLICE O MULTIPLA? Ho 2 tipi di regressione: - Regressione lineare semplice (non ha applicazioni concrete perché appunto è troppo semplice). - Regressione lineare multipla (più cause collegate ad un effetto). L'analisi di regressione è uno strumento per la costruzione modelli matematici e statistici che caratterizzano le relazioni tra una variabile dipendente (che deve essere una variabile di rapporto ‘RATIO’ e non categorica) e una o più indipendenti, oppure variabili esplicative -indipendenti- (ratio o categorica), tutte che sono numeriche. Due ampie categorie di modelli di regressione sono spesso utilizzate in contesti aziendali: 1) modelli di regressione di dati trasversali o ‘cross-sectional’ e 2) modelli di regressione di dati di serie temporali/serie storiche, in cui le variabili indipendenti sono tempo o una funzione del tempo e l'attenzione è rivolta alla previsione del futuro. La regressione delle serie storiche è uno strumento importante nelle previsioni.  Un modello di regressione che coinvolge una singola variabile indipendente è chiamato regressione semplice.  Un modello di regressione che coinvolge due o più variabili indipendenti è chiamato regressione multipla. REGRESSIONE LINEARE SEMPLICE: La regressione lineare SEMPLICE implica la ricerca di una relazione lineare tra una variabile indipendente (X) una variabile dipendente (Y). La relazione tra due variabili può assumere molte forme. La relazione può essere lineare o non lineare o potrebbe non esserci alcuna relazione. Poiché stiamo concentrando la nostra discussione sui modelli di regressione lineare, la prima cosa da fare è verificare che la relazione sia lineare  Non ci aspettiamo di vedere i dati allineati perfettamente lungo una linea retta; vogliamo semplicemente verificare che la relazione generale sia lineare. 7 (se togli l’outliers, R2 si alza! L'equazione è valore di mercato = $ 32,673 + $ 35,036 x metri quadrati (COSTANTE FISSA) (35$ PER OGNI M QUADRATO) (VARIABILE) Il valore della linea di regressione può essere spiegato come segue: supponiamo di voler stimare il valore di mercato per qualsiasi abitazione della popolazione da cui sono stati raccolti i dati del campione. Se sappiamo i valori di mercato, la migliore stima del valore di mercato per qualsiasi casa sarebbe semplicemente la media del campione che è $ 92,069. Quindi, non importa se la casa ha 1.500 m quadrati o 2.200 m quadrati, la migliore stima del valore di mercato sarebbe comunque $ 92,069. Poiché i valori di mercato variano da circa $ 75.000 a oltre $ 120.000, vi è una certa incertezza nell'usare la media come stima. Tuttavia, dal grafico a dispersione, vediamo che le case più grandi tendono ad avere valori di mercato più elevati. Pertanto, se sappiamo che una casa ha 2.200 m quadrati, ci aspetteremmo che la stima del valore di mercato sia superiore rispetto a quella che ha solo 1.500 m quadrati. Ad esempio, il valore di mercato stimato di una casa con 2.200 m quadrati sarebbe: VALORE DEL MERCATO = 32.673 + 35.036 x 2.200 = 109.752 $ mentre il valore stimato per una casa con 1.500 m quadrati sarebbe VALORE DI MERCATO= 32.673 + 35.036 x 1.500 = 85.227 Il modello di regressione spiega le differenze nei valori di mercato in funzione delle dimensioni della casa e fornisce stime migliori rispetto al semplice utilizzo della media dei dati del campione. Un avvertimento importante: è pericoloso estrapolare un modello di regressione al di fuori degli intervalli coperti dalle osservazioni. Ad esempio, se si desidera prevedere il valore di mercato di una casa con 3.000 m quadrati, i risultati potrebbero essere o non essere accurati poiché le stime del modello di regressione non hanno utilizzato osservazioni superiori a 2.400 m quadrati. Non possiamo essere sicuri che una estrapolazione lineare rimarrà e non dovremmo usare il modello per fare tali previsioni. 10  ll modello di regressione spiega la variazione in valore di mercato dovuto alla dimensione della casa. Fornisce stime migliori del valore di mercato rispetto a usare semplicemente la media. (possiamo trovare la migliore linea di adattamento usando lo strumento Excel Trendline -con l'opzione lineare scelta-) REGRESSIONE DEI MINIMI QUADRATI La base matematica per la migliore linea di regressione si chiama LEAST SQUARES REGRESSION. Nell'analisi di regressione ipotizziamo che i valori della variabile dipendente Y nei dati del campione siano tratti da una popolazione sconosciuta per ciascun valore della variabile indipendente X. Ad esempio, nei dati sul valore del mercato la prima e la quarta osservazione provengono da una popolazione di case con 1.812 m quadrati; la seconda osservazione proviene da una popolazione di case con 1.914 m quadrati e così via. Poiché supponiamo che esista una relazione lineare, il valore atteso di Y è B0 + B1X per ciascun valore di X. I coefficienti B0 e B1 sono parametri di popolazioni che rappresentano rispettivamente l'intercetta e la pendenza della popolazione da cui viene prelevato un campione di osservazioni. L'intercetta B0 è il valore medio di Y quando X = 0 e la pendenza è la variazione del valore medio di Y quando X cambia di un'unità. Quindi, per un valore specifico di X, abbiamo molti possibili valori di Y che variano attorno alla media. Per tenere conto di ciò, aggiungiamo un termine di errore, e, alla media. Questo definisce un semplice modello di regressione lineare: Tuttavia, poiché non conosciamo l'intera popolazione, non conosciamo i valori reali di β0 e β1. In pratica dobbiamo stimarli come meglio possiamo dai dati di esempio. Definiamo così b0 e b1 come stime di β0 e β1. Quindi l'equazione di regressione lineare semplice stimata è Y stimato; b0 è il coefficiente della retta di regressione X;b1 è il coefficiente della retta di regressione y. Lascia che Xi sia il valore della variabile indipendente dell'” i th” -ennesima- osservazione. Quando il valore della variabile indipendente è Xi, si avrà che Yi = b0 + b1Xi è il valore stimato di Y per Xi. 11 Un modo per quantificare la relazione tra ciascun punto e l'equazione di regressione stimata è misurare la distanza verticale tra di essi. I minimi quadrati sono uno STRUMENTO che minimizza le distanze tra la retta e i punti osservati. Possiamo pensare a queste differenze, e, come agli errori osservati (spesso chiamati RESIDUALI o RESIDUI) associati alla stima del valore della variabile dipendente usando la linea di regressione. quindi, l'errore associato alla “ith”- ennesima - osservazione è: FORMULA DEI RESIDUI I residui = sono gli errori osservati associati con la stima del valore della variabile dipendente la linea di regressione. La migliore linea di adattamento dovrebbe ridurre al minimo alcune misure di questi errori. Poiché alcuni errori saranno negativi – SE SONO SOTTO ALLA RETTA- e altri positivi – SE SONO SOPRA LA RETTA-, potremmo prendere il loro valore assoluto o semplicemente quadrarli. Matematicamente è più facile lavorare con i quadrati degli errori per cui aggiungendo i quadrati degli errori otteniamo la seguente funzione: MA  La linea più adatta minimizza la somma dei quadrati di residui. Se riusciamo a trovare i migliori valori di pendenza e intercetta che minimizzano la somma dei quadrati (da cui il nome "minimi quadrati") degli errori osservati, avremo trovato la linea di regressione più adatta. Notare che Xi e Yi sono i valori dei dati campione e che b0 e b1 sono sconosciuti nelle equazioni. Usando il calcolo possiamo mostrare che la soluzione che minimizza la somma dei quadrati degli errori osservati è: 12 spiegata dalla variabile indipendente del modello di regressione. Il valore di R2 è compreso tra 0 e 1. Un valore di 1,0 indica adattamento perfetto e tutti i punti dati si trovano sulla linea di regressione, mentre un valore di 0 indica che non esiste alcuna relazione. Sebbene desideriamo un valore elevato di R2, è difficile specificare un buon valore che significhi una relazione forte perché dipende dall'applicazione. Ad esempio in applicazioni scientifiche come la calibrazione di apparecchiature di misurazione fisica, ci si aspetterebbe valori di R2 vicini a 1; negli studi di ricerca di mercato e marketing un R2 di 0,6 o più è considerato molto buono; tuttavia in molte applicazioni di scienze sociali i valori nel vicinato di 0,3 potrebbero essere considerati accettabili. - Adjusted R Square: R2 corretto  regola l’R2 per la dimensione del campione e numero di variabili X. È più preciso di R2 normale. Corregge per la dimensione del campione e il numero di variabili. Per esempio R2= 0,53, R2corretto = 0,52. È sempre più piccolo. il quadrato corretto è una statistica che modifica il valore di R2 incorporando la dimensione del campione e il numero di variabili esplicative nel modello. Sebbene non fornisca la percentuale effettiva di variazione spiegata dal modello come R2, è utile quando si confronta questo modello con altri modelli che includono variabili esplicative aggiuntive. - Standard Error: Errore standardizzato  variabilità tra valori Y osservati e previsti. Questo è formalmente chiamato errore standard della stima, SYX. È l’errore tra i dati Y e la stima lineare Ycappuccio. L’errore standardizzato stima di quanto si sbaglia tra il valore reale e quello stimato. L’errore standard nell'output di Excel è la variabilità dei valori osservati della Y e i valori previsti ycappuccio. Questo è formalmente chiamato l'errore standard della stima, Syx. Se i dati sono raggruppati vicino alla linea di regressione, l'errore standard sarà piccolo; più i dati sono sparsi, maggiore è l'errore ste standard. Es. 8.6 Dopo aver usato lo strumento di regressione Excel, le prime cose da cercare sono i valori della pendenza e dell'intercetta, vale a dire le stime b1 e b0 nel modello di regressione. Nell'esempio del valore del mercato delle case, vediamo che l'intercetta è 32.673 e la pendenza (coefficiente della variabile indipendente, m quadrati) è 35.036, proprio come avevamo calcolato in precedenza. Nella sezione delle statistiche di regressione, R2 = 0,5347. Ciò significa che circa il 53% della variazione del valore di mercato è spiegato dai m quadrati. La variazione rimanente è dovuta ad altri fattori che non sono stati inclusi nel modello (es ci possono essere anche altri fattori che aumentano il valore di mercato delle case oltre i m quadrati, come ad esempio: la zona, la vista, a che piano si trova l’appartamento, i tipi di servizi.. ci sono più variabili che determinano il prezzo!). L'errore standard della stima è $ 7.287,72. se lo confrontiamo con la deviazione standard del valore di mercato, che è $ 10,553, vediamo che la variazione attorno alla linea di regressione 7.287,72 è MENO della variazione attorno alla media del campione (10.553) questo perché la variabile indipendente nel modello di regressione spiega alcune delle variazioni. 15 Regressione come analisi della varianza (ANOVA) L'analisi della varianza (ANOVA) conduce il test F per determinare se la variazione dovuta a un fattore particolare, come le differenze nelle medie del campione, è significativamente maggiore di quella dovuta dall'errore. L'ANOVA viene comunemente applicato alla regressione per verificare il significato della regressione. È semplicemente un test di ipotesi per stabilire se il coefficiente di regressione β1 (pendenza della variabile indipendente, β0 è l’intercetta) è zero: ANOVA is used to test for significance of regression: (è utilizzata per testare la significatività della regressione):  H0: β1 coefficiente di pendenza = 0  H1: β1 coefficiente di pendenza ≠ 0 (Excel riporta il p-value (Significato F). Il rifiuto di H0 indica che X spiega la variazione in Y IPOTESI NULLA ACCETTATA (H0) = la pendenza della retta di regressione della popolazione è zero  i dati sono SCORRELATI completamente, non c’è relazione e dunque la regressione non c’è. Se invece rifiutiamo l'ipotesi nulla, allora possiamo concludere che la pendenza della variabile indipendente non è zero e quindi è statisticamente significativa nel senso che spiega alcune delle variazioni della variabile dipendente attorno alla media. Ciò che è importante è il valore della significatività F, che è il p-value per il test F. Se la significatività F è inferiore al livello di significatività (tipicamente 0,05) rifiuteremmo l'ipotesi nulla. Es. 8.7 Per l'esempio del valore del mercato immobiliare, ANOVA TEST è mostrato nelle righe 10-14 nella figura 16 Significato F, ovvero il p-value associato al test di ipotesi H0: β1 = 0  Home size is not a significant variable H1: β1 ≠ 0  Home size is a significant variable La significatività di F è essenzialmente zero ( 3.798 x 10-8). Pertanto, assumendo un livello di significatività di 0,05 (0,05 è accettabile, 0 no) , dobbiamo rifiutare l'ipotesi nulla e concludere che la pendenza, ovvero il coefficiente per i m quadrati, non è zero e questo significa che la grandezza delle case è statisticamente una variabile significativa per spiegare le variazioni (di prezzo) nel mercato del valore dell’immbobile. È una relazione LINEARE! Senza il test di ipotesi (TEST F/ TEST ANOVA) non ha nessun utilizzo pratico. C’è un altro test da fare  il test di ipotesi del coefficiente di regressione! È il TEST T TEST DI IPOTESI DEL COEFFICIENTE DI REGRESSIONE- T STAT Un metodo alternativo per testare se l’intercetta o la pendenza sono zero, si usa il T-TEST. Le righe 17-18 dell'output di Excel oltre a specificare i coefficienti dei minimi quadrati forniscono informazioni aggiuntive per il test delle ipotesi associate all'intercetta e alla pendenza. 17 stima potrebbe essere di 14.823 + 24.59 (1.750) = $ 57.855 o fino a 50.523 + 45,48 (1.750) = $ 130.113. Intervalli di confidenza più ristretti forniscono una maggiore precisione nelle nostre previsioni. ANALISI RESIDUA E IPOTESI DI REGRESSIONE Residuo = valore vero – valore stimato  i residui sono gli errori osservati che sono le differenze tra i valori effettivi e i valori stimati della variabile dipendente usando l'equazione di regressione. La figura mostra una parte della tabella residua generata dallo strumento di regressione di Excel. l'output residuo include per ogni osservazione il valore previsto utilizzando l'equazione di regressione stimata, il residuo e il residuo standard. Il residuo è semplicemente la differenza tra il valore effettivo della variabile dipendente e il valore previsto oppure: Yi-Ycappuccioi. la figura mostra il ‘residual plot’ generato dallo strumento Excel. Questo grafico è in realtà un grafico a dispersione dei residui con i valori della variabile indipendente sull'asse x. REDISUI STANDARDIZZATI: 20 i residui standard sono residui divisi per la loro deviazione standard. I residui standardizzati descrivono come/quanto ogni residuo sia distante dalla sua media in unità di deviazioni standard (un valore z simile per una distribuzione normale standard). i residui standard sono utili per verificare le ipotesi alla base dell'analisi di regressione e per rilevare valori anomali che potrebbero influenzare i risultati. Ricordiamo che un valore anomalo è un valore estremo diverso dal resto dei dati. Un singolo outlier può fare una differenza significativa nell'equazione di regressione, cambiando la pendenza e l'intercetta e, quindi, come sarebbero interpretati e usati nella pratica. Alcuni considerano un residuo standardizzato al di fuori di + - 2 deviazioni standard un valore anomalo. Una regola empirica più conservativa sarebbe quella di considerare i valori anomali di un intervallo di deviazione standard + -3. Formula  RESIDUI STANDARD = residuo ________________ Deviazione standard. Regola empirica: residui standard al di fuori di ± 2 o ± 3 sono potenziali valori anomali. CHECKING ASSUMPTION – controllo delle Statistical hypothesis tests associate all'analisi di regressione sono basate su alcune ipotesi/assunzioni chiave sui dati: 1) LINEARITA’: Ci deve essere una condizione di partenza! Se sono già convinto che tra le variabili non ci sia una relazione tra loro è inutile che faccio la regressione. Dunque ci vuole la condizione di LINEARITA’  ci deve essere un trend lineare già nella mappa che osserviamo, è ovvio che se vediamo una nuvola di punti evidentemente non esiste relazione. Questo viene solitamente verificato esaminando un diagramma a dispersione dei dati o esaminando il diagramma residuo. Se il modello è appropriato, i residui dovrebbero apparire casualmente sparsi su zero senza alcun modello apparente. Se i residui presentano uno schema ben definito come una tendenza lineare, una forma parabolica e così via, allora ci sono buone prove che qualche altra forma funzionale potrebbe adattarsi meglio ai dati. In sequenza ciò che si deve fare è:  esaminare il diagramma a dispersione (dovrebbe apparire lineare)  esaminare la trama residua (dovrebbe apparire casuale) 2) NORMALITA’ DEGLI ERRORI  la distanza degli errori deve essere normale. L'analisi di regressione presuppone che gli errori per ogni singolo valore di X siano normalmente distribuiti con una media di zero. Questo può essere verificato esaminando un istogramma dei residui standard e ispezionando una distribuzione a forma di campana o usando test di bontà di adattamento. Di solito è difficile valutare la normalità con piccole dimensioni semplici. - visualizza un istogramma di residui standard - la regressione è robusta per le deviazioni dalla normalità 3) OMOSCHEDASTICITA’  non ci deve essere il dubbio che possano esserci due rette. Il che significa che la variazione sulla linea di regressione è costante per tutti i valori della variabile indipendente. Questo può anche essere valutato esaminando il diagramma dei 21 residui e cercando grandi differenze nelle varianze con valori diversi della variabile indipendente. Se questa ipotesi viene gravemente violata, per stimare il modello di regressione dovrebbero essere utilizzate tecniche diverse dai minimi quadrati. = la variazione sulla linea di regressione è costante. Esaminare il ‘residual plot’. 4) INDIPENDENZA DEGLI ERRORI  il fenomeno non deve essere collegato agli errori. i residui dovrebbero essere indipendenti per ciascun valore della variabile indipendente. per i dati trasversali (cross-sectional data) questo presupposto di solito non è un problema. tuttavia quando il tempo è la variabile indipendente, questa è un'ipotesi importante. se le osservazioni successive sembrano essere correlate, ad esempio diventando più grandi nel tempo o esibendo un ciclico pattern, allora questa ipotesi viene violata. la correlazione tra osservazioni successive nel tempo è chiamata autocorrelazione e può essere identificata da grafici residui che hanno gruppi di residui con lo stesso segno. Osservazioni successive dovrebbero non essere correlate. Questo è importante quando la variabile indipendente è tempo. Quando vengono violate le ipotesi/assunzioni di regressione, allora le inferenze statistiche sottratte ai test di ipotesi potrebbero non essere valide. quindi, prima di trarre conclusioni sui modelli di regressione ed eseguire test di ipotesi, è necessario verificare questi presupposti. ES. 8.11 Controllare le ipotesi/assunzioni di regressione da Home market value data - Linearità: l diagramma a dispersione dei dati del valore di mercato sembra essere lineare; guardando anche la trama residua e non conferma alcuna tendenza/modello/relazione nei residui. Come si può vedere: - - Normalità degli errori: l’istogramma dei residui appare leggermente “skewed”. Ha la forma di una distribuzione normale? la distribuzione sembra essere in qualche modo distorta in modo positivo (in particolare con i valori anomali) ma non sembra essere un serio distacco dalla normalità, in particolare perché le dimensioni del campione sono piccole. 22 21 Se l'ipotesi nulla viene respinta, non possiamo concludere che esiste una relazione con ogni variabile indipendente individualmente. Gli output di regressione lineare multipla danno delle informazioni per verificare le ipotesi su ciascuno dei coefficienti di regressione individuali. In particolare possiamo testare l'ipotesi nulla secondo cui b0 (l'intercetta) o qualsiasi bi sia uguale a zero. Se rifiutiamo l'ipotesi nulla associata alla pendenza la variabile indipendente i è 0 (H0: Bi = 0) quindi la variabile indipendente i è significativa e migliora la capacità del modello di prevedere meglio la variabile dipendente. Se non possiamo rifiutare H0, allora la variabile indipendente non è significativa e probabilmente non dovrebbe esserlo incluso nel modello. Infine per il modello di regressione multipla viene generato un diagramma residuo per ogni variabile indipendente. ciò consente di valutare le ipotesi di linearità e omoschedasticità della regressione. ES 8.12 Molte università provano a prevedere le prestazioni degli studenti in funzione di diverse caratteristiche. nel file Excel supponiamo che desideriamo prevedere il tasso di laurea in funzione delle altre variabili: SAT media, tasso di accettazione, spese / studente e percentuale tra i primi 10% della classe del liceo. è logico proporre che le scuole con studenti che hanno punteggi SAT più alti, un tasso di accettazione più basso, un budget maggiore e una percentuale più alta di studenti nel 10% superiore delle loro classi di scuola superiore tenderanno a trattenere e laureare più studenti. 25 Dalla sezione dei coefficienti, vediamo che il modello è: Graduation%= 17.92+0.072SAT – 24.859 ACCEPTANCE – 0-000136 EXPENDITURES – 0.163TOP10%HS i segni di alcuni coefficiente hanno un senso; punteggi SAT più alti e tassi di accettazione più bassi suggeriscono tassi di graduazione più alti. tuttavia potremmo aspettarci che anche le maggiori spese degli studenti e una percentuale più elevata di studenti delle scuole superiori influenzino positivamente il tasso di laurea. Forse il problema si è verificato perché alcuni dei migliori studenti sono più esigenti e cambiano scuola se i loro bisogni non vengono soddisfatti, alcuni studenti potrebbero perseguire altri interessi prima della laurea o c'è un errore di campionamento. come con la regressione lineare semplice, il modello dovrebbe essere utilizzato solo per i valori delle variabili indipendenti all'interno dell'intervallo dei dati. Il valore di R2 (0.53) indica che il 53% della variazione nella variabile dipendente è spiegato da queste variabili indipendenti. Questo suggerisce che altri fattori non inclusi nel modello, forse le condizioni di vita del campus, le opportunità sociali e così via, potrebbero anche influenzare il tasso di laurea (perché altrimenti ci sarebbe stato un 100%). Dalla sezione ANOVA possiamo testare il significato della regressione. a un livello di significatività del 5% rifiutiamo l'ipotesi nulla perché il significato F è essenzialmente zero. pertanto possiamo concludere che almeno una pendenza è statisticamente diversa da zero. osservando il p-value per le variabili indipendenti nell'ultima sezione, vediamo che tutti sono inferiori a 0,05; pertanto rifiutiamo l'ipotesi nulla che ogni coefficiente di regressione parziale sia zero e concludiamo che ciascuno di essi è statisticamente significativo. la figura mostra uno dei grafici residui dell'output di Excel. le ipotesi sembrano essere soddisfatte e anche gli altri grafici residui -non mostrati- convalidano queste ipotesi. Il diagramma della 26 probabilità normale non suggerisce alcuna deviazione seria dal servizio normale. COSTRUIRE BUONI MODELLI DI REGRESSIONE 27
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved