Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Tecniche e modelli di analisi multivariata, Appunti di Metodologia E Tecniche Di Ricerca Sociale

Sbobina completa delle pillole del prof. Di Franco sul manuale "Tecniche e modelli di analisi multivariata"

Tipologia: Appunti

2020/2021

Caricato il 27/05/2022

caringirebecca
caringirebecca 🇮🇹

4

(3)

8 documenti

Anteprima parziale del testo

Scarica Tecniche e modelli di analisi multivariata e più Appunti in PDF di Metodologia E Tecniche Di Ricerca Sociale solo su Docsity! “TECNICHE E MODELLI DI ANALISI MULTIVARIATA” Differenza tra tecniche e modelli di analisi multivariata. Per capirla, posso fare quest’analogia: le tecniche possiamo assimilarle a quello che è il lavoro degli investigatori (chi va a cercare le tracce e le prove a proposito di un qualunque reato commesso) con l’obiettivo di individuare chi possa essere l’eventuale colpevole. Si tratta dunque di una funzione tipicamente esplorativa e descrittiva di quello che viene sottoposto ad analisi (variabili o casi). I modelli corrispondono non più al lavoro degli investigatori, ma alla funzione della giuria. La giuria cosa fa? A seguito di un procedimento dove si portano le prove, la giuria emana un verdetto, in questo caso in termini di colpevole o innocente. Nel nostro caso il verdetto riguarda il controllo empirico di alcune ipotesi che esprimono una relazione di un certo tipo (che viene indicata nell’ipotesi stessa) delle variabili che sono sottoposte a controllo empirico. L’esito di questo controllo ci darà indicazioni circa la conferma o eventuale disconferma di quello che viene asserito nelle ipotesi stesse. Quindi si tratta di due funzioni sì complementari, ma comunque diverse. Le tecniche sono molto utili nelle fasi esplorative, descrittive, sintetiche, cioè servono ad esplorare, descrivere e sintetizzare quello che abbiamo nella matrice dei dati, perché naturalmente tutto quello che noi facciamo, quando parliamo di analisi dei dati, parte dalla costruzione della matrice dei dati con le variabili nelle colonne e i casi nelle righe. L’analisi dei dati non può iniziare se prima non abbiamo costruito la matrice. I modelli non hanno la funzione delle tecniche, ma svolgono un altro compito altrettanto importante: sottoporre a controllo empirico le ipotesi che abbiamo formulato sia prima della ricerca stessa che durante l’iter della ricerca, non c’è una scadenza entro la quale formulare le suddette ipotesi. Naturalmente però in ogni ricerca, nel momento in cui definisco il progetto, dovrò comunque formulare, se non delle vere e proprie ipotesi, delle cosiddette domande chiave alle quali poi la ricerca dovrà poter rispondere; ovviamente questa risposta dovrà essere corroborata, sostenuta dal piano empirico, cioè quello che noi abbiamo costruito attraverso la ricerca empirica condotta nel momento opportuno. Introduciamo in queste due famiglie di strumenti le specifiche tecniche e modelli che si potranno usare quando avremo a disposizione variabili di un certo tipo, perché nell’ambito delle ricerche progettiamo, rileviamo e inseriamo in matrice diverse variabili che hanno una natura diversa e dobbiamo saperle distinguere. A seconda del tipo di variabile dobbiamo saper scegliere le procedure compatibili con esso. Nell’analisi dei dati le procedure che riguardano le variabili cardinali sono molto più semplici delle procedure che riguardano le variabili categoriali. Il motivo? Dovuto al fatto che le variabili categoriali in realtà sono un insieme di categorie che si riferiscono a ciascuna variabile. Quindi, quando si studia la relazione non è la relazione tra variabili, ma tra le modalità di una variabile e le modalità dell’altra. Dunque, quando abbiamo più variabili categoriali, la trama delle relazioni si complica perché è uguale al prodotto delle modalità della prima x le modalità della seconda x la modalità della terza e così via a crescere. Invece, con le variabili cardinali, ogni variabile è una variabile cardinale, cioè rappresenta una distribuzione di valori. L’analisi bivariata è solo l’inizio dell’analisi: fermarsi lì lascerebbe totalmente incompiuto un lavoro che da lì può partire ma ovviamente non concludersi. TECNICHE DI ANALISI MULTIVARIATA: ● analisi in componenti principali (ACP); ● analisi delle corrispondenze multiple (ACM); ● analisi dei gruppi (ADG) 1. Analisi in componenti principali: è una tecnica che sintetizza solamente variabili cardinali (e quasi-cardinali). Consente di sintetizzare l’informazione raccolta con un numero elevato di variabili cardinali tra di loro correlate, attraverso un numero solito molto più piccolo di nuove variabili, dette componenti principali, ognuna delle quali esprime una combinazione lineare delle variabili originarie. Il punto di partenza di un’analisi in componenti principali è la matrice delle correlazioni lineari, che non è altro che una matrice dove per ciascuna coppia di variabili si calcola il coefficiente di correlazione lineare che esiste tra queste due variabili. Per poter fare una sintesi, a partire da una serie di variabili, è necessario che tra queste variabili vi siano delle correlazioni più o meno alte, perché dove c’è correlazione c’è varianza comune tra le variabili, e ciò che viene sintetizzato con l’analisi in componenti principali è esattamente questa quota di varianza che è in comune tra le variabili. La sintesi, quindi, si produce così: dalla matrice delle correlazioni si estraggono delle componenti principali. Cos’è una componente principale? È un costrutto matematico che rappresenta una quota della varianza comune che c’è nella matrice delle correlazioni di partenza. Possiamo considerarle come variabili di secondo ordine, poiché sono frutto dell’elaborazione di altre variabili; altrimenti le chiamiamo direttamente indici. Strutturalmente le trovo nella matrice dei dati sulle colonne come tutte le altre variabili. Questa matrice contiene un ammontare di varianza che è pari al numero delle variabili (es: se ho 10 variabili, la varianza totale sarà 10). Una parte di questa varianza, quella principale, viene estratta dalla prima componente principale (se delle 10 variabili, estraggo 2/10, significa che quando estrarrò la seconda componente, questa a sua volta estrarrà il massimo che può estrarre dalla varianza che rimane nella matrice delle correlazioni una volta che ho già estratto la prima componente principale). L’estrazione avviene una componente alla volta: la prima è quella estrae il maggior numero possibile di varianza, la seconda componente estrae, tolta già quella estratta dalla prima, il massimo di quello che rimane e così via con le successive; quindi, evidentemente, basterà usare solo le prime componenti estratte per aver sintetizzato la gran parte della varianza di partenza. Naturalmente, una sintesi non è sintesi se non c’è anche una perdita di informazione, cioè se io voglio estrarre tutta la varianza che c’è nella matrice delle correlazioni, dovrei estrarre tante componenti quante sono le variabili (es: se partendo da 10 estraggo 10, ovviamente non ho più una sintesi. Va estratta una componente alla volta). Le componenti principali si chiamano così per questo motivo: stanno a intendere che fanno emergere solo una quota, la più importante, a partire dalla varianza di partenza. Queste quote rappresentano quindi le dimensioni più importanti che sottostanno al paniere delle variabili da cui sono partito. Dobbiamo apprezzare questa sintesi considerando che ci consente di trattenere le quote di varianza più importanti; per quanto riguarda la perdita, perdiamo informazioni che possiamo considerare meno importanti e che quindi si possono anche trascurare. Una buona sintesi è, quindi, quella che trattiene le informazioni più importanti e tralascia quello che si può considerare meno importante. Cosa deve saper fare un ricercatore in questo caso? Esso deve, prima di tutto, scegliere delle variabili cardinali sulle quali sia opportuno fare una sintesi: non basta che siano cardinali, devono anche avere delle associazioni (correlazioni), indipendentemente dal segno negativo o positivo, tra di loro. Se si scegliessero delle variabili cardinali ognuna indipendente dall’altra, quindi con coefficienti di correlazione = 0, non ci sarebbe modo di fare un’ACP, perché non ci sarebbe covarianza da sintetizzare. Il ricercatore, a seguito della procedura svolta dal programma di analisi dei dati da cui otteniamo dei risultati, deve fare delle scelte tenendo ben presenti gli obiettivi a cui si vuole giungere (la metodologia è l’arte della scelta!). Tutto parte dalla teoria per poi tornare alla teoria: così si conclude la ricerca. 3. analisi dei gruppi: costituisce una novità. Fino ad ora abbiamo visto che l’ACP e l’ACM sintetizzano variabili; l’analisi dei gruppi è una tecnica che ha come obiettivo la sintesi dei casi, cioè delle righe della matrice dei dati, mentre quando parliamo di sintesi delle variabili facciamo riferimento alle colonne della matrice. L’analisi dei gruppi non è una sola tecnica, ma esistono diversi modi di condurre quest’analisi che hanno in comune l’obiettivo di massima omogeneità interna e massima eterogeneità tra i gruppi e ci sono modi diversi di raggiungere quest’obiettivo. Qual è il ruolo delle variabili in questa famiglia di tecniche? Anche qui vengono usate per stabilire le somiglianze, le differenze, i valori che sono più o meno omogenei tra tutti i casi, e si possono usare (anche più di una) sia variabili cardinali che categoriali (o solo cardinali o solo categoriali); se fosse possibile sarebbe meglio utilizzare le cardinali perché hanno un insieme di valori molto più ampio e permettono di discriminare in maniera molto più analitica vicinanze e lontananze (distanze) tra ciascun caso rispetto a tutti gli altri. Il punto di partenza dell’analisi dei gruppi è a sua volta una matrice quadrata e simmetrica, che questa volta in riga e in colonna non ha variabili, ma casi. Dunque, se ho una matrice con 100 casi la matrice delle distanze avrà 100 righe e 100 colonne, e per ciascuna coppia di casi, se abbiamo variabili cardinali dobbiamo calcolare la distanza, invece se abbiamo variabili categoriali la similarità o dissimilarità. Cosa vuol dire distanza? A partire da un insieme di variabili io devo calcolare in una sola misura quanto due casi sono tra di loro distanti. Per definizione, la distanza di un caso da sé stesso è uguale a 0, mentre la distanza tra due casi diversi la calcolo considerando la variabile (es: età). Es: se ho due casi e la variabile “età”, se il primo caso ha 18 anni e il secondo caso ne ha 19 la distanza è 1 anno. Se ho altri due casi che hanno tutti e due 30 anni, la distanza rispetto all’età sarà 0. Ora, anziché avere una sola variabile ne ho 10, con la formula metrica “distanza di Euclide” si calcola un solo valore che rappresenta la distanza tra ciascuna coppia di casi. Una volta che ho la matrice delle distanze il gioco è relativamente facile: tutti i casi che hanno le distanze più piccole tra di loro, vanno a formare un gruppo. Il problema che si deve porre il ricercatore è quanti gruppi voglio costruire, perché naturalmente questa decisione non è computabile frutto di un calcolo, ma si deve valutare considerando i risultati che si ottengono con l’analisi dei gruppi. Bisogna distinguere tra due procedimenti: 1. gerarchico: consente di scegliere a valle quanti gruppi formare. Cioè si produce una procedura passo dopo passo dove si può valutare qual è la migliore divisione dei csi in gruppi. 2. tecniche non gerarchiche: prevedono che si stabilisca prima (input) il numero di gruppi che si vogliono realizzare, e il programma ci da esattamente quel numero di gruppi. Si procede per tentativi per raggiungere il giusto compromesso, a partire dalle caratteristiche delle variabili originali e anche dalla natura dei casi che stiamo analizzando: i gruppi devono essere scelti in base all’omogeneità interna e alle differenze che ci sono tra un gruppo e gli altri, e quindi bisogna massimizzare il suddetto obiettivo (massima omogeneità interna e massima eterogeneità tra i gruppi). Da questo punto di vista la tecnica gerarchica è più facile perché consente di scegliere il numero di gruppi dopo aver visto i risultati, mentre con la tecnica non gerarchica si procede praticamente al buio. Ciascun gruppo sarebbe bene etichettarlo: una buona divisione dei gruppi si ottiene quando, per ciascun gruppo, siamo in grado di definire un profilo che rappresenta non i singoli casi, ma l'insieme dei casi riuniti nello stesso gruppo. Quindi, per fare questo lavoro possiamo usare anche altre variabili rispetto a quelle iniziali, e cerchiamo di individuare il profilo sociologico che contraddistingue ciascun gruppo rispetto agli altri. Quanto più riusciamo a dare una buona descrizione del gruppo, più è chiaro e leggibile il risultato raggiunto. Dal punto di vista della matrice dei dati cosa aggiungiamo? Abbiamo una nuova colonna (variabile) che rappresenta nient’altro che l’appartenenza di ciascun caso ad uno dei gruppi che abbiamo deciso di costruire. Per quanto riguarda i coefficienti, nell’analisi dei gruppi non c’è granché da valutare: è molto più importante l’analisi posteriore una volta definiti i gruppi piuttosto che il procedimento stesso di formazione, che è in sé abbastanza automatico. MODELLI DI ANALISI MULTIVARIATA ● regressione lineare multipla; ● modelli log-lineari; ● regressione logistica. Con i modelli, lo scopo è quello di controllare empiricamente un certo numero di ipotesi che ci interessa sottoporre a controllo empirico. Qui parliamo di ipotesi che hanno a che fare con le relazioni esplicative tra le variabili considerate. Quando parliamo di modelli assumiamo che una variabile sia dipendente da altre variabili. Il risultato del modello consiste nella plausibilità empirica dell’ipotesi. Possiamo avere che o l’ipotesi supera il controllo oppure no: se non supera il controllo significa che quella che noi abbiamo assunto come variabile indipendente in realtà non influenza la variabile dipendente, dunque o si cambia l’ipotesi o bisogna chiedersi se è stato trascurato qualche altro problema durante il percorso. La logica è, dunque, quella del controllo empirico e alla fine anche l’esito del controllo va riguardato poiché non sempre abbiamo risposte chiare ed esaurienti. Quando usiamo i modelli dobbiamo tenere conto di due caratteristiche che deve possedere un modello: 1. bontà di adattamento: un modello è buono se è compatibile e si adatta ai dati empirici. Laddove non ci sia adattamento il modello diventa inutile e deve essere o riformulato o rifiutato. 2. parsimonia: semplicità. Le variabili che inserisco nel modello devono essere quelle importanti e non deve includere variabili che non influenzano la variabile dipendente, oppure variabili che sono ridondanti rispetto ad altre variabili già incluse nel modello. È dunque un sinonimo di semplicità Il modello non è una riproduzione fedele della realtà, è una semplificazione di quello che noi presumiamo esserci nella realtà. Però, proprio perché è una semplificazione, l’auspicio è quello di cogliere il più importante. Dobbiamo vedere i modelli come delle approssimazioni semplificate alla realtà. Per costruire un modello dobbiamo essere consapevoli che il modello è una rappresentazione semplificata ma vogliamo anche che sia compatibile, adattabile, ai dati empirici. Dunque, da una parte la bontà di adattamento e dall’altra la parsimonia. Dobbiamo tenere conto che i due criteri sono inversamente proporzionali, cioè tanto più è migliore l’adattamento tanto meno parsimonioso sarà il modello e viceversa. Sono due criteri che per poter essere compatibili l’uno con l’altro, richiedono un punto di equilibrio che si colloca sostanzialmente a metà strada tra il massimo dell’adattamento e il massimo della parsimonia. Come si produce un modo per valutare l’adattamento del modello ai dati empirici? Se una variabile X influenza un’altra variabile Y in modo apprezzabile (influenza forte), io conoscendo i valori di X posso fare una stima (una previsione) di quali sono i valori che assume la Y. Naturalmente, se le variabili indipendenti sono più di una vale lo stesso discorso: conoscendo i valori delle variabili indipendenti, farò una stima dei valori che assumerà la Y. Io conosco anche i valori empirici della Y, cioè io ho anche in matrice i valori di ciascun caso sulla variabile dipendente, quindi io ho due distribuzioni della variabile Y: quella che è la distribuzione empirica (cioè i dati che ho rilevato su tutti i casi rispetto alla variabile Y) e la distribuzione dei cosiddetti valori stimati sempre della variabile Y, chiamati anche valori attesi o teorici. Con queste due distribuzioni andrò a vedere le differenze. Per ogni caso confronto il suo valore empirico sulla Y e il suo valore teorico. Se i valori sono identici il residuo sarà uguale a 0 e non ci saranno differenze; se il valore empirico è maggiore (>) di quello stimato avrò un residuo positivo; se il valore empirico è minore (<) del valore stimato avrò un residuo negativo. L’ammontare, e cioè la somma, di tutti questi residui viene sottoposta a un controllo di significatività statistica: - se l’ammontare dei residui è statisticamente significativo (cioè non attribuibile agli effetti del caso) il modello non si adatta bene ai dati e cioè le differenze che si sono registrate tra i valori previsti e i valori empirici sono tali da far pensare che c’è qualche cosa (es: qualche variabile o qualche effetto) che noi stiamo trascurando e che, invece, andrebbe incluso nel modello stesso; - se l’ammontare dei residui non è statisticamente significativa (qui potrebbe dipendere dagli effetti del caso) il modello ha un buon adattamento ai dati empirici, e cioè riproduce i valori della Y in modo più che accettabile e ha superato il controllo empirico. Il modello ha dimostrato di essere compatibile (è stato corroborato) in relazione ai dati della variabile indipendente. Questo vale per tutti i modelli, c’è sempre questa logica del controllo tra dati teorici e stimati (stimati a partire dai valori della variabile indipendente). Mettiamo che il modello abbia superato il controllo empirico, rimane un altro aspetto: possiamo trovare un modello alternativo a quello che abbiamo già controllato che sia migliore o migliorabile rispetto al precedente? Questa domanda non trova mai una risposta definitiva perché è anche possibile trovare modelli alternativi che sono ugualmente compatibili con i dati empirici. Questa questione è importante perché non bisogna illudersi che esista un solo buon modello e gli altri no; capita invece molto spesso che si trovino altri modelli ugualmente accettabili dal punto di vista del controllo empirico e rimane di nuovo in capo al ricercatore scegliere quello che gli sembra più convincente. Anche in questo caso come facciamo una scelta? Dobbiamo tornare alla teoria, rifarci alle nostre conoscenze teoriche, altrimenti non troveremo mai un modello preferibile agli altri. Le conclusioni non saranno mai definitive perché anche il modello che ci sembra il migliore non è affatto detto che poi sia effettivamente così e magari può essere scavalcato da un altro modello migliore. Modello della regressione lineare multipla (RML): modello più semplice perché parliamo di variabili vere e proprie: cardinali e quasi-cardinali. I modelli log-lineari (MLL) e il modello della regressione logistica sono compatibili con variabili categoriali. In questo caso ci sono delle differenze, e la sovrapposizione dei due modelli è un po’ più complicata. 1. regressione multipla lineare (RML): ha l’obiettivo di riprodurre la varianza di una variabile cardinale dipendente “y” come funzione lineare di un certo numero di variabili cardinali indipendenti. La variabile dipendente (una sola) deve essere di natura cardinale, così come la variabile indipendente (non c’è un numero fisso, dipende dalle esigenze esposte a ogni cella, otterrei un modello saturo: modello tautologico, cioè se tutta l’informazione che ho la uso per definizione riproduco in modo perfetto tutte le frequenze di cella e in questo modo non avrò residui, un’ottima bontà d’adattamento ma zero parsimonia avendo usato tutte le informazioni di cui dispongo. Il modello saturo è utile a fini didattici ma non empirici. Dunque, devo indicare un modello che abbia meno parametri di un modello saturo. Ogni parametro che tolgo, guadagno un grado di libertà) e quelli empirici della tabella di contingenza; poi si sottopongono al test di significatività statistica l’ammontare dei residui. Anche qui abbiamo coefficienti standardizzati e non standardizzati: - mu (μ): corrisponde al termine noto dell’intercetta lineare e dipende dalla grandezza del valore; - lambda a 1: parametro di primo ordine, indica una modalità della variabile a cui si riferisce; - lambda ab 1 1: parametro di secondo ordine, riguarda l’interazione tra la variabile A (modalità 1) e variabile B (modalità 1); - lambda abc 1 1 1: parametro di terzo ordine, che riguarda la prima modalità di A, con la prima di B e la prima di C. In generale il parametro lambda se è uguale a 0 (o vicino a 0) significa che quella modalità di quella variabile non altera la definizione delle frequenze (logaritmo delle frequenze) di quella cella. Se la lamba di primo ordine è maggiore di 1 significa che la prima modalità della variabile A ha frequenze maggiori della seconda modalità della variabile A. Se lambda di A è negativa allora ci sono più casi nella seconda modalità di A che non nella prima. Quindi, si aggiunge o si sottrae rispetto al logaritmo della frequenza di cella a seconda del segno del parametro lambda. Per ogni lamba abbiamo la versione standardizzata, che ci permette di valutare la significatività statistica di ciascun parametro lambda. Se il valore di Z (lamba standardizzato) è maggiore di 1,96 (valore assoluto), l’effetto dovuto a quel parametro è statisticamente significativo; se non è maggiore di 1,96 allora quel valore potrebbe essere stato ottenuto a caso. Qui parliamo sempre di dati campioni probabilistici; in generale quando abbiamo i risultati di un campione probabilistico sappiamo che questi risultati potrebbero essere dovuti a fluttuazioni casuali del campione. Quindi, il controllo della bontà del modello si fa sempre calcolando i residui (differenze tra i valori predetti dal modello e i valori empirici della tabella di contingenza) e si sottopone al test di significatività statistica l’ammontare di questi residui. Qui valgono le stesse regole della MRL, cioè i residui devono avere una media = 0 e devono essere distribuiti in modo casuale, e in questo caso è un buon modello. 3. modello di regressione logistica (RL): riformulazione dei modelli log-lineari che tende a definire quella che chiamiamo variabile dipendente in un modo più comodo, ma non semplice. Per avere un modello di regressione logistica devo fare una trasformazione: intanto calcolo l’ODDS (rapporto tra la probabilità di un evento e la probabilità che tale evento non accada, quindi la probabilità dell’evento complementare. Assume valore 1 quando le categorie di una variabile hanno le stesse frequenze. Varia tra 0 e infinito) poi lo trasformo nel suo logaritmo. Nella regressione logistica, quella che chiamiamo variabile dipendente non è una vera e propria variabile, ma il logaritmo dell’odds fra le due modalità di una variabile categoriale dicotomica. La variabile dipendente, quindi, in una regressione logistica è il logaritmo di un rapporto di probabilità. Es: 200 votanti e 100 astenuti, se faccio 200/100 = 2. Come leggo questo 2? Per ogni astenuto ci sono due votanti. Le variabili indipendenti nella regressione logistica possono essere di qualsiasi natura (categoriali semplici, cardinali o ordinali) e per ogni variabile indipendente si stabilisce quanto ciascuna variabile modifica la propensione a votare piuttosto che ad astenersi espressa dalla variabile dipendente. Es: ho solo il genere, vado a vedere se il fatto di essere maschio o femmina modifica la propensione a votare piuttosto che ad astenersi. Questo lo saprò una volta avuto il risultato della regressione logistica dovuta alla variabile genere sulla variabile propensione a votare piuttosto che ad astenersi. Come si calcola la bontà di adattamento e parsimonia? Vi sono molti coefficienti (rapporto di somiglianza, coefficiente di Wald, pseudo R^2 di Cox, Snell e di Nagelkerke), ma quello che consiglia il prof è il classification table: per ciascun caso, in base alle variabili indipendenti che ho inserito nel modello, io posso stimare una probabilità; dopodiché confronto il valore stimato con quello effettivo e capisco quanti e quali casi sono stati correttamente previsti. Più sono corrette le assegnazioni, più il modello funziona. Per quanto riguarda la parsimonia: si valutano i gradi di libertà del modello. Meno variabili sono inserite nel modello e più libero gradi di libertà. Sui valori dei coefficienti abbiamo il maggior livello di complessità, perché ragioniamo su una scala che sono logaritmi e propensioni di probabilità, e quindi lavoriamo su scale poco familiari per poterne dare una facile interpretazione. È molto difficile legare una variabile dipendente con una indipendente parlando di propensione. Es: se dico che essere maschio aumenta la propensione a votare che ad astenersi, tradotto in termini familiari questo vuol dire che fra chi vota ci sono più M che F, e viceversa. Dobbiamo ragionare sempre in termini di propensione a fare una cosa piuttosto che un’altra. Se ho più di una variabile indipendente, anche qui vale il discorso che ogni propensione di una singola variabile è al netto delle propensioni dovute alle variabili dipendenti successive. - coefficiente di regressione logistica (b), i cui valori si esprimono su una scala di logaritmi basati su delle propensioni, su delle probabilità. Se il valore è 0, la variabile non ha alcuna influenza; se il valore è positivo vuol dire che aumenta la propensione a votare piuttosto che ad astenersi; se il valore è negativo aumenta la propensione ad astenersi piuttosto che a votare. - exp (b), esponente di b, antilogaritmo: si calcolano facendo l’antilogaritmo dei b e posso esprimere questo valore come se fosse un’odds ratio (che non è anch’esso di immediata leggibilità. L’odds ratio è il rapporto di rapporto; divido il valore di odds condizionato di uno per quello dell’altro, varia tra 0 e infinito, assume valore 1 quando fra le due variabili considerate vi è la massima dipendenza). In tutti e due i casi una completa comprensione degli effetti dovuti alle singole variabili indipendenti sulla dipendente è meno intuitivo di quanto non sia nella regressione multipla lineare. Non esistono versioni standardizzate in quanto i b sono già standardizzati su una scala logaritmica. Per quanto riguarda i residui: non ci sono dei veri e propri residui, però possiamo valutare la percentuale di previsioni scorrette. Ovviamente meno sono e meglio è. Es: se una persona viene prevista come un essere votante ma si è astenuta, allora c’è stato un errore di previsione. Più è piccola la percentuale degli errori di classificazione, migliore sarà il rendimento del modello. ● odds: possiede le seguenti caratteristiche: - assume valore 1 quando le due categorie di una variabile hanno le stesse frequenze (equivalente alla proporzione 0,5 per entrambe); - varia tra 0 e infinito. ● odds-ratio: possiede le seguenti caratteristiche: - varia fra zero e infinito; - assume valore 1 quando fra le due variabili considerate vi è la massima indipendenza. Più il valore si allontana da 1 (in un senso o nell’altro) maggiore è la forza di associazione; - valori superiori ad 1 indicano un’associazione di concordanza diretta tra le categorie delle due variabili; valori inferiori ad 1 indicano un’associazione di discordanza inversa.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved