Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

TECNICHE E MODELLI DI ANALISI MULTIVARIATA, Sintesi del corso di Metodologia E Tecniche Di Ricerca Sociale

Riassunto del libro Tecniche e modelli di analisi mutlivariata

Tipologia: Sintesi del corso

2020/2021
In offerta
30 Punti
Discount

Offerta a tempo limitato


Caricato il 08/07/2021

ludovica-moriconi
ludovica-moriconi 🇮🇹

4.5

(211)

98 documenti

1 / 20

Toggle sidebar
Discount

In offerta

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica TECNICHE E MODELLI DI ANALISI MULTIVARIATA e più Sintesi del corso in PDF di Metodologia E Tecniche Di Ricerca Sociale solo su Docsity! TECNICHE E MODELLI DI ANALISI MULTIVARIATA CAPITOLO 2 — PROGETTARE L'ANALISI MULTIVARIATA DEI DATI PAR.2.1- DEFINIZIONE E FUNZIONI DELL'ANALISI MULTIVARIATA L'ANALISI MUTIVARIATA è essa si può definire come un insieme di operazioni finalizzate al raggiungimento di almeno uno di questi obiettivi: 1) Esplorazione del fenomeno oggetto di studio 2) Descrizione del fenomeno oggetto di studio 3) Sintesi) classificazione delle informazioni che riguardano oggetto di studio 4) Spiegazione interpretazione e specificazione delle relazioni tra le variabili che si ritengono ipoteticamente connesse 5) Previsione di stati futuri che riguardano il fenomeno in oggetto (molto ambizioso) > l'ordine con il quale abbiamo elencato degli obiettivi perseguibili non è casuale: essi sono disposti in modo ascendente rispetto: a) al livello di complessità; b) al grado di desiderabilità. L'eventuale mancato conseguimento degli obiettivi dipende dal livello di conoscenze teoriche, dal tipo di ipotesi di ricerca che sei in grado di formulare e dalle esperienze empiriche consolidate in merito all' oggetto di indagine. Un’ indagine progettata con finalità prevalentemente descrittivo-esplorative avrà ipotesi di ricerca poco formalizzate o addirittura implicite (in particolare richiede quantomeno la selezione, teoricamente fondata virgola di quale aspetto e caratteristiche del fenomeno oggetto di studio debbano essere prese in considerazione) ed i conseguenti obiettivi dell'elaborazione dei dati saranno l'esplorazione, la descrizione e la sintesi delle informazioni raccolte. Se invece l'indagine è di tipo prevalentemente esplicativo, saremo in grado di formulare ipotesi più complesse e articolate e l'analisi dei dati sarà volta a controllare la plausibilità delle relazioni fra le variabili specificate nelle ipotesi, la loro forza e la loro generalizzabilità Uno dei problemi di cui si deve tener conto nell'analisi dei dati è il livello di sviluppo teorico. ma il livello di sviluppo teorico non è l'unico problema, ci sono infatti ulteriori problemi che vanno considerati e sono nell'ordine a) la natura non sperimentale di quasi tutte le ricerche delle scienze umane; b) la natura delle variabili, che impone una serie di vincoli alle elaborazioni che su di esse si possono effettuare A riccone discipline fisico-naturali sono caratterizza abili come sperimentali in quanto generalmente il loro strumento di indagine e l'esperimento controllato il laboratorio, nel quale ricercatori ha la possibilità, schematizzando e semplificando, di 1) isolare le variabili che gli interessano, ossia estrapolarle da qualsiasi altra variabile fonte di disturbo; 2) manipolare la variabile che assume come indipendente facendola variare a suo piacimento; 3) osservare e misurare, con strumenti di solito molto precisi, le variazioni che la variabile dipendente subisce per effetto delle variazioni prodotte nella variabile indipendente Nelle scienze umane un simile procedimento di esperimento controllato il laboratorio è del tutto inapplicabile per ragioni che sono ovvie. Chiarita la necessità da parte delle scienze umane di raccogliere informazioni su molti esemplari concreti dell'unità di analisi adottata, si può provare ad applicare un procedimento di tipo quasi- sperimentale costruendo due gruppi di individui che sono ritenuti uguali rispetto a tutte le variabili che interessano nell’. esperimento, detti l'uno gruppo sperimentale e l'altro gruppo di controllo, facendo agire la variabile indipendente solo sul primo gruppo.se dopo l'esperimento il gruppo sperimentale differisce significativamente dal gruppo di controllo, si conclude che l'effetto della variazione intervenuta sia determinato dallo stimolo sperimentale Un esempio di quasi-esperimento in sociologia, riportato anche in molti manuali di metodologia e quello che ha portato alla scoperta dell'effetto Hawthorne da parte del sociologo Elton Mayo. L' effetto Hawthorne consiste nella reazione dei soggetti sottoposti ad un esperimento: gli operai aumentavano la loro produttività indipendentemente dalla condizione più o meno favorevole del luogo di lavoro perché erano consapevoli di essere osservati dai ricercatori e di essere sottoposti ad un esperimento punto la definizione della situazione effettuata dagli individui coinvolti comporta notevoli difficoltà nell'approntare disegni quasi-sperimentali quando si ha a che fare con gli esseri umani Per le suddette difficoltà le ricerche quasi-sperimentali non sono molto diffuse in sociologia mentre sono frequentemente applicate ricerche di psicologia, psicologia sociale, pedagogia, eccetera Se il metodo sperimentale non è quasi mai convenientemente applicabile nelle indagini sociologiche, cosa rimane da fare? Una parziale risposta a questo quesito è stata formulata da John Stuart Mill, che non ritenendo possibile l'applicazione del metodo sperimentale alle scienze umane non rinuncio alla possibilità di usare i procedimenti logici delle scienze naturali nel campo della ricerca sociale. È importante sottolineare che tra i cinque canoni di indagine suggeriti da Mill, che in vario modo propongono una logica di tipo sperimentale, il metodo delle variazioni concomitanti, a partire dalla classica indagine di Durkheim sul suicidio, è quello che più si adatta alle esigenze e ai problemi delle ricerche sociologiche Possiamo allora definire le procedure di analisi dei dati propri della ricerca nelle scienze umane con il termine proposto da Nagel di “investigazione controllata” Tranne in casi particolari, nella maggior parte delle ricerche sociologiche si ha a che fare con rilevazioni campionarie che in costituiscono una valida alternativa, in termini di tempi e di costi finanziari, se non addirittura l'unica scelta possibile per effettuare una ricerca L'ultimo problema da considerare riguarda infine la natura delle variabili. Anche in questo caso il dibattito metodologico è molto ampio e qui non può che essere accennato a grandi linee considerando nelle ricadute che attengono, in maniera particolare, l'analisi dei dati Le informazioni che interessano e non è indagine sono operativamente raccolte attraverso una scelta di indicatori che possiamo intendere come concetti di proprietà che vengono trasformati in variabili da una definizione operativa Definire operativamente un concetto di proprietà significa fissare un insieme di regole che consentano di rilevare concretamente per ogni caso il suo stato sulla proprietà in considerazione. Nelle ricerche delle scienze umane le proprietà possono essere classificate come continue o discrete. Una proprietà si definisce discreta se i suoi stati variano per incrementi finiti, ad esempio il numero dei figli di una coppia; Una proprietà si definisce continua se i suoi stati, almeno teoricamente, variano per intervalli infinitesimi, ad esempio le misure fisiche come il tempo. Evidentemente una proprietà continua per essere misurata deve essere resa discreta individuando una unità di misura convenzionale e costruendo uno strumento di misura che esprime diversi stati rilevati con un numero finito di suoi multipli e sottomultipli. A loro volta le variabili che ne derivano si possono distinguere in cardinali e categoriali (una variabile si definisce cardinale quando è esprimibile con una unità di misura convenzionale Quando una proprietà non è rilevabile né con una unità di misura, né con una unità di conto, allora si dice categoriale In questi casi la definizione operativa appropriata per rilevare gli stati sulle proprietà e la classificazione semplice, ossia che non prevede alcun ordine fra le classi individuate, o ordinata, che al contrario instaura fra le classi individuate un qualsiasi tipo di ordinamento Tipo di proprietà Cardinali Categoriali Continua Misurazione Classificazione ordinata Discreta Conteggio Classificazione ordinata e non ordinata Se le variabili sono cardinali possiamo applicare tutte le procedure statistiche compatibili con questo livello (da il calcolo della media allo scarto tipo, alla standardizzazione delle variabili, al coefficiente di correlazione lineare, alla regressione, eccetera); se le variabili sono categoriali si devono applicare altri strumenti statistici (frequenze semplici, frequenze relative, moda, mediana, differenza interquartilitica, eccetera), In realtà per non rinunciare all'applicazione di strumenti e statistici considerati più potenti si è sempre tentato di trattare come cardinali anche le variabili categoriali ricorrendo a diversi escamotage, che in taluni casi violano pesantemente i canoni della correttezza metodologica tipi di proprietà corrispondenti tipi di variabili rilevanti nell’. analisi dei dati monovariata e bivariata multivariata considerate discrete categoriali non ordinate categoriali categoriali categoriali ordinate ordinali trattate come categoriali con stati enumerabili cardinali cardinali diversa natura di tecniche e modelli che si è soliti denominare con lo stesso termine. Quindi all'interno di una stessa famiglia può esistere una certa variabilità riguardo alcuni dei criteri adottati nella nostra classificazione. Il criterio utilizzati per costruire il quadro sinottico presentato nella tabella sono 4: la distinzione tra tecniche e modelli di analisi multivariata appunto il, il tipo di variabili che vengono trattate; Il ricorso a dimensioni latenti; Gli obiettivi che vengono perseguiti Il primo criterio distingue i modelli che effettuano un controllo empirico, espresso da un coefficiente statistico, dalle tecniche che al contrario permettono in ogni caso di raggiungere degli obiettivi prefissati Un modello può risultare incompatibile con i dati e quindi deve essere respinto o riformulato. La natura di un modello di analisi dei dati e il suo processo di specificazione comporta la traduzione di un insieme di ipotesi sulle relazioni, di dipendenza e non, tra le variabili Tecnica/modello Tipo di variabili Ricorso a dim.ni Obiettivo principale trattate latenti dell’ analisi Componenti Tecnica Cardinali Sì Esplorazione principali descrizione sintesi Analisi dei gruppi Tecnica Prevalentemente No Classificazione dei cardinali casi Analisi discriminante Tecnica Cardinali + 1 Sì Descrivere una categoriale classificazione dei casi Scaling Tecnica Prevalentemente Sì Scalare item o multidimensionale cardinali soggetti Corrispondenze Tecnica Categoriali Sì Esplorazione binarie descrizione sintesi Corrispondenze Tecnica Categoriali Sì Esplorazione multiple descrizione sintesi Corrispondenze con scelta modalità Tecnica Categoriali Sì Esplorazione attive descrizione sintesi Corrispondenze Tecnica Categoriali Sì Esplorazione condizionate descrizione sintesi Corrispondenze Tecnica Categoriali Sì Esplorazione lessicali descrizione sintesi Regressione multipla Modello Cardinali No Controllare modello lineare Analisi fattoriale Modello Cardinali Sì Controllare modello Modelli di equazioni Modello Prevalentemente Sì Controllare modello strutturali cardinali Modelli log-lineari Modello Categoriali No Controllare modello Regressione logistica con Modello Categoriali No Controllare modello dipendente dicotomiche dicotomica Regressione logistica con Modello Categoriali No Controllare modello dipendente politomiche politomica Regressione logistica con Modello Categoriali ordinali No Controllare modello dipendenti ordinale Analisi della varianza Modello Categoriali + 1 No Controllare modello a più vie cardinale L'individuazione di dimensioni latenti e un altro criterio che differenze vari strumenti di analisi dei dati: cisono tecniche e modelli che definiscono costrutti latenti continui e altri che costruiscono costrutti latenti discreti Ulteriori differenze si potrebbero introdurre prendendo in considerazione lo status delle variabili che vengono analizzate. Ci sono tecniche che trattano tutte le variabili allo stesso modo, altre che distinguono le variabili in due gruppi; nell'ambito dei modelli si definiscono dei legami di tipo strutturale tra le variabili L'analisi in componenti principali è una tecnica che sintetizza un insieme di variabili cardinali, tra loro correlate, con l'individuazione delle loro componenti principali di cui le prime sono la migliore sintesi possibile le variabili rilevate L'analisi dei gruppi e tutte le tecniche di classificazione automatica dividono i casi non numero ridotto di gruppi sulla base di coefficienti di distanza o di similarità tra i loro stati su alcune variabili in genere cardinali. L'analisi discriminante descrive una classificazione e nota dei casi sulla base di un insieme di variabili cardinali Le tecniche di scaling multidimensionali sono adatte all' elaborazione di variabili desunte dalle scale di atteggiamento Il loro obiettivo è quello di scalare sia i casi su cui sono stati rilevati i dati sia gli iterns che sono state usate nella costruzione delle scale L'analisi delle corrispondenze è un insieme di tecniche che trattano variabili categoriali riducendole attraverso l'individuazione di nuovi costrutti sintetici chiamati fattori. L'analisi delle corrispondenze lessicali estende le possibilità dell'analisi anche alle variabili lessicali La regressione multipla lineare è un modello che elabora solo variabili cardinali punto si riproduce la varianza di una variabile dipendente ricorrendo ad un insieme di variabili indipendenti secondo certi vincoli L'analisi fattoriale è un modello che interpreta una parte delle correlazioni tra un insieme di variabili cardinali come dipendente da un certo numero di fattori comuni | modelli di equazione strutturale costituiscono l'integrazione e la fusione di tre modelli di analisi dei dati preesistenti In modelli log lineari trattano variabili categoriali e permettono l'analisi delle relazioni di dipendenza tra noi insieme di variabili che si fanno disposte in tabelle di contingenza più dimensioni Le diverse tecniche di regressione logistica consentono lo studio delle relazioni di dipendenza assumendo come variabile dipendente una variabile categoriale dicotomica, poli tonica o ordinale. L'analisi della varianza più vie è un modello che permette di analizzare le variazioni nelle medie della variabile dipendente in più sotto campioni indipendenti, costruiti usando due o più variabili categoriali che sono assunte come indipendenti Tutti i procedimenti illustrati nel testo sono riconducibili al modello lineare generalizzato che a sua volta è una generalizzazione del classico modello della riflessione lineare multipla. Il modello lineare generalizzato è definito dalla seguente equazione: y; = bo + bix1i + b2x%2; +-+ bpXpi + ei Dove. y è la variabile dipendente; y; e il valore del caso i-esimo sulla variabile dipendente; bo è un valore costante, anche detto termine noto o che rappresenta il punto di partenza per la stima di tutti gli altri parametri; X1irX2i) +» Xpi è l'elenco delle variabili indipendenti i cui valori variano fra i casi i-esimi; by, ba, ...,bp sono i coefficienti associati a ciascuna delle p variabili indipendenti; e è il termine che rappresenta i residui; e; è il residuo associato al caso i-esimo CAPITOLO 3 — LE TECNICHE PER VARIABILI CARDINALI In questo capitolo prenderemo in considerazione quattro tecniche di analisi multivariata compatibili con variabili cardinali o quasi cardinali 1. L'analisi in componenti principali (ACP); 2. l'analisi dei gruppi (ADG); 3. l'analisi discriminante (AD); 4. le tecniche di scaling multidimensionale (SM). Tutti i procedimenti sono finalizzati alla rappresentazione sintetica di un numero di solito elevato di variabili in un numero ridotto di nuovi costrutti che vengono chiamati componenti o fattori L'obiettivo comune delle tecniche di analisi multivariata e produrre una sintesi, ossia una riduzione controllata sia delle variabili sia dei casi presenti nella matrice dati Gli strumenti di analisi multivariata dimensionale più noti applicati nelle scienze umane sono senz'altro l'analisi in componenti principali e l'analisi fattoriale punto si tratta di strumenti di analisi consolidati che hanno alle spalle una tradizione secolare. Queste hanno in comune la caratteristica di poter elaborare solo variabili cardinali o al più variabili quasi cardinali PAR.3.1 — ANALISI IN COMPONENTI PRINCIPALI L'analisi in componenti principali consente di sintetizzare l'informazione raccolta con un numero elevato di variabili cardinali fra loro correlate, attraverso un numero di solito molto più piccolo di nuove variabili dette componenti principali, ognuna delle quali esprime una combinazione lineare delle variabili originarie. Si usa per le variabili cardinali e quasi cardinali. Ho il punto di partenza dell’ ACP consiste nella costruzione di una matrice quadrata di associazioni relative alle variabili che si intendono trattare. L''ACP può trattare sia matrici di correlazione sia matrici di varianza e covarianza Le componenti principali sono dei vettori-colonna ottenuti attraverso la combinazione lineari dei vettori-colonna che rappresentano, le variabili originarie. Si chiamano così perché fanno emergere la dimensione più importante della quota totale di partenza facendo perdere parte dell'informazione che possiamo considerare meno importante. Il vettore-colonna che rappresenta una componente principale si chiama autovettore. Ad ogni autovettore è associato un autovalore che è uno scalare. Possiamo considerare l' autovalore e l' autovettore associato come due facce di una componente. L' autovalore esprime l'ammontare della varianza totale riprodotta da una componente. Gli elementi dell’ autovettore esprimono analiticamente i contributi forniti dalle singole variabili alla componente in termini di quantità della loro varianza ceduta alla componente stessa. Se si sommano gli elementi dell’ autovettore elevati al quadrato si ottiene esattamente la cifra espressa dall'autovalore Date v variabili tra loro correlate, possiamo esprimere la prima componente principale in questo modo Ct = ut + ulxz + uzx3 +-+ ubxy Dove Clè la prima componente principale e i coefficienti uy sono i pesi componenziali. Questi pesi componenziali si possono interpretare come correlazioni fra ciascuna variabile la componente principale; essi hanno la proprietà di massimizzare la quota della varianza totale delle V variabili estratta dalla prima componente principale. Per rendere massima la varianza estratta dalla prima componente si devono normalizzare gli elementi dell’. autovettore associato al primo autovalore. La normalizzazione, che si effettua per semplificare il procedimento matematico, consiste nelle seguenti operazioni: ogni autovettore viene derivato in modo che abbia lunghezza unitaria, ossia in modo che la somma dei pesi al quadrato dei suoi elementi sia uguale a uno. Individuato l'auto vettore associato alla prima componente, il vettore dei pesi componenziali si calcola semplicemente moltiplicando ogni elemento dell’ autovettore per la radice quadrata del corrispondente autovalore. L' autovettore associato all' autovalore contiene gli elementi che costituiscono i pesi da attribuire alle variabili nella combinazione lineare che costituisce quella componente In generale, la generica componente C° si ottiene facendo CP = fx + ubxz+ ubxa ++ ubx Queste due condizioni (massimizzare la varianza della componente normalizzare l’ autovettore dei paesi) impostano un sistema di equazioni lineari omogenee come un problema di massimo vincolato. Le proprietà delle componenti principali sono 1. Due componenti qualsiasi tra quelli estraibili da una matrice di correlazione sono linearmente indipendenti, in quanto i relativi o due vettori sono ortogonali per effetto del procedimento di estrazione; 2. L'autovalore A;rappresenta la varianza della J-esima componente; 3. La somma degli autovalori è uguale alla traccia della matrice delle correlazioni; 4. Il prodotto degli autovalori è uguale a determinante della matrice delle correlazioni; 5. La matrice delle correlazioni si può ricostruire combinando opportunamente gli autovalori e gli autovettori non nulli estratti. In simboli matriciali R = XPA; uju;. Da questa equazione detta scomposizione spettrale della matrice, segue che è sempre possibile scomporre una matrice delle correlazioni in un numero di componenti principali pari al numero delle variabili originarie; In generale le componenti principali sono sensibili alle unità di scala delle variabili Per interpretare le componenti si può ricorrere alla rappresentazione grafica delle variabili su piani cartesiani. | diagrammi cartesiani sono prodotti automaticamente dal calcolatore usando un idoneo programma di analisi dei dati coefficiente componenziale di una variabile è sempre più basso del suo peso componenziale perché una certa porzione della sua varianza è necessariamente in comune con le altre variabili | coefficienti componenziali sono pertanto analoghi, dal punto di vista tecnico, ai coefficienti parziali standardizzati di una regressione lineare multipla e rappresentano il contributo netto delle variabili alla costruzione della componente tenendo sotto controllo le altre variabili punto e quindi legittimo usarli per ponderare ciascuna variabile nella costruzione di un indice che rappresenti la dimensione individuata mediante l' ACP. | punteggi componenziali assegnati a ciascun caso si calcolano come una combinazione lineare dei valori standardizzati assegnati a quel caso su tutte le variabili, ponderati per i rispettivi coefficienti compone nuziali. Questi punteggi sono anch'essi espressi in unità di scarto tipo e tendono a distribuirsi in modo normale. L'espressione matematica per il calcolo dei punteggi componenziali di un generico caso i sulla componente C; è Cin = Wizin + Wazia ++ WpZiv dove Z sono i punteggi standardizzati del soggetto i sulle variabili e W sono i coefficienti componenziali Come nel caso della regressione multipla, il coefficiente componenziale di una variabile risente dei coefficienti con potenziali di tutte le altre; Pertanto, esso cambia ogni volta che si modifica il paniere eliminando o aggiungendo variabili A differenza dell’ ACP nell'analisi fattoriale i punteggi fattoriali non possono essere calcolati esattamente, ma sono stimati Ricapitolando le fasi di una ceppi se guida nel modo tradizionale fin qui illustrato la prima fase consiste nella scelta delle variabili da sottoporre ad ACP e nell'ispezione della relativa a matrice delle correlazioni: è necessario eliminare le variabili con lineari. È sempre consigliabile e esaminare i valori dei coefficienti di correlazione per valutare l'opportunità di eseguire un’ ACP. La seconda fase consiste nel decidere il numero di componenti da estrarre e successivamente da interpretare punto il numero delle componenti estraibili è uguale al rango della matrice delle correlazioni | criteri che si usano per definire il numero dei componenti da interpretare sono la parsimonia e l' interpretabilità della soluzione finale Nella terza fase si sceglie se e come ruotare le componenti ottenute, tenendo conto di quanto detto a tale riguardo Nella quarta fase si interpretano le componenti estratte, tenendo conto dei diagrammi e dei vettori di pesi componenziali Infine, si calcoleranno i punteggi da assegnare ai casi su tutte le componenti che si è deciso di considerare Abbiamo poi lACP a due stadi. Questa procedura consente di superare alcune difficoltà del procedimento tradizionale La procedura a due stadi richiede la capacità di svincolare il piano metodologico dal piano delle esigenze meramente tecnico matematiche Abbiamo visto che il vincolo dell’ ortogonalità è matematicamente necessario per poter configurare lo spazio delle componenti sul quale collocare le variabili del paniere sotto analisi. Questo vincolo pone molte difficoltà all'interpretazione delle componenti; quasi sempre non è ragionevole pensare che le dimensioni individuate siano tra loro indipendenti, Per porre rimedio agli inconvenienti occorre un distacco più deciso dal modo di procedere canonico; Ci si deve quindi rendere conto del fatto che quando si vuole investigare il numero e la natura delle dimensioni sottese ad un insieme di variabili la rappresentazione delle reciproche distanze di queste variabili in uno spazio a V -1 dimensioni è soltanto un passo intermedio, che serve ad individuare le dimensioni e attribuire a ciascuna di essa le variabili semanticamente pertinenti fra quelle del paniere iniziale. Si deve quindi mirare ad individuare dei sottoinsiemi semanticamente omogenei di variabili all'interno dell’ insieme di partenza Questo vuol dire che possono capitare entrambi questi casi -può risultare che una variabile del l'insieme iniziale abbia legami semantici sufficientemente forti con due o più dimensioni, e quindi si è opportuno inserirla nei due sottoinsiemi relativi; -può risultare che una variabile del l'insieme iniziale non abbia legami semantici sufficientemente forti con alcuno dei sottoinsiemi, e che quindi non sia opportuno inserirla in alcuni di questi Compiuta questa operazione, l'impalcatura degli assi ortogonali, alla quale si doveva fare ricorso, può essere abbandonata tranquillamente e si può passare all'affimamento separato di ciascuna delle dimensioni individuate. In altre parole, quando l'esplorazione iniziale di una matrice delle correlazioni mediante un’ ACP evidenzia la presenza di almeno due componenti semanticamente significative, l’ACP va operata in due stadi. E il primo serve alla mera ricostruzione dello spazio in modo da - poter individuare quali dimensioni concettuali sono effettivamente presenti in quella popolazione dato l'insieme di variabili che sono state sottoposte ad ACP; -poter individuare quale sottoinsieme delle variabili di partenza si può ritenere semanticamente afferenti a ciascuna delle dimensioni individuate Il primo stadio, che può essere chiamato analisi multipla delle componenti, a carattere prettamente esplorativo. Il suo obiettivo consiste nell'individuare le dimensioni salienti sottese ad un determinato paniere di variabili. AI termine del primo stadio, l'originario paniere delle variabili viene diviso in sottoinsiemi A questo punto può cominciare il secondo stadio dell’ACP, finalizzato all'affimamento separato di ciascuna dimensione. Per ciascun sottoinsieme individuato nel primo stadio si effettua un’ ACP e si ripete le analisi fino a che la dimensione non sia affinata in modo soddisfacente. In queste analisi l'attenzione è rivolta la prima componente, sulla quale tutte le variabili del sottoinsieme presentano pesi alti Obiettivo principale di questo approccio dell’ ACP è individuare componenti che abbiano correlazioni empiriche fra loro Con lACP a due stadi si eliminano dal processo di costruzione di ciascuna dimensione tutte le variabili che presentano livelli bassi di associazione con quella componente. La strategia due stadi favorisce il chiarimento semantico di ogni componente ed elimina il fastidioso fenomeno dell'inversione disegno che in alcuni casi si registra nel passaggio dai pesi ai coefficienti compone nuziali relativi a qualche variabile Il vantaggio più importante dal punto di vista metodologico della strategia due stati e restituire ai ricercatori e un pieno controllo concettuale di ogni singolo passaggio della procedura. Il ricercatore deve usare questa, come ogni altra tecnica di analisi dei dati, al fine di ottenere risultati che soddisfano i suoi obiettivi cognitivi L’ACPa due stadi è indicata quando si vogliono rilevare dimensioni concettuali di grande generalità attraverso un ampio numero di indicatori attribuendo a ciascuna gli indicatori pertinenti. Le fasi del procedimento saranno a) scegliere un insieme di indicatori relativi alle dimensioni concettuali che potenzialmente interessano «l'arte di bilanciare la distribuzione degli indicatori in modo da coprire differenti aspetti (di ciascuna delle dimensioni) - un'arte che richiede abilità c pratica»; b) controllare se alcune variabili presentano problemi di curvilinearità o analoghi; c) rilevare i dati e produrre una matrice di correlazione fra tutte le variabili che intendiamo sottoporre ad ACP; d) ispezionare la matrice per individuare eventuali correlazioni troppo alte ed eliminare dal paniere una delle due variabili implicate; e) effettuare un'ACP; f) chiedere al calcolatore di produrre diagrammi in cui la prima componente è contrapposta alla seconda, alla terza, e a tutte quelle che superano lo scree test; g) sulla base dell'ispezione di questi diagrammi, individuare i grappoli di variabili che occupano posizioni vicine nello spazio a v -1 dimensioni, e attribuire loro un'etichetta semantica alla luce delle variabili che più le saturano; h) sulla base della sua posizione nei diagrammi, attribuire ciascuna variabile a una dimensione, o a più di una, oppure a nessuna; i) impostare un'ACP separata per ciascuna delle dimensioni individuate nella fase g; ciascuna analisi opera su uno dei panieri di variabili individuate nella fase h; in ciascuna analisi si estraggono forzata mente due componenti in modo da poter ispezionare la collocazione spaziale delle variabili; j) ispezionando questi diagrammi si eliminano le variabili che si possono ritenere marginali rispetto al nucleo di quelle che compongono la dimensione, e che non danno apporti semantici giudicati importanti; k) in ciascuna delle ACP separate si ripetono le operazioni sub i e j fino a che si raggiunge un esito soddisfacente; 1) quando si è raggiunto un esito soddisfacente per una dimensione, si ripete la relativa ACP, stavolta chiedendo al calcolatore di estrarre una sola componente, in modo da condensare in un solo vettore il massimo della varianza, e di stampare i relativi vettori di pesi e di coefficienti componenziali; m) per ogni dimensione, se una o più variabili risultano avere coefficienti componenziali troppo bassi o di segno opposto ai relativi si, si eliminano dal paniere ripetendo la relativa ACP; n) per ogni dimensione, si ripete la fase m fino a che la dimensione è rappresentata da un ristretto numero di variabili con coefficienti componenziali possibilmente equilibrati e di segno uguale a quello dei relativi pesi; o) per ogni dimensione si produce un indice, usando i coefficienti dotti dall'ultima ACP della serie per ponderare i punteggi standardizzati di tutti i casi (individui, aggregati territoriali, etc.) sulle variabili che sono restate nel paniere dell'ultima ACP della serie; p) si correlano questi indici fra loro (per constatare il grado di associazione fra le varie dimensioni) e con altre variabili della stessa matrice, come in qualsiasi processo di analisi dei dati PAR.3.2 — ANALISI DEI GRUPPI Le molte tecniche di analisi multivariata definite con l'etichetta analisi dei gruppi costituiscono un insieme ampio e variegato. Obiettivo condiviso da questi strumenti e assegnare i casi della matrice dei dati a un numero ristretto di tipo più gruppi, massimizzando l'omogeneità fra i casi collocati all'interno dei gruppi elettrogeni tra i casi collocati in diversi gruppi L'omogeneità/eterogeneità viene valutata rispetto ad un certo numero di variabili usate in funzione discriminatoria Di solito queste tecniche si chiamano anche di classificazione. Classificazione: operazione concettuale condotta adottando un solo criterio per individuare un insieme di classi Questo termine si usa per indicare sia il procedimento sia il prodotto di tale attività. La classificazione deve rispettare i principi della mutua esclusività e dell’ esaustività. Quando il procedimento classificatorio avviene simultaneamente rispetto a più fondamenti, allora si dà luogo a una tipologia. Il prodotto di una tipologia non è una serie unidimensionale di classi, ma un insieme di tipi; ogni tipo è caratterizzato da n dimensioni. La tassonomia è il prodotto di una classificazione che utilizza più fondamenti, non simultaneamente come la tipologia, ma in successione. Si tratta quindi di una struttura gerarchica basata sull’. ordine in cui sono stati considerati i diversi fondamenti della divisione. Le categorie che si ottengono da questa operazione si dicono taxa; i taxa che sono specie dello stesso genere si collocano allo stesso livello di generalità. Un'altra importante distinzione terminologica riguarda la classificazione intensionale, che avviene a livello concettuale si basa sul fatto che un concetto abbia un'intensione, un'estensione e possa muoversi lungo una scala di generalità, e la classifica estensionale. Nella classifica intensionale l'estensione di un concetto è articolata in estensioni via via più ristrette, e ad ognuna di essi corrisponde un concetto posto ad un livello di generalità inferiore rispetto al precedente. Nella classificazione estensionale si opera su un altro livello: essa si colloca sul piano empirico e consiste nel raggruppare gli elementi di un insieme in sottoinsiemi omogenei rispetto ad alcune proprietà, cercando di massimizzare sia l'omogeneità all'interno dei gruppi sia la diversità fra i gruppi Le tecniche di analisi dei gruppi si pongono l’ obiettivo di una riduzione controllata e di una sintesi delle informazioni disponibili finalizzata alla migliore rappresentazione dei fenomeni analizzati. La loro peculiarità consiste nel fatto che sintetizzano i casi (le righe) della matrice dati, mentre l' ACPel’ ACM hanno" obiettivo di sintetizzare prevalentemente le variabili (colonne) della matrice dei dati Prima di procedere ad un'analisi ADG si devono individuare le proprietà sulle quali basare questa operazione. Di solito, si ricorre a variabili cardinali in quanto permettono di discriminare i casi in modo più sensibile. La scelta delle variabili-criterio è il momento determinante dell’ ADG e il ricercatore deve far ricorso alle sue conoscenze circa le caratteristiche dei casi indagati. Il ricercatore deve poter controllare concettualmente tutti i passaggi che vanno all’ input (variabili e/o casi che si immettono nell’ analisi) all’ output (i risultati forniti dal programma di analisi dei dati). Per le variabili categoriali, si adotta la codifica, chiamata disgiuntiva completa: questo processo permette di considerare ogni modalità come una variabile. L’ADG, a differenza delle altre tecniche incontra delle difficoltà di natura computazionale, infatti è prassi comune effettuare una ADG dopo aver ridotto l'insieme delle variabili con tecniche quali l' ACP o l° ACM che permettono di individuare le dimensioni più rilevanti che sottostanno ad insiemi di variabili fra loro associate: queste operazioni consento una semplificazione dell’ ADG. La successione di una tecnica di riduzione delle variabili (ACP, ACM) e una tecnica di riduzione dei casi (ADG) produce una doppia sintesi della matrice dei dati riducendo prima le variabili (colonne) poi i casi (le righe) Una ADG, quindi, comincia con la scelta delle variabili con la quale discriminare i casi e procede con la costruzione di una matrice quadrata simmetrica delle distanze (di similarità/o dissimilarità) fra tutti i casi Le tecniche di analisi multivariata elaborano tutte una matrice quadrata simmetrica -ACP: matrice delle correlazioni -ACM: matrice di Burt -ADG: matrice delle distanze (con v. cardinali); matrice delle similarità/ dissimilarità (con v.categoriali) L’ estesa famiglia dellADG si può classificare tenendo presenti due caratteristiche importanti -Il coefficiente usato per la formazione della matrice delle distanze o similarità -Il criterio seguito per costruire gruppi L'ACM consente l’ analisi grafica dei piani costituiti dagli assi fattoriali considerati due a due e su questi piani si possono proiettare le variabili-modalità (sia attive sia illustrative) e/ o i casi ed è possibile calcolare le coordinate fattoriali e i valori-test sotto forma di nuvola di punti. Valutando le posizioni dei punti rispetto agli assi e le distanze tra i punti stessi si può desumere la struttura delle relazioni fra le variabili-modalità; in generale si può ritenere che più un punto è lontano dall’ origine di un asse, maggiore è il suo contributo alla formazione dell’ asse stesso; più è elevata la prossimità tra due variabili-modalità maggiore è la loro interdipendenza Al termine di un’ ACM è possibile attribuire a ciascun caso un punteggio su ciascun fattore che si è deciso interpretare e questi punteggi costituiscono nuove variabili sintetiche utilizzabili in altre analisi. Con una variabile pseudo-cardinale le differenze tra due qualsiasi valori non sono assolute, ma relative all’ insieme di modalità attive che si sono combinate in un attore. Con una variabile effettivamente cardinale una differenza tra due casi è indipendente da qualsiasi cambiamento di scala Nell’ ACM la vicinanza tra due o più modalità di variabili diverse può essere interpretata nei termini di associazione fra le stesse. L'analisi dei contributi assoluti e relativi è analoga a quella illustrata per AC, però bisogna tenere presente che nelllACM I inerzia di una categoria aumenta al diminuire della sua frequenza e che l'inerzia di una variabile cresce all aumentare del numero delle sue modalità. Prima di procedere ad un’. analisi si deve controllare che il numero delle modalità delle variabili sia equilibrato per evitare che alcune variabili assumano un peso eccessivo nell’. analisi e ci sia distorsione. Per ovviare a tale inconveniente il programma Spad elimina per default tutte le variabili-modalità che hanno una frequenza inferiore al 2%. In alternativa le modalità con frequenze troppo basse si potrebbero aggregare in una nuova modalità residuale, oppure si potrebbero definire come variabili-modalità illustrative Pregi e difetti ACM Critiche della scuola francese -Queste tecniche fanno emergere ciò che è facilmente intuibile nei casi a disposizione -Producono risultati instabili perché legati al campione utilizzato -Sono tecniche esclusivamente esplorative che trascurano gli aspetti inferenziali e non consentono la generalizzazione dei risultati Pregi: Occorre ribadire la sua valenza esplorativa e la conseguente assenza di assunti a priori circa la natura della distribuzione delle variabili; presenta ottime capacità descrittive, in quanto permette di esaminare l'interazione simultanea di molte variabili esplorandone i legami diretti Rispetto all’ ACP, di cui l’ACM può essere considerata un caso particolare, non occorre assumere relazioni di tipo lineare tra le variabili e fra queste e i fattori. l’ACM produce le migliori combinazioni possibili delle variabili originarie L’ ACMpermette di lavorare su variabili categoriali senza trasformarle artificialmente in variabili cardinali, con variabili cardinali opportunatamente ricodificate come categoriali ordinate In conclusione, l’ ACM è una tecnica indicata per l'analisi dei dati delle ricerche delle scienze umane per la sua sensibilità alle perturbazioni che impone al ricercatore di farne un uso consapevole. È necessario che egli proceda con massima consapevolezza. La sensibilità dell’ ACM alle perturbazioni è il suo maggior pregio in quanto consente al ricercatore di constatare l'entità delle differenze proto nei risultati da piccole variazioni nella scelta del paniere di variabili sottoposte ad analisi e da altre piccole differenze nella distribuzione di frequenze delle modalità CAPITOLO 5 — | MODELLI PER VARIABILI CARDINALI Il termine modello indica un costrutto che riproduce i casca ridotta e semplificata, le forme e le caratteristiche di un oggetto tangibile o meno a scopo cognitivo oppure pratico. Nel linguaggio scientifico si intende una costruzione schematica, ipotetica o realizzata materialmente con cui viene rappresentato globalmente o parzialmente, l'oggetto di una ricerca. La costruzione di un modello è orientata e guidata da una o più teorie e da conoscenze di carattere empirico. Il modello è idealmente costruito in modo impersonale ossia in modo da non essere influenzato dalle aspettative e dall’ interpretazione del ricercatore che lo costruisce L'uso dei modelli matematici si diffonde come strumento di ricerca e di sintesi delle conoscenze. Dal punto di vista metodologico una delle caratteristiche più importanti dei modelli matematici e che non aspirano a essere l'unica rappresentazione possibile di un fenomeno o di una classe di fenomeni. Non esiste alcuna corrispondenza biunivoca fra modello e fenomeno: uno stesso fenomeno può essere rappresentato da diversi modelli E viceversa uno stesso modello può servire a rappresentare i fenomeni diversi Una classificazione individua due finalità: 1) in modelli finalizzate alla simulazione dei processi e all'analisi della loro dinamica; 2) i modelli che consentono di stimare i valori di una o più variabili sulla base dei valori noti di un insieme di altre variabili cui si attribuisce un ruolo predittivo Si può considerare il processo attraverso il quale si applica la matematica per risolvere i problemi della vita reale come un processo a più stadi. Prima si costruisce ciò che hai chiamato un modello matematico di quelle rilevanti porzioni del mondo reali che si ritengono essere importanti; successivamente si analizza il modello matematico in relazione a dati empirici opportunatamente rilevati ottenendo una riproduzione degli stessi dati in funzione dei parametri specificati nel modello precedentemente definito La valutazione del modello matematico consiste nel confronto tra i dati empirici e i cosiddetti dati attesi e dati teorici se le differenze non sono statisticamente significative si dice che il modello si adatta ai dati; viceversa, se le differenze sono statisticamente significative, il modello deve essere o modificato oppure rifiutato PAR.5.1 - REGRESSIONE MULTIPLA LINEARE Il modello dell’ RMLha |" obiettivo di riprodurre la varianza di una variabile cardinale dipendente (y) come funzione lineare di un certo numero di variabili indipendenti. Questo modello è solo uno dei diversi modelli di analisi della regressione: ci sono modelli di analisi della regressione multipla non lineare, modelli di analisi della regressione multipla multivariata lineari e non lineari e modelli di regressione simultanea Quando i risultati di una regressione si riferiscono a un campione, si pone il problema dell’ inferenza dei valori stimati all’ intera popolazione, possibile solo se assunti del modello sono soddisfatti L'equazione di regressione è: Yz a + BX + £ Dove le lettere greche indicano i parametri incogniti nella popolazione; lavorando sui dati del campione troviamo i parametri a e b che possiamo utilizzare per inferire valori della popolazione se sono rispettati i seguenti assunti -Il modello di regressione è correttamente specificato, ovvero la relazione tra le variabili è di tipo lineare e la x è l'unica variabile che esercita influenza rilevante sulla y. -le variabili sono state rilevate senza errori di misurazione sistematici -i residui dell’ equazione (£) presentano media uguale a zero, stessa varianza per tutti i valori di x (omoschedasticità), nessuna correlazione tra loro, nessuna correlazione con la variabile indipendente, e distribuzione normale È possibile stimare i valori dei parametri nella popolazione in modo attendibile con i dati campionari, assumendo che le migliori stime lineari non distorte di alfa e beta siano medie dei valori a e b ottenute estraendo numerosi campioni dalla stessa popolazione Se i residui nella popolazione sono distribuiti normalmente queste stime dei parametri sono le migliori stime non distorte. Con un coefficiente di significatività possiamo sapere a quale livello di probabilità i parametri nella popolazione sono diversi da zero La stima dei parametri incogniti della popolazione si effettua costruendo un intervallo di fiducia con il valore del coefficiente campionario (che si costruisce al 95%); se il valore zero non cade all’ interno di questo intervallo si può respingere l’ ipotesi nulla e accettare l’ ipotesi alternativa Per ogni coppia di variabili correlate si calcolano due diverse rette di regressione a seconda di quale delle variabili è assunta come indipendente. Cambia l’ entità dei residui che diventano le distanze perpendicolari dei punti dalla retta per cui sono diversi i coefficienti delle due rette. Ogni variabile è influenzata da tantissime altre; nel modello della RML l' obiettivo diviene quello di esprimere una variabile dipendente y come funzione lineare di un certo numero di variabili indipendenti x. La funzione lineare della RML è esprimibile in simboli: y;j = @ + bjx1 + bax2 +-+ bnXn +e Dove a indica il punto in cui li per piano incontra l'asse delle y nell'iperspazio, bn sono i coefficienti di regressione parziali delle xnvariabili indipendenti ed e rappresenta l'insieme dei termini di disturbo, ovvero i residui nel modello della regressione Nella RML la stima dei parametri viene effettuata in modo analogo alla regressione bivariata; i coefficienti di significatività gli assunti del modello e l’ interpretazione del coefficiente di determinazione sono gli stessi. Nella RML i bn sono i coefficienti di regressione parziale e vanno interpretati come il contributo al cambiamento medio della variabile dipendente fornito da una unità di variazione di ogni variabile indipendente tenendo costati le altre variabili indipendenti. La regressione parziale è da intendere come la regressione netta di una variabile dipendente su una indipendente prescindendo dagli effetti delle altre variabili indipendenti. Se le variabili indipendenti sono espresse in unità di misura diverse si possono comparare i loro effetti sulla variabile dipendente standardizzando i rispettivi coefficienti di regressione parziale Si parla di collinearità perfetta quando fra qualsiasi coppia di variabili indipendenti sussiste una correlazione di più o meno 1. In questo caso è impossibile giungere a una stima univoca dei parametri con i minimi quadrati. | problemi di collinearità e multi-collinearità sono ricorrenti nelle applicazioni della RML nelle scienze umane dove le variabili indipendenti sono molte e quasi sempre intercorrelate. L'applicazione di un modello di RML prevede due fasi -prima fase: consiste nella specificazione del modello > scelta di variabili da inserire nel modello; scelta delle variabili indipendenti; scelta del criterio per stabilire "ordine di ingresso delle variabili indipendenti nell’ equazione di regressione -seconda fase: consiste nella valutazione di quanto il modello sia adeguato o compatibile co i dati di cui deve rendere conto + consiste nell’ esame di diversi coefficienti di bontà dell’ adattamento del modello ai dati e nell’ analisi grafica dei residui della regressione al fine di stabilire quanto siano soddisfatti gli assunti del modello CAPITOLO 6 — I MODELLI PER VARIABILI CATEGORIALI Si tratta di modelli log-lineari di modelli di regressione logistica e dell analisi della varianza PAR.6.1- MODELLI LOG-LINEARI Sono uno strumento per l’analisi multivariata delle variabili categoriali, presentate in tabelle di contingenza a due o più entrate. | MLL trasformano le frequenze di cella di una data tabella di contingenza calcolandone i rispettivi logaritmi naturali Si dice logaritmo naturale di un numero l'esponente al quale si leva la costante e = 2,718 per ottenere quel numero L'inverso della funzione logaritmica si dice antilogaritmo e consiste nell’. elevazione a potenza della costante 2,718 per ottenere il numero di partenza
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved