Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

METODI STATISTICI zini, Prove d'esame di Statistica

Una mini stesura di quelo che è l'esame

Tipologia: Prove d'esame

2021/2022

Caricato il 06/07/2023

cristian-romano
cristian-romano 🇮🇹

5

(1)

3 documenti

Anteprima parziale del testo

Scarica METODI STATISTICI zini e più Prove d'esame in PDF di Statistica solo su Docsity! INDAGINE SUGLI ASPETTI DELLA VITA QUOTIDIANA –DIFFICOLTÀ NEL RAGGIUNGERE SERVIZI DI PUBBLICA UTILITÀ NELLE REGIONI TRAMITE L’IMPIEGO DI ACP E ANALISI DEI CLUSTER Dipartimento di Scienze Economico-Aziendali e Diritto per l’Economia Corso di LM in Scienze Economico-Aziendali (Management) Anno accademico 2022/2023 Romano Cristian Matricola: 899573 Prof. Zini Alessandro INDICE 1. INTRODUZIONE (MODIFICARE) ..............................................................................................................3 2. DESCRIZIONE DEL DATASET ...................................................................................................................4 3. ANALISI COMPONENTI PRINCIPALI (ACP) ...........................................................................................6 4. ANALISI DEI CLUSTER .............................................................................................................................13 5. COCLUSIONI ...............................................................................................................................................22 6. APPENDICE E FORMULARIO ..................................................................................................................23 7. SITOGRAFIA ..............................................................................................................................................24 2. DESCRIZIONE DEL DATASET Il Dataset impiegato per l’analisi è stato reperito nella banca dati Istat, nella sottovoce: Difficoltà a raggiungere servizi di pubblica utilità. Questi dati derivano dall’indagine campionaria “Aspetti di vita quotidiana”, facente parte di un sistema integrato di indagini sociali – le indagini Multiscopo sulle famiglie – che rilevano informazioni fondamentali sulla vita quotidiana degli individui e delle famiglie. Il dataset che si è venuto a definire è il seguente:  n = 20, coincidenti con le regioni  p = 7, variabili investigate, rappresentate dalle seguenti categorie: Farmacie Pronto soccorso Uffici postali Polizia, carabinieri Uffici comunali Negozi, alimentari, mercati Supermercati Non si è proceduto a nessuna tecnica di riduzione del dataset, non essendo particolarmente esteso. I dati riportati nelle celle sono delle frequenze e la misura delle stesse è data da 100 persone con le stesse caratteristiche. Tipo dato famiglie che dichiarano un po' o molta difficoltà a raggiungere alcuni servizi farmacie pronto soccorso uffici postali polizia, carabinieri uffici comunali negozi alimentari, mercati supermerc ati Selezion a periodo Territori o                 2021 Piemonte   12 48,8 16 29,2 26,6 19,7 24,3 Valle d'Aosta / Vallée d'Aoste   14,4 41 13,5 22,2 13,4 20,4 37,2 Liguria   15,8 50,9 19,9 31 30,6 21,3 26,1 Lombardia   7,5 40,7 13,7 24,5 20,6 16,6 21,8 Trentino Alto Adige   13,5 37,9 18,7 24,6 19,8 13,4 20,8 / Südtirol Veneto   10,7 41,5 15,5 27 24,3 18 22 Friuli- Venezia Giulia   11,6 41,6 13,2 22,9 22,1 18,2 22,1 Emilia- Romagna   11,6 41,7 18,6 26,7 28,1 17,6 21,1 Toscana   12,7 49,5 18,2 30,3 36 19,3 26,8 Umbria   14,8 49,4 16,7 28,3 37,1 17 22,2 Marche   14 46,5 17,6 26,9 30,9 17,3 20,8 Lazio   12,8 52,2 21,6 33,9 42,6 16,3 19,9 Abruzzo   15,7 47,4 17,6 26,4 27,9 17,1 23,7 Molise   13,5 52 15,6 28,2 20,9 15,5 30,6 Campania   20,9 63,6 30,4 39,6 38 21,2 30,4 Puglia   13,6 53,2 24 34,3 34,7 13,5 18,1 Basilicata   20 53,3 22,5 24,2 26,1 20,6 26,8 Calabria   27 62 28,3 39,4 34,4 29,1 36,5 Sicilia   18,3 56,5 25,7 36,1 40,1 20,7 23,5 Sardegna   7,4 45,3 10 14,9 18,1 10,8 17,5 Per dare un quadro più generale ed un’informativa più accurata del dataset viene riportata la seguente tabella che esplicita le statistiche descrittive: Statistiche descrittive N Intervall o Minimo Massim o Media Deviazione std. Varianza Farmacie 20 19,60 7,40 27,00 14,3900 4,53639 20,579 Pronto soccorso 20 25,70 37,90 63,60 48,7500 7,03184 49,447 Posta 20 20,40 10,00 30,40 18,8650 5,23996 27,457 Polizia 20 24,70 14,90 39,60 28,5300 6,02993 36,360 Comune 20 29,20 13,40 42,60 28,6150 8,07043 65,132 Alimentari 20 18,30 10,80 29,10 18,1800 3,80396 14,470 Supermercati 20 19,70 17,50 37,20 24,6100 5,46057 29,818 Numero di casi validi (listwise) 20 Ad esempio, la variabile “Farmacie” presenta un intervallo abbastanza elevato (19,60), variando da un massimo di 27 ad un minimo di 7,40; con relativa media di 14,39; Deviazione standard pari a 4,53639 e varianza di 20,579. 3. ANALISI COMPONENTI PRINCIPALI (ACP) CENNI TEORICI L‘Analisi delle Componenti Principali è un metodo di analisi multivariata che consente una riduzione delle variabili investigate e di evitare l’indesiderata duplicazione di queste ultime dall’andamento simile. L‘obiettivo di questa teoria è quello di costruire delle nuove variabili, ottenute come combinazioni lineari di quelle originarie. Da queste ultime si genera un numero ridotto di variabili (denominate Componenti Principali), che inizialmente erano tra loro incorrelate, con la finalità di spiegare una porzione rilevante della varianza totale. Un ulteriore finalità dell’ACP è da un lato la volontà di estrarre il minor numero di componenti principali, dall’altro quella di conservare quanta più significatività possibile, ossia senza alterare il dato disaggregato di partenza. Ognuna delle nuove variabili consente di raggruppare all’interno di sé tutta una serie di variabili, ponderandole tramite l’assegnazione di pesi diversificati. La scelta del numero di Componenti Principali è effettuata sulla base della Varianza Cumulativa da queste spiegata, la quale non deve essere inferiore ad una certa soglia. APPLICAZIONE PRATICA SPSS PER PASSAGGI PASSAGGIO 1: MATRICE DI CORRELAZIONE Il primo passaggio per effettuare l’analisi delle componenti principali consiste nell’analizzare la matrice di correlazione tra le variabili in esame. Essa consente di osservare se esiste un grado di correlazione tra le variabili. Questa correlazione può essere positiva o negativa, a seconda che le due variabili di studio si muovano nella stessa direzione o in direzione opposta, raggiungendo gli estremi per assumere rispettivamente i valori 1 e -1. Più l’indice di correlazione risulta vicino all’1 più le variabili risultano essere correlate positivamente, al crescere di una, cresce anche l’altra; al contrario i valori prossimi al -1 riflettono una correlazione negativa, più aumenta una, più l’altra decresce. Correlazioni Farmacie Pronto soccorso Uffici postali Polizia, carabini eri Uffici comunali Negozi, alimentari, mercati Supermercati Farmacie 1 0,766** 0,819** 0,676** 0,451* 0,781** 0,638** 1 4,668 66,680 66,680 4,668 66,680 66,680 2 1,475 21,075 87,754 1,475 21,075 87,754 3 ,320 4,565 92,320 4 ,234 3,341 95,661 5 ,187 2,678 98,339 6 ,083 1,185 99,524 7 ,033 ,476 100,000 Metodo di estrazione: Analisi dei componenti principali. Le componenti da estrarre devono garantire che almeno il 60%-80% della variabilità complessiva, delle variabili di partenza, non venga persa. Infatti, se fossero estratte tutte le componenti, si spiegherebbe il 100%, ovvero la totalità, della varianza. Per questo motivo, tra di esse, si estraggono solo le prime 2 componenti, che sono quelle associate ai maggiori autovalori e che cumulativamente riescono a spiegare circa l’87,7 %; della varianza. Ogni componente principale è in grado di spiegare una certa percentuale di varianza, la prima componente spiega circa il 66,6% della varianza totale, la seconda permette di aggiungere un ulteriore 21%, permettendo così di giungere al dato sulla varianza complessiva soprariportato. PASSAGGIO 5: MATRICE DEI COMPONENTI Matrice dei componentia Componente 1 2 Farmacie 0,904 0,253 Pronto soccorso 0,895 -0,153 Uffici postali 0,919 -0,224 Polizia, carabinieri 0,904 -0,267 Uffici comunali 0,708 -0,632 Negozi, alimentari, mercati 0,773 0,485 Supermercati 0,539 0,795 Metodo di estrazione: Analisi dei componenti principali. a. 2 componenti estratti. La matrice dei componenti è una tabella in cui sono esposte le correlazioni tra le singole variabili e le componenti. Riporta sulle colonne le 2 componenti principali estratte e sulle righe le 7 variabili originarie; nelle celle sono riportati dei valori, positivi o negativi, che indicano la correlazione di ciascuna delle componenti estratte con le variabili originarie. Ad esempio: - Dalla prima riga notiamo il dato riferito alla prima cella (0,904), che indica la correlazione positiva tra la prima componente principale con la prima variabile “Farmacie”. -Nella seconda riga notiamo invece un valore negativo (-0,153), che indica la correlazione negativa tra la seconda componente principale e la seconda variabile “Pronto soccorso”. Queste osservazioni possono essere svolte per tutte le altre variabili in gioco. Con riferimento alla prima colonna, corrispondente alla prima componente principale, si considerano le variabili che hanno una correlazione elevata. Quindi: “Farmacie”, “Pronto soccorso”, “Posta”, “Polizia”, “Comune”, “Alimentari”. Questi elementi portano a definirla come “Componente Statale”. Nella seconda componente principale, invece viene osservato un elevato grado di correlazione solamente con la variabile “Supermercati”. Si procede dunque a, dunque, a denominarla “Componente Distribuzione organizzata”. PASSAGGIO 6: MATRICE DEI COEFFICIENTI DI PUNTEGGI DEI COMPONENTI Matrice dei coefficienti di punteggi dei componenti Componente 1 2 Farmacie 0,194 0,171 Pronto soccorso 0,192 -0,103 Uffici postali 0,197 -0,152 Polizia, carabinieri 0,194 -0,181 Uffici comunali 0,152 -0,429 Negozi, alimentari, mercati 0,166 0,329 Supermercati 0,115 0,539 Metodo di estrazione: Analisi dei componenti principali. Per concludere l’analisi è opportuno calcolare la matrice dei punteggi delle componenti principali. Essa riporta, sulle colonne, le 2 componenti principali estratte e sulle righe, le 8 variabili originarie; Nelle celle, invece, sono riportati i pesi assegnati a ciascuna delle variabili originarie, all’interno delle componenti estratte. Viene valutato il dato contenuto nell’ultima cella, dal quale si possono osservare i pesi assunti dalla variabile “supermercati”, all’interno delle due componenti principali. Nella prima componente assume un peso di 0,115, tale valore si discosta significativamente dal valore massimo assumibile, ovvero 1, corrispondente al caso in cui la componente principale coincide con quella sola variabile. Inoltre, il dato mostra come il peso rivestito da questa nella combinazione lineare non sia il più alto raggiunto, in quanto “Uffici postali” ha un valore pari a 0,197. Ciò nonostante, la prima componente risulta ben distribuita in tutte le 6 variabili, presentando lievi variazioni tra un valore e un altro. Invece, i pesi assunti all’interno della seconda componente risultano nettamente disomogenei tra di loro, infatti sono presenti addirittura dei valori negativi. Il valore più alto è raggiunto dalla variabile “Supermercati” mentre il più basso dalle “Uffici comunali” PC1 PC2 Piemonte -0,23878 0,05083 Valle d'Aosta / Vallée d'Aoste -2,00602 1,88832 Liguria 0,22709 0,44248 Lombardia -0,99071 -0,53242 Trentino Alto Adige / Südtirol -0,708 -0,59277 Veneto -0,58856 -0,33683 Friuli-Venezia Giulia -0,97003 -0,15872 Emilia- Romagna -0,21972 -0,53469 Toscana 0,28352 -0,02901 Umbria 0,41758 -0,57997 Questa filosofia prevede che inizialmente tutti gli elementi siano considerati cluster a sé e solo successivamente l'algoritmo ha il compito di unire i cluster più vicini. L'algoritmo continua a raggruppare gli elementi al cluster fino a quando: - si ottiene un numero prefissato di cluster - fino a che la distanza minima tra i cluster non supera un certo valore - un determinato criterio statistico prefissato lo decide  Dall'alto verso il basso (metodi divisivi o top-down): Inizialmente tutti gli elementi sono membri di un unico cluster, successivamente l'algoritmo inizia a dividere il cluster in tanti gruppi di dimensioni minori. Il criterio utilizzato per procedere a questa suddivisione è quello di ottenere gruppi sempre più omogenei. L'algoritmo procede fino a che non viene soddisfatta una regola di arresto generalmente legata al raggiungimento di un numero prefissato di cluster. Metodi non gerarchici i metodi non gerarchici vengono definite partizioni progressivamente sempre più fini dell’insieme iniziale, fino ad ottenere classi composte da un solo elemento. I metodi non gerarchici sono solo di tipo aggregativo e creano un’unica partizione. Essi realizzano attribuzioni successive delle unità tra i gruppi definiti a priori fino ad arrivare ad ottenere la partizione ritenuta “ottima” sulla base di un criterio predefinito. Inoltre, esiste il metodo delle k-means che consiste in un metodo di tipo partitivo in cui, a differenza dei metodi gerarchici, il numero di cluster finali in cui sarà suddiviso il campione è prestabilito. APPLICAZIONE PRATICA SPSS Con questa tecnica ci si pone l’obiettivo di raggruppare i dati in un certo numero di clusters creati in modo tale da avere eterogeneità tra elementi assegnati a gruppi diversi e omogeneità all’interno di ciascun gruppo. Si è partiti dal metodo gerarchico con l’obiettivo di individuare il numero ottimale di gruppi finali in cui ripartire la popolazione campionaria. Questo stesso numero sarà impiegato per l’applicazione del metodo delle k-means. METODO GERARCHICO: Il software ha impiegato correttamente tutti i valori, di modo che ciascun caso è stato assegnato ad uno dei cluster individuati. Così come è possibile osservare dalla tabella di riepilogo sottostante. Riepilogo elaborazione casia,b Casi Valido Mancante Totale N Percentua le N Percentua le N Percentua le 20 100,0 0 ,0 20 100,0 a. Distanza euclidea al quadrato utilizzata b. Legame medio (tra gruppi) Si è partiti da un numero di cluster pari a 20, uno per ciascuna regione italiana. Il programma ha provveduto ad aggregarli giungendo ad ottenere un unico gruppo. Per fare questo ci sono voluti 19 stadi, che vengono riportati e descritti nella tabella seguente. Pianificazione di agglomerazione Stadio Combinato in cluster Coefficie nti Stadio prima apparizione cluster Stadio successivo Cluster 1 Cluster 2 Cluster 1 Cluster 2 1 11 13 21,400 0 0 5 2 4 7 25,330 0 0 6 3 6 8 25,960 0 0 6 4 9 10 38,330 0 0 10 5 1 11 44,250 0 1 7 6 4 6 62,310 2 3 9 7 1 3 72,460 5 0 10 8 12 16 81,050 0 0 11 9 4 5 87,483 6 0 15 10 1 9 90,585 7 4 13 11 12 19 129,115 8 0 16 12 15 18 156,800 0 0 19 13 1 17 169,685 10 0 14 14 1 14 206,724 13 0 15 15 1 4 249,502 14 9 16 16 1 12 446,804 15 11 17 17 1 20 626,692 16 0 18 18 1 2 686,688 17 0 19 19 1 15 1073,101 18 12 0 Analizzando l’ottava riga si evince che, all’ottavo stadio il cluster 12 è stato accorpato al cluster 16, costituendo il nuovo cluster 8. Tale cluster è stato poi oggetto di una successiva aggregazione allo stadio 11, ove è stato unito al cluster 19, gruppo costituito da una sola regione, non essendo ancora questo stato accorpato in precedenza ad alcun altro cluster. L’osservazione della quarta colonna consente di cercare il più̀ grande gap nei valori di distanza tra oggetti, intervenuti in questo caso agli stadi 16 e 19. 2 2,000 3 2,000 4 10,000 Valido 20,000 Mancante ,000 La tabella mostra come vengono distribuite le 20 variabili all’interno dei 4 cluster. In particolare: • 6 unità/regioni all’interno del cluster 1; • 2 regioni costituiscono il cluster 2; • 2 regioni sono unite nel cluster 3; • le rimanenti 10 regioni confluiscono nel cluster 4. Appartenenza cluster Numero di casi Regioni Cluster Distanza 1 Piemonte 4 8,76471 2 Valle d'Aosta / Vallée d'Aoste 2 8,45636 3 Liguria 4 5,10747 4 Lombardia 1 3,94532 5 Trentino-Alto Adige / Südtirol 1 6,99635 6 Veneto 1 4,89001 7 Friuli-Venezia Giulia 1 3,50079 8 Emilia-Romagna 1 8,0093 9 Toscana 4 5,59966 10 Umbria 4 5,76075 11 Marche 4 6,87097 12 Lazio 4 11,23843 13 Abruzzo 4 7,82957 14 Molise 2 8,45636 15 Campania 3 6,26099 16 Puglia 4 9,64656 17 Basilicata 4 11,91034 18 Calabria 3 6,26099 19 Sicilia 4 12,87797 20 Sardegna 1 13,17936 CLUSTER 1= Lombardia, Trentino-Alto Adige/Sudtirol, Veneto, Friuli-Venezia Giulia, Emilia-Romagna, Sardegna CLUSTER 2= Valle d’Aosta, Molise CLUSTER 3= Campania, Calabria CLUSTER 4= Piemonte, Liguria, Toscana, Umbria, Marche, Lazio, Abruzzo, Puglia, Basilicata, Sicilia A conclusione del procedimento di analisi abbiamo il test di ANOVA, il quale fornisce informazioni riguardanti la diversa influenza che hanno le varie componenti principali nell‘individuazione dei clusters. Le variabili che differenziano meglio i gruppi sono quelle che presentano un valore di F (di Fisher) elevato. ANOVA Cluster Errore F Sign. Media quadratica gl Media quadratica gl PC1 4,056 3 ,427 16 9,497 <,001 PC2 4,017 3 ,434 16 9,250 <,001 I test F devono essere utilizzati solo per scopi descrittivi perché i cluster sono stati scelti per massimizzare le differenze tra i casi in cluster differenti. I livelli di significatività osservati non sono corretti per tale motivo e, pertanto, non possono essere interpretati come test dell'ipotesi che le medie dei cluster siano uguali. Nella nostra analisi possiamo affermare che entrambi le componenti principali hanno contribuito in maniera equa nella determinazione dei gruppi. Poiché i gruppi non risultano equi-numerosi, non si procede con la valutazione delle significatività. Da questa prima fase di analisi emerge chiaramente come le unità statistiche e le variabili selezionate, dopo il calcolo delle componenti principali, abbiano fornito riscontri positivi in termini di cluster analysis. Infatti, sia utilizzando il metodo gerarchico e che quello non gerarchico rappresentato dalle k-medie, si ottengono dei raggruppamenti contenti regioni con caratteristiche molto simili, anche per quanto riguarda fattori non recepiti dagli indicatori selezionati. 5. COCLUSIONI L’analisi dei dati, tramite il software SPSS, è stata svolta senza difficoltà e le procedure scelte si sono rilevate adatte, poiché non è stato necessario ridurre i dati o utilizzare altre tecniche di analisi multivariata per ridurre le variabili. Complessivamente possiamo dirci soddisfatti dei risultati dell'analisi in quanto fornisce una stima approssimativa degli andamenti regionali in Italia in tema di difficoltà nel raggiungere alcuni servizi di pubblica utilità. Attraverso l’utilizzo del metodo delle Componenti Principali, sono state definite le 4 componenti assunte poi come variabili nell’analisi cluster. Quest'ultima analisi è divisa in due sottofasi, la prima fase prevede l'applicazione del metodo di clustering gerarchico, la seconda fase prevede l'implementazione del metodo di clustering partitivo. La prima ha permesso di individuare il numero ottimale dei cluster, pari a k=4; Questo valore è stato poi utilizzato nel metodo di clustering delle k-means. In particolare, attraverso il metodo delle k-means si sono evidenziati questi risultati:  La suddivisione in cluster corrisponde anche ad una suddivisine di tipo territoriale. Al cluster 1 sono assegnate la Sardegna e le regioni del Nord-Italia della Valle d’Aosta (appartenente al cluster 2), del Piemonte e della Liguria (entrambi appartenenti al cluster 4). Compongono il cluster 4 le regioni del centro e del Sud-Italia, mentre il cluster 2 risulta quello con più disparità geografica al suo interno, essendo composto da Molise e Valle d’Aosta. Infine, le regioni Campania e Calabria costituiscono il cluster 3;  Calabria e Campania (cluster 3), pur presentando valori molto simili alle regioni del Nord Italia (cluster 1) in merito alle variabili componente distribuzione organizzata, differiscono da queste per via della componente Statale nettamente superiore (PC 1).  I cluster 2 e 3 (rispettivamente Valle d’Aosta, Molise e Calabria, Campania) sono accumunate dal valore delle variabili componente distribuzione organizzata, mentre differiscono a causa delle variabili Componente Statale. Possiamo ritenerci soddisfatti della soluzione ottenuta, in quanto attraverso l’interpretazione dei dati, ricavati dalle analisi condotte, si è riusciti ad arrivare ad un risultato esaustivo e significativo.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved