Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Metodi Statistici per la Bioingegneria - Appunti, Appunti di Metodi Matematici per l'Ingegneria

Statistica descrittiva, variabili aleatorie, test statistici, regressione con i minimi quadrati, collinearità tra variabili, test non parametrici, metodi di Shrinkage, cluster analysis, statistica multivariata, PCA, ICA, analisi di sopravvivenza, regressione logistica, campionamento, analisi della correlazione canonica.

Tipologia: Appunti

2022/2023

In vendita dal 29/12/2023

maddalena.fabris
maddalena.fabris 🇮🇹

4

(2)

19 documenti

1 / 141

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Metodi Statistici per la Bioingegneria - Appunti e più Appunti in PDF di Metodi Matematici per l'Ingegneria solo su Docsity! Università degli studi di Padova METODI STATISTICI PER LA BIOINGEGNERIA Prof. Alessandra Bertoldo 2023/2024 STATISTICA DESCRITTIVA La statistica descrittiva è una branca della statistica e ha come scopo quello di sintetizzare i dati attraverso i suoi strumenti grafici (diagrammi a barre, a torta, istogrammi, boxplot) e indici (indicatori statistici, indicatori di posizione come la media, di dispersione, come la varianza e la concentrazione, di correlazione, di forma, come la curtosi e la skewness, ecc.) che descrivono gli aspetti salienti dei dati osservati, formando così il contenuto statistico. Medie analitiche: calcolate tramite operazioni algebriche sui valori del carattere, valgono solo per caratteri quantitativi Media di posizione: non richiedono operazioni algebriche, valgono anche per caratteri qualitativi La media aritmetica per una distribuzione unitaria di carattere quantitativo di n termini, è definita come: è In alcune situazioni si ha una distribuzione ponderata in cui a ogni modalità viene associato un peso che quantifica l’importanza. è Proprietà della media aritmetica: • La somma algebrica della somma degli scarti dalla media è nulla: • Proprietà di internalità: la media è sempre compreso tra il minimo e il massimo della distribuzione • Proprietà di invarianza rispetto a trasformazioni lineari: se ogni termine della distribuzione viene applicata la trasformazione aX+b allora la media sarà pari a: MEDIA ARITMETICA MEDIA PONDERATA O PESATA Per una distribuzione unitaria di un carattere quantitativo di n termini la media geometrica è definita come: è Viene utilizzata per distribuzioni con andamento geometrico o per determinare il tasso di incremento o decremento medio. La media aritmetica e normalmente più grande della media geometrica. Proprietà della media geometrica: • Proprietà di invarianza rispetto a cambiamenti di scala: se ogni termine della distribuzione viene applicata la trasformazione aX allora la media geometrica sarà pari a: • La media geometrica non è mai superiore alla media aritmetica (per qualsiasi distribuzione): Non uso la media geometrica se ho valori nulli o negativi nella distribuzione. Infatti la presenza di 0 nella distribuzione annulla il prodotto tra gli elementi e azzera la media, mentre la presenza di numeri negativi potrebbe determinare un prodotto negativo sotto la radice. La mediana in una distribuzione di carattere qualitativo ordinato o quantitativo, è la modalità del carattere che divide il collettivo in due gruppi di uguale numerosità. Per calcolare la mediana di una distribuzione unitaria di un carattere quantitativo di n termini: Quindi se N è dispari si sceglie il valore che si trova in posizione centrale. Se N è pari la mediana viene calcolata mediando i due elementi che si trovano in posizione centrale, tramite una media. Proprietà della mediana: • La mediana minimizza la distanza di ogni modalità da una costante: • Proprietà di internalità: la mediana è sempre compresa tra il minimo il massimo della distribuzione • Proprietà di invarianza rispetto trasformazioni lineari: se ogni termine della distribuzione viene applicata la trasformazione aX+b allora la mediana sarà pari a: La mediana non è influenzata dalle osservazioni aberranti o estreme (outliers). MEDIA GEOMETRICA I percentili sono quei valori che dividono la distribuzione in 100 parti uguali. I percentili più usati sono il 25º(primo quartile), il 50º(mediana) e il 75º(terzo quartile). La mediana è è il dato che delimita il primo 50% dei dati ordinati dai rimanenti. Spesso viene utilizzato il concetto di quartile: il primo quartile è il dato che delimita il primo quarto dei dati rimanenti, il secondo delimita i primi due quarti (coincide con la mediana) e il terzo delimita i primi tre quarti. Esempio I BOX PLOT Una rappresentazione grafica che si basa sulla definizione dei quartili è il box-plot. Permette di descrivere la variabile in maniera sintetica ed è molto utile per confrontare sottogruppi di dati. L’idea è quella di individuare con una “scatola” le osservazioni centrali e con dei “baffi” o code uscenti dalla scatola le osservazioni più estreme. Per costruirlo si disegna una scatola tra i valori Q1 e Q3. Con una linea verticale si individua la mediana (Q2). Si disegnano poi i baffi che sono lunghi al più una volta e mezza la distanza interquartile e terminano in corrispondenza del dato più lontano dalla scatola inferiore a tale valore. • Devianza • Varianza • Deviazione standard • Coefficiente di variazione (variabilità relativa) Gli indici di variabilità possono essere basati su: • Scostamento da una media: quando la media è adeguata per i dati, ho una statistica gaussiana • Differenze tra statistiche d’ordine: quando la media è non rappresentativa, ho una statistica non gaussiana Per una distribuzione di N valori quantitativi, la devianza è definita come: Si preferisce usare la varianza che ha stessa unità di misura dei dati elevata al quadrato: In generale all’aumentare del numero dei dati n si riducono le differenze. La deviazione standard o scostamento quadratico medio è l’indice di variabilità più usato perché presenta la stessa unità di misura dei dati. Si ottiene come: Se la distribuzione ha media aritmetica positiva, si valvola di coefficiente di variazione come percentuale di variazione del dataset dalla media aritmetica: Proprietà 1. Devianza, varianza e SD sono sempre non negativi (≥ 0) e assumono valore nullo se e solo se tutte le modalità della distribuzione sono uguali tra loro. 2. La devianza può essere calcolata come distribuzione unitaria o distribuzione delle frequenze: 3. Se viene applicata la trasformazione aX+b a ogni termine della distribuzione: La costante b non induce nessuna variabilità al dataset infatti è un termine deterministico con varianza nulla, mentre a rende X incerto. Per una distribuzione unitaria di carattere quantitativo, definiamo scostamento semplice medio dalla media aritmetica: Dalla media a si ottiene invece lo scostamento semplice medio dalla mediana: Se i dati statistici non sono grezzi ma sono raggruppati in una tabella di frequenze, la formula per calcolare la media e la varianza sono: In generale è impossibile acquisire i valori di ogni singolo individuo (o elemento) di una popolazione. Si ricorre quindi allo studio di un campione di 𝑛 individui (elementi) sperando che il campione sia rappresentativo della popolazione (ad esempio: la media aritmetica del campione è uguale alla media aritmetica della popolazione). Tutti i metodi statistici sono costruiti sull’assunto che gli individui testati nel campione rappresentino un campione casuale della popolazione non interamente osservata. La media aritmetica e la deviazione standard calcolante da un campione n scelto con una procedura casuale sono pensate essere stime della media e direzione standard dell’intera popolazione. L’errore che si commette nel calcolo della media è pari a: L’errore mi definisce quanto è credibile la mia media considerando n=numero di soggetti. Nota: l’errore standard è diverso dalla SD che invece rappresenta la variabilità del dataset. Def. Momenti semplici di ordine r. Se X è una v.a. il momento di ordine r, con r naturale, è definito dalla seguente: È fx S(x)dx Nel caso continuo. __] r|_ r È LS) Nel caso discreto i “ASPETTAZIONE Si osserva che per r=1 si ottiene il valore atteso (aspettativa) di X. j Def. Momenti centrali di ordine r. = eenkcato attorno all aspetazone Se X è una v.a. il momento centrale di ordine r, con r naturale, è definito dalla seguente: +0 Efx-EMI}= [EMY fw elx-emI}-Lk 20} fG) i [Si osserva che per r=2 si ottiene la varianza di X j “asepitazione coinido con la media artmetica [ Data una v.a. X l'operatore E(.) non è altro che l'aspettativa di X. j {Proprietà ] 40 ELX]= fat -sasremizone ha [1] E[C]=C VC costante -% E) EIC+C,X]=C+C,EX) YC,.C, costanti E] E[Gg,(0)+C,g,(0]= GEg,(0]+Eg(4)] E[gM]= [sMfMd lo V C,,C, costanti V g;(.),g;(.) funzioni di X L'operatore Var(.) definisce la varianza della v.a. x rov= [EF IMA Ex -E00]} E' il momento centrale di ordine 2. Si può scrivere come differenza tra il momento secondo e il momento primo al quadrato, cioè vm) = ex E} H ro-0 Eh nG+Ga-cv IMPORTANTI FUNZIONI DI PROBABILITÀ E DI DENSITÀ VARIABILE BINOMIALE VARIABILE DI POISSON La funzione di densità normale ha le segueni caramerisiche: • E simmetrica amorno all’aspemazione • È unimodale (gaussiana - 1 solo massimo). Unimodale in staisica è riferito a una funzione di densità di probabilità che ha solo un punto di massimo • Presenta due flessi Teorema del limite centrale (legge dei grandi numeri): è valido quando la variabile aleatoria osservata è il risultato della somma di un numero sufficientemente grande di variabile aleatorie indipendeni (o al limite debolmente indipendeni) che obbediscono a leggi leggi di distribuzione diverse. FUNZIONE DI DENSITÀ GAMMA ESPONENZIALE NORMALE Le distribuzione anPsimetriche possono essere posiPve o negaPve, le intensità di queste si amardano sulla coda “più alta” della distribuzione, rispejvamente a destra e a sinistra. Per distribuzioni unimodali vale: è media aritmeica < mediana < moda è media aritmeica > mediana > moda VARIABILI ALEATORIE VETTORIALI Si può estendere il concemo di variabile aleatoria al caso di due o più dimensioni, sia per variabili discrete che coninue, se ad ogni evento elementare associamo due o più funzioni. Parliamo quindi di funzioni di densità (o di probabilità) congiunte. Nel caso in cui sullo stesso spazio campionario si definiscono più funzioni allora si è in presenza di variabili aleatorie muliple. Definiamo la probabilità che si verificano X e Y contemporaneamente: Proprietà marginali di X e Y sono rispejvamente: Definiamo funzione di probabilità congiunta delle variabili discrete X e Y la funzione: Che soddisfa le segueni proprietà: Da f(x,y) è possibile determinare le funzioni di probabilità marginali di X e Y: E quelle condizionate: Si chiama funzione di densità congiunta delle variabili aleatorie coninue X e Y la funzione f(x, y) e ha le segueni proprietà: Condizione di indipendenza: due variabili X e Y sono indipendenP se solo se una delle segueni condizioni è soddisfama: Se X e Y sono indipendeni, il valor medio del prodomo è uguale al prodomo dei valori medi, cioè: 𝐸 [𝑋𝑌] = 𝐸[𝑋] ∗ 𝐸[𝑌] Chiamiamo covarianza tra X ed Y il numero: 𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 −μ𝑥)(𝑌 −μ𝑦)] Se X ed Y sono variabili aleatorie indipendeni, o almeno correlate, allora vale: 𝐶𝑜𝑣(X, Y) = 0 , ρ(𝑋, 𝑌) = 0 Viceversa se 𝐶𝑜𝑣(𝑋, 𝑌) = 0 non è demo che X e Y siano indipendeni Se però (𝑋, 𝑌) è gaussiano e 𝐶𝑜𝑣(𝑋, 𝑌) = 0 allora X e Y sono indipendeni. Gli staisici hanno messo a disposizione una serie di test con le relaive ipotesi. Diverse ipotesi mi portano a un test diverso e a un risultato diverso. La staisica test (o semplicemente test sta1s1co) è una quanità che viene calcolata a parire dai dai osservai, in grado di riassumere l’informazione campionaria rilevante ai fini dell’inferenza, cioè della valutazione della verosimiglianza dell’ipotesi. La staisica test varia a seconda del problema, delle sue ipotesi e assunzioni ausiliarie. I principali problemi di verifica di ipotesi hanno una soluzione già nota e sviluppata, ovvero un Test pronto all’uso. La staisica test osservata (a posteriori) non è altro che un numero, calcolato sui dai campionari, esamamente come la media o la deviazione standard campionarie. è La regione di rifiuto è l’insieme dei valori che la staisica test non dovrebbe assumere, se è vera l’ipotesi nulla H0, se non per effemo del caso o con probabilità molto bassa. Test a 2 code: Se il valore assunto dalla staisica test cade nella regione di rifiuto, il risultato campionario risulta significamente lontano dall’a^eso. Al di fuori del valore criico l’ipotesi nulla H0 viene rifiutata, infaj si valuta il risultato empirico troppo lontano e quindi in disaccordo con l’ipotesi H0. Se amplio la regione di accemazione (regione centrale) ci sarà più propensione ad accemare H0. Per determinare il valore criico uso il famo che per convenzione il valore dell’area al di fuori di questo è 5% quindi 0,05. TEST T DI STUDENT Test a 1 coda: Se ho direzionalità, allora l’area dal valore criico fino a infinito risulta essere 0.05 (5% di probabilità di H0). In questo caso ho un test unilaterale e la regione di rifiuto sarà tuma da un lato. Arrivare a determinare la regione di rifiuto significa anche avere la regola di accemazione e rifiuto dell’ipotesi H0. La determinazione della regione di rifiuto richiede che si conosca la distribuzione della staisica test. Ogni test staisico presenta dei gradi di libertà. Per moli test staisici il numero di gradi di libertà è uguale al numero di dai -1. Ad esempio se abbiamo a disposizione un data set di 20 campioni con una certa media, allora i gradi di libertà sono 19 poiché conoscendo 19 campioni e il valore della media posso ricavare il 20º campione. Esistono test parametrici e test non parametrici. Il test parametrico è basato sui parametri media e deviazione standard, da usare solo nel caso in cui la variabile di interesse sia conPnua e con distribuzione normale. In tuj gli altri casi sono da preferire i test non parametrici che si basano sui ranghi delle osservazioni e non sul loro reale valore. Più in paricolare i test staisici non parametrici si basano sul confronto fra le somme dei ranghi. I test parametrici sono basai su alcune assunzioni: 1. Le variabili devono essere coninue o almeno misurate in un intervallo 2. Deve esserci indipendenza fra media e varianza, quindi l’errore di misura deve essere indipendente dal valore misurato 3. Le variabili devono avere distribuzione (approssimaivamente) normale 4. Deve esserci omogeneità delle varianze 5. Risultai omenui con l’analisi di campioni si possono applicare alle popolazioni 6. La dimensione del campione deve essere >10 o meglio ≥ 30 DISTRIBUZIONE CAMPIONARIA DELLA STATISTICA TEST A posteriori, dato un campione, la staisica test osservata è un numero. A priori, se immaginiamo di ripetere infinite volte il campionamento, la staisica test assume valori sempre diversi descrivendo così una distribuzione ipica di quel test. Ogni test presenta una propria distribuzione specifica, con una forma caramerisica che deve essere determinata per poter procedere alla determinazione della regione di rifiuto. La staisica test è una trasformazione delle n variabili indipendeni X(i) che descrivono le singole osservazioni: quindi la sua distribuzione dipende da quella delle variabili elementari X(i) di cui si compone e dal loro numero n, oltre ovviamente che dalla sua espressione analiica. Ricavare la distribuzione della staisica test è un problema matemaico che richiede notazione avanzate di calcolo delle probabilità. Per i problemi standard questo lavoro è già stato famo quindi conosciamo le distribuzione dei test che si usano più frequentemente che sono T di Student, F di Snedecor, Chi-Quadrato. Uno dei problemi più semplici è quello dell’ipotesi sulla media di una popolazione che si può presentare con due variani: I. La varianza della popolazione è nota II. La varianza della popolazione è incognita Caso I: VARIANZA NOTA Quando la varianza è nota per testare un’ipotesi sulla media si usa il test Z, che ha distribuzione normale con media=0 e varianza=1. Nel caso di un test bilaterale: La regione di accemazione/rifiuto con il metodo del p-value resta sempre la stessa: Dunque per l’accemazione/rifiuto dell’ipotesi nulla H0 ho 2 metodi: I. Metodo classico o metodo dei valori criPci del test: fisso un valore arbitrario di alpha al di somo del quale rifiuto H0 e vado a verificare in quale regione cade il valore osservato dalla staisica test II. Metodo p-value o alpha osservato: calcolo il livello di significaività alpha osservato e rifiuto H0 quando alpha osservato è minore di una soglia prefissata. In questo caso abbiamo una indicazione su quanto l’ipotesi nulla è confermata dai dai osservai TEST STATISTICI — ANALISI DELLA VARIANZA Vogliamo testare l'ipotesi che date due popolazioni (due gruppi), la loro varianza è uguale. 1) l'ipotesi nulla è quindi: Ho : 017 = 02° Hi: 01 #02 2) Le ipotesi aggiuntive è che i dati ottenuti campionando le due popolazioni siano realizzazioni di due v.a. Normali con pop1=N(4;, 02) e pop2=-N(u2,0î) 3) Dobbiamo trovare una statistica test la cui distribuzione teorica è nota quando è vera l'ipotesi nulla varianza campionaria della popolazione 1 — varianza campionaria della popolazione 2 sotto l'ipotesi HO ossia la varianze sono uguali, F è una v.a. con densità di probabilità F (o di Fisher-Snedecor) F-F(n-1,m-1) Definita quindi dalla conoscenza del numero di campioni della popolazione 1 (n) e del numero di campioni della popolazione 2 (m) 25 * E'continua * Varia tra zero e infinito * Dipende dai gradi di libertà del numeratore e quelli del denominatore * E' circa centrata sul valore 1 d1=100, d2=100 Quindi: 1. Calcolo la varianza dei due campioni 2. Determino il valore di F.aicolato 3. Decido il livello di significatività (alpha) ad esempio 0.05 4. 5 . Determino il valore di F.ritico 4 . 5. Se Foatcolato> Feritico rifiuto HO CGUG_A Progabatyo TEST STATISTICI: T-TEST In base al test calcolato t: Scegliamo il test t giusto a parire dalle assunzioni: Test popolazioni omoschedasPche (stessa varianza): test su 2 gruppi T-test per variabili appaiate Quando vogliamo studiare una differenza fra due o più misurazioni della stessa variabile sulla stessa persona parliamo di variabili appaiate. Ad esempio vogliamo studiare il prima e dopo di uno simolo paricolare, prima e dopo di un intervento educaivo, stesso test a distanza di tempo. Ad esempio voglio osservare il comportamento di una popolazione prima e dopo un tramamento al fine di verificarne l’effemo. TEST PARAMETRICI – ANOVA (Analysis Of VAriance) ANOVA è un metodo staisico molto potente e flessibile che permeme di valutare le medie di più di due gruppi/popolazioni con una singola analisi. Permeme di studiare variabili aleatorie quanPtaPve con l’ipotesi nulla che riguarda le medie, ma viene testata operando sulle varianze. ANOVA AD UN FATTORE Calcoliamo ANOVA quando si verificano (entrambe) le segueni condizioni: 1. Normalità della distribuzione delle variabili dipendeni 2. OmoschedasPcità (omogeneità delle varianze dei gruppi) Test di Kolmogorov-Smirnov (test di normalità —> H0: la variabile è normale) Se W ha un valore piccolo, allora rifiuto H0 quindi i valori non sono distribuii come una variabile normale. L'ipotesi nulla sarà sempre la seguente: HO: F(x)=Fyo(x), mentre delle tre ipotesi alternative che si possono considerare a noi interessa solitamente la statistica del test a una coda: calcolata come la distanza tra la funzione di ripartizione di riferimento e la funzione di ripartizione empirica del campione. Nella sua formulazione esatta prevede che le variabili siano continue. Non richiede di per sé alcuna ipotesi sulla distribuzione campionaria, salvo nel caso a un campione, in cui viene testata una distribuzione a propria scelta. Ci sono vari test per valutare se le varianze di k gruppi di dati sono uguali o meno. | più noti sono: Test di Levene Test di Bartlett Il test di Levene è ritenuto da vari statistici più robusto, rispetto alla non normalità della distribuzione, di quanto siano i test di rapporti tra varianze e del test di Bartlett. Il test di Levene deve la sua diffusione anche all'inserimento in alcuni pacchetti statistici, che lo impongono come verifica preliminare di validità al test t di Student e all'ANOVA. Del metodo di Levene esistono molte versioni, ma le più diffuse sono tre. La prima è la proposta originaria di Levene. Le altre due, che ne rappresentano delle modifiche, sono attribuite a Morton B. Brown e Alan B. Forsythe. In esso, al posto della media indicata da Levene, suggeriscono di utilizzare la mediana oppure la media trimmed al dieci per cento. In modo più specifico, per la ten percent trimmed mean si intende la media del gruppo, ma dopo che da esso sono stati eliminati il 10% dei valori maggiori e il 10% dei valori minori. La scelta del 10% oppure di un'altra qualsiasi percentuale è puramente arbitraria. Diversi autori sono molto critici sull'uso dei test per l'omogeneità della varianza. Infatti essi sono- fortemente alterati dalla non normalità della distribuzione- e con pochi dati è impossibile verificare se le varie distribuzioni campionarie possano essere ritenute prossime alla normale. il test t permette di confrontare solo due gruppi Il’ANOVA permette di confrontare un numero qualsiasi di gruppi Ad esempio, ipotizziamo che l’obiettivo sia confrontare il punteggio medio conseguito all'esame di statistica tra chi ha frequentato il corso in presenza e chi online. In questo caso, i gruppi sono solo due (frequentanti in presenza e frequentanti online). Pertanto, per il confronto delle medie si può usare indifferentemente il test t o l'ANOVA. Ipotizziamo ora di voler approfondire l’analisi, suddividendo lo stesso campione di studenti in tre gruppi: chi ha frequentato solo in presenza, chi ha frequentato solo online, e chi ha frequentato un po’ online ed un po” in presenza. In questo caso, per il confronto delle medie non si può più usare il test t ma si deve necessariamente ricorrere all’ANOVA. Poiché MSE e MSB sono due varianze il valore ameso di !"# !"$ è 1 quando è vera l’ipotesi H0. Definiamo l’F di Fisher che è la staisica test adama all’ANOVA: 𝐹 = 𝑀𝑆𝐵 𝑀𝑆𝐸 L’ipotesi alternaiva prevede la deviazione di F verso valori >1 quindi anche se l’ipotesi alternaiva nell’ANOVA non è direzionale, prevede deviazioni solo in una direzione della distribuzione nulla di Fisher. Riassumendo i risultai dell’ANOVA: I gradi di libertà e la somma dei quadrai (SS) godono della proprietà addiiva, ma non le medie dei quadrai (MS). Nell’ulima colonna se non disponendo di un calcolatore per il p-value posso riportare il valore criico di F per alpha scelto. Le assunzioni dell’ANOVA sono le stesse del test t, ma estese a tuj i gruppi: • La variabile deve avere una distribuzione normale in tume le popolazioni corrispondeni ai gruppi campionai • La varianza in tume le popolazioni corrispondeni ai gruppi campionai deve essere uguale Per ciascun gruppo il campione deve rappresentare un insieme di misure estrame a caso dalla corrispondente popolazione. L’ANOVA è un’analisi robusta a variazioni di queste assunzioni sopramumo se i campioni hanno circa stesse numerosità. L’ANOVA viene impiegata per risolvere il problema dei test mulipli e dell’errore complessivo di ipo I. Infaj se scegliamo in un singolo test un livello di significaività alpha, sappiamo che esiste una probabilità alpha di rifiutare l’ipotesi nulla vera, commemendo un errore di ipo I. Di solito se consideriamo 100 test nei quali l’ipotesi nulla è sempre vera, la rifiuiamo erroneamente 5 volte. ANOVA A DUE FATTORI Nell’analisi della varianza a una via abbiamo considerato: • Variabilità tra i gruppi: • Variabilità interna al gruppo: ANOVA A UNA VIA ANOVA A DUE VIE Se ho una ANOVA con INTERAZIONE, allora c’è un legame tra i somogruppi, in questo caso ho 3 test. MODELLO DI REGRESSIONE LINEARE MULTIPLA: STIMATORE DEI MINIMI QUADRATI Uno dei modelli più semplici che abbiamo tuj uilizzato è quello della rema: una relazione lineare tra la variabile X, dema variabile indipendente, e la variabile Y, dema variabile dipendente. Il modello di regressione più semplice è il modello lineare che approssima i dai con una rema. Nel formalismo useremo: • m e q sono parametri • mx + q è il modello • y sono le osservazioni/daP/variabili Il modello deve tenere conto le misure non sono mai prive di errore, quindi la formulazione diventa: Introduciamo la staisica al modello considerando l’errore come una variabile aleatoria. L’errore di misura è assunto essere la realizzazione di una variabile aleatoria (spesso si assume che la variabile aleatoria sia normale) con momento primo e momento centrale di ordine 2 pari a: La variabilità di Y non è spiegata dal modello, infaj Y è una variabile dello stesso ipo dell’errore. Il modello viene generalizzato a un numero qualsiasi di variabili indipendeni nel seguente modo: In forma compama: Spesso viene sojntesa la presenza di Beta0 (o inglobata diremamente in X) e la formulazione diventa: Ricordiamo che l’errore è assunto essere la realizzazione di una variabile aleatoria con momento primo e momento centrale di ordine 2. Allora Y è una variabile aleatoria dello stesso ipo con: La varianza di Y non dipende dal modello ma solo dall’errore di misura o errore di modello. Ipoizziamo che 𝛽0=0 e scriviamo il modello nel seguente modo: Per trovare il valore da dare ai parametri del modello (𝛽1, 𝛽2, ... , 𝛽m ) dobbiamo usare uno simatore. Esempio: Per trovare il valore da dare ai parametri del modello (𝛽1, 𝛽2, ... , 𝛽m) dobbiamo usare uno simatore. Lo simatore più usato è chiamato “simatore dei minimi quadrai lineari” e la sua formula è: Cioè quello che minimizza la distanza euclidea tra misure e modello (predizione del modello). Si può dimostrare che il risultato del problema di minimo è, se la matrice 𝑿’𝑿 non è singolare è: Dove X e Y sono matrici e vemori Derivando rispemo i parametri e ponendo a zero: Da cui si ricava la formula esplicita: Il rango di (X’X) è pieno, e quindi la matrice è inveribile solo se i regressori (le colonne di X) sono linearmente indipendeni. 1. Nel caso in cui la varianza Var(𝜀)=𝜎^2 non sia nota, possiamo simarla tramite: 2. Possiamo simare anche il limite inferiore della varianza delle sime dei parametri: Questa è una matrice di dimensioni mxn: a noi interessano i valori della diagonale principale che esprimono la varianza associata alla sima del rispejvo beta. Nota: n-1 sono i gradi di libertà di X, n-1 sono i gradi di libertà di Y, quindi in totale ho n-2 gradi di libertà. L’interpretazione di r non dice che la correlazione forte ma solo se il valore è credibile. Il legame di correlazione ce lo dà beta1, omenuto tramite un processo di sima dei minimi quadrai. RisultaP dell’idenPficazione numerica: la sPma fa^a è acce^abile? Trovate le esive dei parametri e quindi determinato il modello come si valuta la bontà dei risultai dell’idenificazione? 1. ANALISI DEI RESIDUI: se il modello è buono è logico amendersi che i residui siano compaibili con le proprietà staisiche dell’errore di misura La predizione del modello è dato dall’interpolazione dei dai che si hanno (cerchi). Seppur discrei l’interpolazione fornisce una predizione coninua per ogni valore di X. Nelle zone di polarizzazione il modello staisico non predice in modo del tumo ojmale mentre nella zona finale funziona bene. 3. ANALISI DELLA BONTÀ DELLA PREDIZIONE (stremamente legata all’analisi dei residui) Dobbiamo valutare se i da5 e predizione sono allinea5; in caso di risposta afferma5va i da5 e la predizione dovrebbero giacere sulla stessa re@a, altrimen5 si hanno delle deviazioni. R = 1 significa che la tra@azione è perfe@a ma questo non ci piace perché significa che la misura ha migliorato l’errore. In questo caso parliamo di overfi&ng. Le variabili non devono per forza essere re@e ma possono essere anche parabole s5mate con il metodo dei minimi quadra5 lineari. Se un gruppo di variabili apporta un aumento significa5vo all’indice di devianza R^2 Più le s5me saranno precise ma più il modello sarà complicato. Spesso delle variabili X sono superflue e possono dunque essere eliminate. Se i residui sono tuP piccoli il modello è in overfiPng. Questo test viene eseguito proprio per non “schiacciare” i residui residui verso lo 0. Nella parte finale è presente una piccola parte di sfasamento, infaP i residui possono essere considera5 gaussiani. Per dimenicare la quasi mulicollinearità (QM) sono stai sviluppai moli metodi. Tra i più usai abbiamo: • Correlazione tra coppie di regressori: se una coppia ha una correlazione più alta di 0,8 allora è molto collineare. Alta mulicollinearità può essere presente anche se la correlazione tra coppie di regressione è più bassa (inferiore a 0,5). • VIF (Famore di inflazione della varianza) VIF > 5 non dice con cosa è collineare, dice solo che c’è collinearità con un elemento della matrice X. Nota 2: gli elemeni sulla diagonale rappresentano la variazione dell’errore di sima. • Tolerance Limit (TOL): • Klein’s rule of thumbs: la mulicollinearità può essere un problema se Rj2 > R2 (R2 della regressione principale di Y su tume le X), quindi se la correlazione tra due variabili è maggiore a quella che si ojene dalla regressione di Y con la predizione del modello con tume le variabili. • Valutazione degli autovalori (Kendall) Considerando che possiamo calcolare gli autovalori e autovemori della matrice X’X. Chiamiamo con λ1, λ2…, λm gli autovalori. L’idea è che se alcuni di quesi autovalori sono bassi allora si può supporre l’esistenza di correlazioni fori tra le colonne di X. • CN - numero di condizionamento: • CI - indice di condizionamento: Quando è presente collinearità possiamo eliminare dal modello le variabili esplicaive che risultano combinazioni lineare delle altre. In altre parole possiamo eliminare la collinearità tra le variabili. Test sui parametri Proprietà dello sPmatore dei minimi quadraP lineari generalizzaP (è il migliore di tuj gli simatori): Lo simatore di minimi quadrai lineari è unbias in assenza di errore di misura, ciò significa che la sima è quella vera. In caso di errore di misura tale simatore dice che quell’errore è quello corremo che si verifica nella realtà. Nota: i wresidui sono pesai, a media nulla e scorrelai tra loro, ma hanno ampiezza standardizzata che va da 0 a 1 (più bassi sono più ho overfijng). VARIANZA NON NOTA!! TEST NON PARAMETRICI Nei test parametrici non ho più formule esplicite, le variabili non sono aleatorie e la distribuzione non è più gaussiana, allora calcolare la sima è più complicato perché i campioni non sono gaussiani e devo trovare un’alternaiva al T-test. Nel caso di due campioni indipendeni i più noi sono: 1. Test di Wilcoxon Mann-Whitney o test della somma dei ranghi 2. Test di U di Mann-Whitney, demo anche test dell’ordine robusto dei ranghi 3. Test S di Kendall (meno uilizzato), elabora diversamente l’indicatore di Mann-Whitney TEST DELLA SOMMA DEI RANGHI – WMW TEST Il test della somma dei ranghi viene uilizzato per due campioni indipendeni. Questa prima versione aveva il grave limite di poter essere applicato solo due campioni di dipendeni di dimensioni uguali. La sua applicazione è poi estesa anche al caso di due campioni con un numero differente di repliche, diventando il metodo di Wilcoxon Mann-Whitney. Il WMW test richiede che: • Le due popolazioni sono distribuite in modo coninuo • Abbiano la stessa forma rispemo alla simmetria • I dai siano misurai con una scala almeno ordinale Procedura: a. Inserisco le osservazioni in un unico vemore b. Assegno ad ogni osservazione il suo rango r, partendo dalla più piccola c. Ridivido i ranghi nei due campioni originali d. Sommo i ranghi di ogni campione Esempio: Con i dai della tabella, verificare se nel giorno fesivo la quanità di solveni aromaici è significaivamente minore di quella presente nel giorno feriale. a. Combino i dai in una serie unica con valori cresceni, conservando l’informazione relaiva al gruppo di appartenenza (mantengo l’origine del gruppo: A o B): b. Definisco le dimensioni: - Dimensione del gruppo minore n1 = 7 - Dimensione del gruppo maggiore n2 = 8 Amribuisco il rango ad ogni valore della serie unita dei due campioni: c. Calcolo la somma dei ranghi del gruppo con il numero di dai minore (in questo caso gruppo A): d. Quando l’ipotesi nulla H0 è vera allora il valore T tende ad una media amesa, che dipende dal numero di osservazioni (n1 e n2) dei due gruppi: e. Se l’ipotesi nulla è falsa allora è vera l’ipotesi alternaiva e il valore di T osservato tende ad essere maggiore o minore di quello ameso. Il valore di T può tendere a uno dei due estremi: valore minimo (somma degli n1 ranghi minori, cioè sommo prima il gruppo A e poi B) o valore massimo (somma degli n1 ranghi maggiori, cioè sommo prima il gruppo B e poi A) f. La significaività della differenza tra le medie dei due gruppi può essere valutata confrontando il valore T calcolato con il valore ameso. Nel caso di grandi campioni la staisica T segue una distribuzione approssimaivamente normale. La significaività può essere determinata mediante la distribuzione normale ridoma con media 0 e varianza 1. La significaività della differenza tra le due tendenze centrali può essere verificata amraverso il valore di Z: Il segno – indica che il valore osservato è inferiore a quello ameso. A tale valore di Z corrisponde un’area di probabilità P = 0, 0281 quindi di rifiuta H0. Nel caso in cui sia vera l’ipotesi H0 allora U tenderà a un valore medio che dipende dalle osservazioni preseni n1 e n2: e. Per valutare la significaività del valore di U si seguono metodi diversi in funzione delle dimensioni dei due campioni. Nel caso di grandi campioni se è vera l’ipotesi nulla H0 allora la distribuzione di campionamento di U è approssimabile a una distribuzione normale con media 0 e varianza 1. La significaività della differenza tra le mediane dei due gruppi indipendeni può essere simata mediante il valore Z: Nella distribuzione normale questo corrisponde a una probabilità di 0,0250. Si rifiuta l’ipotesi nulla e si accema l’ipotesi alternaiva. Nota: i valori di Z risulta sempre negaivo e non assume un significato preciso, in quanto è sempre inferiore alla media amesa. TEST S DI KENDALL È fondamentalmente una variazione del test U, essendo fondato sulla stessa metodologia e esistendo una strema corrispondenza tra i risultai risultai. Supponiamo quindi di avere due gruppi di osservazioni, l’ipotesi nulla da testare è che la distribuzione di x (n1 osservazioni) della variabile casuale X è esamamente la stessa di Y (n2 osservazioni). Nel test dei ranghi di Wilcoxon si presentano ancora una volta due staisiche equivaleni: • T1 è la somma dei ranghi delle xi • T2 è la somma dei ranghi delle yi Il test S di Kendall è fondato su una staisica che è definita in funzione delle due staisiche di Mann-Whitney: 𝑆 = 𝑈𝑥𝑦 − 𝑈𝑦𝑥 Le relazioni tra i test sono semplici e possono essere derivate dalle formule precedeni dato che tume si rifanno alle dimensioni di due campioni indipendeni. Queste dimostrano che i test basai sull’una o sull’altra staisica di ciascuna coppia sono equivaleni. I tre test (T, U, S) sono collegai dalle segueni formule: Risultano quindi esamamente equivaleni; la scelta tra quesi test dipende unicamente dalla familiarità con una certa forma di calcolo. CORRELAZIONE DI SPEARMAN La correlazione di Spearman o coefficiente di correlazione per ranghi di Spearman o indice di correlazione R per ranghi di Spearman, è un indice di correlazione non parametrico, indicato con la lemera rho. Questo coefficiente permeme di calcolare la potenza del rapporto tra due variabili quanitaive o qualitaive ordinali, è dunque una approssimazione del coefficiente di correlazione lineare (indice di correlazione di Pearson). Calcolare la correlazione di Spearman tra X e Y è abbastanza semplice: 1. Si ordinano i valori di X e Y 2. Si assegnano i ranghi, dando il numero 1 al valore più piccolo, tenendo conto anche dei valori uguali 3. Si calcolano le differenze tra i ranghi (d) per ogni coppia X e Y di partenza Nota: il range e l’interpretazione sono le stesse fame per Pearson. La ridge regression è biased. Introduco un biased (non sono più al centro dei bersaglio) per essere più preciso; scendo un po’ di accuratezza per avere più precisione. Con ridge la varianza è diminuita, ma ho un biased di sima che però accejamo. Quando introduciamo l’intercema alla regressione, generalmente lasciamo questo coefficiente non penalizzato (unpenalized). Quindi la regressione ridge con l’intercema risolve: Se centriamo le colonne di X, la sima dell’intercema risulta essere uguale alla media di Y, quindi si presuppone che Y, X siano centrai e non includiamo un intercema. Inoltre il termine di penalità rappresenta un problema perché ha un famore di scala. Quindi se nel modello ho dei vemori con unità di misura diverse ipicamente ridimensioniamo le colonne di X (per avere varianza campionaria 1, di famo sto normalizzando) e eseguiamo la ridge. Parametro di shrikage λ (coefficiente di regolarizzazione) • Controlla la dimensione dei coefficieni • Controlla la quanità di regolarizzazione • Se λ —> 0 omeniamo la soluzione dei minimi quadrai (minima regolarizzazione) • Se λ —> infinito mando tuj i coefficieni a 0 (massima regolarizzazione) Aumentando o diminuendo il parametro di regolarizzazione posso chiedere di avere più o meno parametri. Devo fissare il parametro λ; esistono diversi metodi: • Ridge traces • Discrepancy Principle (DP) • Generalized cross validaion (GCV) • Criterio della curva L • NCP metodo • Leave-one-out Cross Validaion (quando non ho abbastanza dai; usato nel machine learning) La cross validaPon è una tecnica staisica usata per valutare la bontà di performance di un modello e si basa sul concemo fondamentale di suddividere in dataset in due pari: 1. Training set: per fissare e simare i parametri 2. Valida1on set: per capire se i parametri sono buoni faccio una prova su un campione indipendente La cross validaionè una tecnica staisica usata nel machine learning per eliminare il problema dell’overfijng nei training-set; è anche dema k-fold validaPon Il fit del modello viene eseguito nel training set (Y1), i parametri fissai alle sime omenute e il modello riuilizzato non per la sima ma solo per il passo di predizione su Y2. La cross validaion è un metodo semplice intuiivo per simare la predizione dell’errore. Nel K-fold divido in più pari il dataset e la validazione viene fama su un gruppo ristremo, il resto viene usato per la sima. In paricolare il training set viene diviso in K pari di uguale dimensione, viene selezionata 1/K parte per uilizzarla come validaion set, mentre le restani K -1 su K coninuano a comporre il training dataset. In ogni esperimento lascio fuori dal dataset un somoinsieme diverso di dai per uilizzarlo come validaion set, per questo moivo la tecnica è anche conosciuta come leave-one-out. Per ogni valore del parametro theta, determinato dalla sima nel training set, troviamo l’errore totale del validaion set: L’errore medio su tuj i fold viene valutato come MSE (min square error) con una sommatoria: Determiniamo in questo modo la curva dell’errore per la cross validaion, in funzione del parametro theta. Scegliamo il valore di theta che minimizza questa curva: Nella cross validaion considero un solo soggemo ogni volta che cambio lambda, è un metodo ime-consuming uilizzato per i test di validazione. 2 - LASSO REGRESSION Va a colmare lo svantaggio della ridge e permeme ai coefficieni dei beta simai di essere esclusi dal modello quando sono pari a 0. I coefficieni della lasso sono la soluzione al problema di ojmizzazione L1: Anche in questo caso abbiamo il parametro λ che controlla la quanità di regolarizzazione. Uno ad uno i coefficieni corrispondono alla soglia t, demato dal vincolo: La sua formulazione è simile alla ridge, l’unica differenza sta nella strumura della penalità che invece di prendere il quadrato dei coefficieni, considera le grandezze stesse. La regolarizzazione L1 può portare a 0 i coefficieni, per esempio, alcune caramerisiche vengono completamente trascurate nel risultato finale. La regressione lasso non solo aiuta a ridurre l’overfijng, ma anche aiuta nella selezione. 1 - Metodo di parPzionamento (non gerarchico): K-MEANS Dato un data set di N misure (posso pensarlo come un gruppo di soggetti dove misuro N altezze, oppure ogni x come un vettore che rappresenta un certo numero di variabili del soggetto 1,2…N). Voglio dividere queste N misure in K cluster in numero minore dei dati a disposizione (K<N). Per ogni cluster K ho un suo “rappresentante”, detto centroide del cluster o seed: Per ogni dato, calcolo le distanze dai seed e assegno a x1 quello con la distanza più piccola (ricordo che all’interno di uno stesso gruppo devo minimizzare le distanze dal centroide): Il centroide rappresenta il finger printing dei vari soggetti. Esistono diversi metodi per calcolare le distanze. La più usata è la distanza euclidea. Al crescere di p aumentano le differenze (p rappresenta il pesaggio). A valori alti di p per distanze piccole non ho grandi scostamenti dal seed, appena supero una soglia la differenza diventa molto alta e il grafico sale. Buon compromesso per p=2 ho differenze più piccole rispetto al valore assoluto, mentre pesa di più le differenze oltre il valore della soglia. Una volta selezionata la distanza Euclide, dobbiamo decidere l’assegnazione attraverso la funzione obiettivo, che deve essere minimizzata: Dove Xn rappresenta i dati Dato il dato N-esimo voglio assegnarlo a un solo cluster k. Devo fissare il valore K (numero dei cluster) e il valore dei centroidi usando la media aritmetica di un certo numero di dati. Voglio trovare la funzione che minimizza la distanza tra il dato n-esimo e il cluster del gruppo k Una volta effettuata la divisione ricalcolo i seed e continuo iterativamente fino a quando le distanza dal centroide sono minime. Esempio: Limitazioni del K-means: divisione per densità Ad occhio mi viene da dividere i valori in rossi e blu in base alla densità. Il K-means lavora però minimizzando le distanze e porta il risultato a destra (non corretto). Come faccio a dire se il K-means è corretto? Faccio delle prove per verificare la sensibilità dei risultati. 1. Eseguo il cluster analysis negli stessi dati usando diverse misure per la distanza 2. Uso metodi differenti di clustering 3. Divido in dati casualmente in parti 4. Cancello delle variabili random 5. In cluster non gerarchici, la soluzione può dipendere dall’ordine dei casi nel dataset. Cerco di effettuare: cluster di coesione (all’interno di uno stesso gruppo) e di separazione (tra vari clusters). Mi aspetto delle distanze interne piccole e distanze con altri cluster più grandi. Per le misure interne uso il COEFFICIENTE DI SILHOUETTE, che tiene conto delle varie distanze tra i cluster e tra elementi di uno stesso cluster. 𝑠 = 𝑏 − 𝑎 max(𝑎, 𝑏) 𝑎 = 𝑑𝑖𝑠𝑡𝑎𝑛𝑧𝑎 𝑚𝑒𝑑𝑖𝑎 𝑑𝑒𝑙 𝑝𝑢𝑛𝑡𝑜 𝑖 − 𝑒𝑠𝑖𝑚𝑜 𝑛𝑒𝑙 𝑠𝑢𝑜 𝑐𝑙𝑢𝑠𝑡𝑒𝑟 𝑏 = 𝑚𝑖𝑛 𝑑𝑖𝑠𝑡𝑎𝑛𝑧𝑎 𝑑𝑒𝑙 𝑝𝑢𝑛𝑦𝑜 𝑖 − 𝑒𝑠𝑖𝑚𝑜 𝑐𝑜𝑛 𝑢𝑛 𝑎𝑙𝑡𝑟𝑜 𝑐𝑙𝑢𝑡𝑒𝑟 Generalmente s è compreso tra (0,1). Un valore vicino a 1 significa che le distanze interne sono nulle, mentre se il valore è negativo vuol dire che a > b e ho valori patologici. Possiamo anche calcolare la silhouette media: è la media di tutti gli s dei vari cluster e questo valore mi permette di determinare il numero di cluster K. Vado quindi a selezionare il K ottimo in corrispondenza della silhouette migliore. Dal punto di vista dell’efficienza, l’algoritmo K-means è un algoritmo semplice e veloce, flessibile tanto che i cluster sono aggiustati ad ogni step di iterazione. D’altra parte ha una funzione obiettivo, per questo ha i minimo locali, il numero dei cluster deve essere fissato a priori ed è sensibile agli outliers (valori molto distanti ai seed che sono calcolati con la media aritmetica). Esistono diversi modi per determinare il centroide dei vari cluster. Generalmente scelgo di fondere i dati tra loro in base alla distanza euclidea, mentre le dissimilarità tra cluster sono valutate con criteri di linkage: • Single linkage: la distanza tra due cluster è la distanza più piccola tra due oggetti nei cluster considerati • Complete linkage: la distanza tra due cluster è la distanza maggiore tra due oggetti nei cluster considerati • Average linkage: la distanza tra due cluster è la distanza media tra tutte le coppie di oggetti considerati nei cluster • Centroid linkage: la distanza tra due cluster è la distanza tra i loro centroidi È un algoritmo iterativo quindi gli step si ripetono sempre: creo cluster diversi e aggiornano le distanze fino alla fine dell’algoritmo. I metodi che usiamo hanno impatto sul cluster che viene fatto. Nel single linkage posso ottenere: • Permette di gestire anche cluster non sferici • Cluster soggetto a outlier e rumorosità. In presenza di rumore ci sono degli errori nella divisione del cluster. Nel complete linkage: • Meno suscettibile al rumore: la differenza dal punto di vista visivo è buona e ho una divisione ragionevole anche dal punto di vista statistico • Tende a separare i cluster grandi: con grandi differenze tra cluster fa più fatica ad effettuare la corretta divisione • Privilegia i cluster globulari Il centroid linkage è un compromesso tra i due precedenti, spesso viene usato come primo metodo di default. È meno suscettibile al rumore (+) ed è orientato a cluster sferici (-). Il metodo di Ward: questo metodo per calcolare la somiglianza tra due cluster è esattamente uguale a average linkage tranne per il fatto che Ward calcola la somma dei quadrati delle distanze. Per i dati biomedici funziona molto bene tanto che è diventato lo standard per l’analisi dei dati biomedici. Permette di valutare la distanza dai cluster ma anche quanto è coeso un cluster rispetto alla sua distanza con gli altri. La similarità tra due cluster è data dall’aumento di errore quadratico quando due cluster sono fusi tra loro. Per questo richiede di calcolare il centroide dei cluster per il calcolo di SSE (errore quadratico). È meno suscettibile al rumore (+) ed è orientato a cluster sferici (-). A metodi diversi corrispondono cluster diversi, quindi bisogna sempre valutare il risultato ottenuto in base ai dati iniziali. Nel momento in cui ho dei dubbi in Ward provo a usare un metodo completamente differente ossia il single linkage. DENDOGRAMMA: rappresentazione classica dei cluster. Il risultato è la rappresentazione del cluster gerarchico; a un certo punto devo tagliando l’albero ottengo il numero di cluster. Un criterio per poter tagliare l’albero è l’altezza. Le altezze sono le distanze tra i dati, man mano che aumentano ottengo il cluster centrale, infatti più bassa è la distanza, più simili sono i cluster. I salti sono importanti infatti deviano un po’ dal cluster tanto che quel dato lo mettiamo insieme perché non ho altre alternative quindi può rappresentare un outliers. Nel momento in cui decido il taglio devo verificare la silhouette per valutare la bontà del clustering. Cambiando il metodo di linkage, la forma dell’albero cambia anche se i dati restano gli stessi, possono quindi confrontare i risultati, ottenuti con diversi metodi, e vedere qual è l’albero più bilanciato. Solitamente è Ward, gli altri creano alberi spostati verso verso destra o verso sinistra. In generale per il taglio si utilizza almeno il 70% della distanza tra due gruppi, una volta tagliato l’albero ottengo i miei cluster. Per quanto riguarda la valutazione della silhouette, il dato migliore a valore vicino a 1, mentre se il dato è negativo risulta patologico. Una silhouette non bilanciata deriva da un taglio sbagliato oppure da un metodo di link che non va bene per i dati di partenza. In generale soprattutto nei dataset ricchi si avranno delle situazioni di silhouette negativa, ma non devono essere troppe. Sto sempre cercando una silhouette bilanciata verso la parte positiva vicino a 1. 4 - DBSCAN (Density Based Spatial Clustering of Application with Noise) È un metodo messo appunto per segmentare i dati basati sulla densità e non più sulla distanza. Per valutare la densità devo valutare la quantità di elementi all’interno di un determinato raggio; se il raggio è troppo grande o troppo piccolo faccio fatica a percepire la densità. Definiamo cluster denso quando all’interno del raggio ho un certo numero di punti/elementi. Devo quindi valutare: • Massimo raggio tra i vicini ε • Distanza tra i nostri dati: 𝒅𝒊𝒔𝒕(𝒑, 𝒒) ≤ ε • Definire quanto è denso, cioè quanti elementi ci sono in quel quel raggio: 𝑴𝒊𝒏𝑷𝒕𝒔 Ogni punto viene classificato in base all’assegnazione hard: • Core point: sono esattamente all’interno del cluster, rispecchiano quindi la minima distanza e non cadono nel bordo • Border point (punti di bordo): cadono esattamente sui bordi delle regioni, sono assegnati ma sono diversi da quelli che effettivamente compongono la densità • Noise point (di rumore): sono punti non assegnati a nessun cluster perché non presentano densità sufficiente a quella che ho assegnato Esempio: Un punto può essere: • Raggiungibile in densità (density reachable): P è raggiungibile in densità da Q se esistono ε, MinPts e un insieme di punti P1, P2, …, Pn tali che PQ=Q e Pn=P. Allora ogni punto della sequenza è raggiungibile dal precedente e ogni coppia di punti consecutivi soddisfa il criterio di densità definito attraverso ε e MinPts • Connesso in densità (density connected poits): un punto P è connesso in densità a Q quando esiste ε e MinPts tali che P e Q siano connessi in densità. Di fatto due punti sono connessi in densità quando esiste O (core point) da cui ogni punto è raggiungibile in densità, quindi se due punti sono entrambi raggiungibili in densità da un terzo punto (core point) allora sono connessi in densità tra loro. Il DBSCAN funziona bene in presenza di rumore e può maneggiare cluster con forme e dimensioni diverse ma sempre in base alla densità. Tumavia non funziona bene in queste strumure dove i cerchi variano intensità e vicinanza. Se considero distanze grandi si ojene la figura 1 mentre con distanze piccole omengo la figura 2 dove un gruppo viene completamente considerato come rumore. Quindi il DBSCAN non funziona bene in presenza di densità variabili e di dai ad alta dimensionalità. EurisPche per la determinazione di EPS e MinPts L’idea è che per i puni di un cluster, il loro k-esimo più vicino risulta più o meno alla stessa distanza. Di famo il k-esimo elemento risulta comunque vicino alla rappresentazione del cluster successivo. I puni di rumore invece hanno il k-esimo cluster più vicino a una distanza maggiore. VALIDITÀ DEL CLUSTERING Per verificare la validità del cluster abbiamo una varietà di misure, tra cui accuratezza, precisione e richiamo. Ad ogni analisi del cluster dobbiamo valutare la bontà dei cluster risultani. Infaj vogliamo valutarli per: • Evitare di trovare pamern di rumore • Comparare i clusterring di diversi algoritmi • Confrontare due set di cluster • Confrontare due cluster Quando effemuo una suddivisione dei dai ciascun dato viene associato ad uno e un solo cluster. Posso uilizzare la matrice di similarità dove vengono rappresentate l’inverso delle distanze per ogni elemento appartenente al cluster. Se ho effemuato una buona assegnazione o una figura come quella destra, dove sono mostrate distanze piccole per elemeni dello stesso cluster e distanze grandi tra i vari cluster. In altre situazioni il cluster dei dai non risultano niidi, come nel caso di DBSCAN e K-means. Di famo tramite la PCA trasformiamo un numero di variabili correlate in un numero (minore) di variabili scorrelate, chiamate componenP principali. Dato un vemore xn voglio omenere yn per sinteizzare i miei dai in uno scalare. Sto quindi cercando di rivacare il vemore u1 delle proiezioni. Supponiamo quindi di voler proiemare le variabili correlate su uno spazio monodimensionale, indichiamo con u1 il vemore che proiema ciascuna variabile del vemore xn in uno scalare yn. Per massimizzare la varianza è necessaria una proiezione ortogonale, o meglio ortonormale, che equivale alla condizione: Per minimizzare la funzione f(x) si ricorre all’uso dei moliplicatori di Lagrange. I moliplicatori di Lagrange, nei problemi di ojmizzazione, servono a trovare i massimi e i minimi di una funzione di più variabili. Nel nostro caso serve a massimizzare la funzione obiejvo: Derivando tumo rispemo u1 e ponendo =0 si ojene la stessa relazione che troviamo nella definizione di autovalori e autovemori: Per definizione u1 deve essere un autove^ore di S e rappresenta la soluzione ojma, quindi u1 è pari all’autovemore con l’autovalore massimo. La soluzione della funzione sono gli autovalori della matrice S: • Essendo S una matrice simmetrica gli autovalori associai sono reali • Il rango della matrice coincide con il numero di autovalori non nulli La relazione lineare che massimizza la relazione tra autovemori e valori iniziali diventa: La matrice delle nuove coordinate (U) dei vemori corrispondeni alle osservazioni, nel caso della PCA, prende il nome di scores = autove0ori I coefficieni delle combinazioni lineari sono dej loadings. Ogni loading fornisce una misura del contributo di ogni dato osservabile alle componeni principali. Allora da N variabili di partenza x1, x2…, xN amraverso la PCA omengo al massimo N variabili nuove U1, U2,…, UN (autovemori). Le nuove variabili hanno le segueni proprietà: • UN sono scorrelate (ortogonali), quindi quindi la matrice di covarianza di U è una matrice diagonale • U1 (prima componente principale) è l’autovemore relaivo all’autovalore massimo, quindi è la componente capace di rappresentare da sola il massimo della varianza dei dai dai • U2 (seconda componente principale) è l’autovemore relaivo al secondo autovalore e spiega parte della varianza residua • . . . Amraverso il data redac1on con gli autovalori perdo delle variabili vere. I loading danno una interpretazione agli autovemori in una specie di scala di importanza. L’autovalore ha informazioni legate alla varianza dell’autovemore, ossia la variabilità dei dai all’interno dell’autovemore. Esempio: 54 soggej x 68 variabili dove ogni variabile ha un’unità di misura diversa, quindi per rendere i dai equiparabili normalizzo tramite z-score. Sto assumendo che i dai siano abbastanza gaussiani commedia nulla e varianza unitaria. Con la PCA, a seconda della matrice, riduco i parametri o riduco i soggej. La matrice degli Score = autovemori è ordinata da un massimo a un minimo e questo è alla base base del data reducion. A destra la varianza tra i dai è molto bassa e quesi autovemori sono legai a autovalori bassi, quindi posso eliminare quesi dai perché hanno “poca importanza”, mentre nelle prime colonne è contenuta una percentuale maggiore di tuma l’informazione.
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved