Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Data Analysis - clemi a/b/c/d, Dispense di Analisi Dei Dati

La dispensa è scritta sulla base della frequenza completa dell’intero corso e mira a fornire le conoscenze sull'importanza dell'analisi dei dati e sulle principali tecniche utilizzate per questo scopo. Nell'ambito dell'analisi di dati, la dispensa analizzerà le diverse tipologie di dati e le tecniche di descrizione dei dati, oltre all'introduzione delle principali tematiche di calcolo della probabilità e statistica.

Tipologia: Dispense

2023/2024

In vendita dal 29/06/2024

luca-masse-1
luca-masse-1 🇮🇹

4

(2)

19 documenti

Anteprima parziale del testo

Scarica Data Analysis - clemi a/b/c/d e più Dispense in PDF di Analisi Dei Dati solo su Docsity! – – – Data Analysis Lezione 1 - Data Science Le grandi trasformazioni del 19 e 20 secolo hanno portato l’umanità da un era industriale ad un era di informazioni. Il passaggio dal 19 al 20 secolo cambia del sistema produttivo e della creazione di valore, nascono i primi computer, in contesti militari o di ricerca. Le macchine consentono di raccogliere informazioni e questa si traduce in un vantaggio competitivo. L’uso esteso della conoscenza e delle informazioni nelle attività economiche ha prodotto molteplici cambiamenti climatici e individuato nuovi percorsi per ottenere appunto un vantaggio competitivo. Durante il 20 secolo, vi è una diminuzione graduale dei costi di produzione dei computer, minore è il costo maggiore è stato l’impiego di tutte le imprese per aver maggiori dati da studiare per comprendere tutti gli stakeholder. In questa contento la conoscenza diventa un bene economico. Di conseguenza aumentano anche gli investimenti in questo settore con acquisti di server, computer, nuovi macchinari, formazione del personale ecc. nascono appunto nuovi modelli di business con imprese che gestiscono i scambiano dati. Nell’era dell’informazione abbiamo tre concetti fondamentali: Dato -> rappresenta un valore primitivo, un’entità Informazione -> rappresenta l’elaborazione del Dato Conoscenza -> rappresenta qualcosa che mette insieme più informazioni, ovvero qualcosa di più strutturato rispetto all’informazione stessa Dato, informazioni e conoscenza diventano termini alla base dell’economia. Al giorno d’oggi i Dati e la loro elaborazione sono il nuovo oro. Chi riesce a raccogliere, immagazzinare, gestire, monitorare, rielaborare i Dati ha il dominio di un’impresa, un mercato, un settore fino addirittura a nazioni. Al giorno d’oggi, ogni volta che accediamo ad internet, i siti web raccolgono dati sulle preferenze dei consumatori, basti pensare ai cookies, oppure agli algoritmi che stanno alla base dei social network. Per raccogliere enormi quantità di dati sono necessari strumenti più evoluti. Per dato si ingente una collezione di informazioni in formato organizzato (esempio Excel) o non organizzato (formato libero file testo, audio ecc) La differenza è che il dato organizzato può essere già utilizzato perché restituisce informazioni, sono specifici, di facile comprensione, con un formato predefinito, il dato non organizzato è grezzo e va analizzato per poter portarlo in forma organizzata ed avere l’interpretazione dello stesso, non hanno una immediata comprensione, vengono collezionati in diversi formati non standardizzati. È ovvio che non tutti i dati raccolti sono utili per questo motivo l’obiettivo finale della creazione di valore presuppone l’organizzazione, l’analisi è il confronto dei dati raccolti. Il processo per organizzare, analizzare e confrontare dati è un processo complesso che richiede specifiche competenze e skill. Def. Il data Science è la scienza che consiste nel trarre conoscenza dai dati Esempio se ho un numero che mi viene sottoposto da un impianto di domotica casalinga, questo 1. 2. 3. 4. 5. assume valore quando questo dato è organizzato, analizzato è confrontato, in questi casi il dato si trasforma in valore. Il data scienze segue un processo ben preciso che prevede 5 passi differenti: Porre la domanda di partenza Ottenere i dati Esplorare i dati Creazione di un modello di dati Comunicare e presentare i risultati Alcuni termini correlati alla Data Scienze, è l’insieme più grande di diverse tecniche e scienze. Il data science comprende Data Mining, Machine learning, modellazione dei dati e statistica tutte intrecciate tra loro. Nel dettaglio: Machine learning -> si intende la capacità della macchia di arrivare ad un obiettivo ben delineato, identificando in modo autonomo il processo con il quale arrivarci. Data mining -> processo di ricerca delle relazione esistente fra elementi dei dati (scavare tra i dati) Modello probabilistico -> Fe riferimento all’impiego del calcolo delle probabilità per trovare una relazione/correlazione fra elementi che includano un cesto grado di casualità Modello statistico -> fa riferimento al fato di sfruttare teoremi tratti dalla statistics per formalizzare le relazioni esistenti fra gli elementi dei dati in una formula matematica. Il diagramma di Venn mette insieme le capacità informatiche la conoscenza matematica e statistica e l’esperienza in quella che viene definita la scienza dei dati. Intrecciando queste competenze si entra in aree di competenze ben specifiche. Un modello matematico mettere in relazione vari dati esempio: modello CAPM relazione Rischio e Rendimento La programmazione è un mezzo con cui comunichiamo con la macchina e le chiediamo un determinato lavoro. La programmazione può avere più linguaggi, i più diffusi sono: Python, Julia e R. Python è il linguaggio più comune, in quanto semplice, può essere utilizzato in ambienti produttivi o accademici, ha una vasta comunità online, inoltre ha una serie di moduli pronti all’uso. Lezione 2 - Tipologia dei dati Un dato può essere definito come un insieme di fatti. L’informazione è un insieme di fatti messi in relazione tra di loro. La conoscenza è un insieme di informazioni tra loro correlate ed i domini dei problemi a cui esse si riferiscono. Ad esempio i dati possono essere esposti in una tabella Articoli venduti Tipo ariticolo Taglia Articoli invenduti 1 A 42 7 5 B 42 4 Facendo delle relazioni su questa tabella possiamo estrarre delle informazioni ad esempio, possiamo notare come l’articolo A ha venduto solo 1 unità e ha 7 unità invendute. Mentre l’articolo B ha venduto 5 unità e ne rimangono 4 invendute. 1. 2. – – – confusione come studenti fuori corso, fuorisede ecc (bias) campionamento diseguali -> questo campionamento mira ad evitare i problemi dei Bias riscontrati. Esempio cerco la felicità dei dipendenti di un’azienda in cui il 70% è composto da uomini, scegliendo casualmente potrei prendere più uomini. In questo caso posso optare per una scelta dei soggetti a cui sottoporre il test Abbiamo già visto nelle precedenti che per studiare i dati nei dataset è importante fare delle misurazioni dal centro, ovvero media, mediana (= al numero che si trova in mezzo al dataset disponendo gli elementi in ordine), la moda (= numero più frequente). Un’altra misurazione importante è quella di osservare quanto o miei dati siamo variabili, si misurano eventuali scostamenti attraverso la deviazione standard ovvero la misura della dispersione di osservazioni all’interno di un dataset. Altra misura importante è la varianza ovvero un valore numerico che descrive la variabilità delle osservazioni dalla sua media aritmetica. Inoltre possiamo utilizzare il coefficiente di variazione ovvero il rapporto tra la deviazione standard e la loro media questo permette di confrontare popolazioni che esistono su scale differenti. E ancora, la posizione relativa possiamo combinare le misurazioni dal centro e della variabilità per creare appunto misurazioni delle posizioni relative, ad esempio lo Z-score che è un modo per scoprire quanto è lontano dalla media un singolo valore dei dati, si può utilizzare per normalizzare i dat che si trovano su scale molto differenti. Esiste una regola empirica, quella che i dati si comportano in modo normale, ovvero che seguono una distribuzione normale non che assumono una rappresentazione grafica a forma di campana (curva Gaussiana). Un dataset, anche se non nasce in forma nomale, può essere ricondotto ad una distribuzione normale seguendo la procedura di distribuzione del campionamento. La distribuzione del campionamento di una statistica basata su osservazioni è la distribuzione di frequenza dei valor che la statistica assume. Tale distribuzione è generata teoricamente prendendo infiniti campioni di dimensioni n r calcolando i valori della statistica per ogni campione. Si può fare un esempio facendo riferimento al teorema del limite centrale, ovvero se la dimensione campionaria è sufficientemente grande la distribuzione campione di X è normale indipendentemente dalla forma della distribuzione della variabile nella popolazione. Molto spesso può essere necessario effettuare questo tipo di intervento per ricondurre il dataset in forma gaussiana in questi casi si possono effettuare la verifica delle ipotesi (T-test) affinché le osservazioni fatte su un dataset abbia un significato statistico. Il T-test è un test statistico usato per determinare se un campione di dati quantitativi (ovvero numerici€ differisce in modo significativo da un altro dataset (esempio da una popolazione o un altro campione) Lezione 6 - introduzione al machine learning ML Il machine learning è un insieme di metodi in grado di elaborare i dati a disposizione in modo da: scoprire modelli nascosti che parlino del processo che li ha generati Utilizzare modelli già scoperti, per prevedere dati futuri Prendere decisioni Il machine learning è una sotto area dell’intelligenza artificiale che prevede l’anali dei dati a partire dall’apprendimento a partire dal loro esame. Viene utilizzato in tutti gli ambiti in cui le applicazioni pratiche di programmazione che siano impraticabili. Il machine learning mira a catturare/trovare tutte le relazioni tra le caratteristiche in gioco. Questo meccanismi di ML sono in grado di apprendere dai dati stessi senza l’aiuto esplicito dell’essere 1. 1. 2. 2. 1. 2. 3. 1. 1. 2. 2. 1. 2. – umano a differenza degli algoritmi tradizionali. L’output migliore viene stabilito direttamente dal nuovo algoritmo ML. Un esempio classico di ML può essere quello di imparare a distinguere le immagini contente un volto da altre immagini senza volto. Esistono molteplici tipi di ML, in base al tipo di apprendimento abbiamo 3 categorie: Apprendimento supervisionato o predittivo -> trova associazioni esistenti fra le caratteristiche di un datasets e una variabile target. Questo richieste l’uso di dati etichettati, questo approccio richiede un training per l’algoritmo, quindi l’umano sottopone problema e soluzione, attraverso parametri forniti, affinché conseguentemente al training l’algoritmo possa riconoscere informazioni successivamente sottoposte. In linguaggio macchina abbiamo X (input, ovvero caratteristiche) e Y(etichette, soluzioni). I modelli di apprendimento con supervisione può essere a sua volta suddiviso in: Modello di regressione, tentano di prendere una risposta continua, ovvero la risposta può assumere una gamma infinita di valori Modello di classificazione, tenta di preveder una risposta categorica, ovvero un numero finito di scelte Apprendimento non supervisionato o descrittivo -> in questo modello non viene indicato qual è l’output finale in corrispondenza di alcuni attributi di ingresso. In tale situazione l’algoritmo dovrà scoprire strutture schemi nascosti nei dati, in modo tale da aumentare le informazioni in nostro possesso. Questo approccio non consente di effettuare delle predizioni. L’algoritmo non supervisionato può restituire: Cluster, ovvero la possibilità di raggruppare i dati di partenza in più catergorie Ridimensionamento Apprendimento per rinforzo, è una tecnica nella quale un agente apprende come comportarsi all’interno di un ambiente a lui sconosciuto, eseguendo azioni e osservandone il relativo esito, tipicamente espresso in termini di premio (ricompensa) o di una punizione. L’algoritmo viene inserito in un ambiente sconosciuto e impara attraverso feedback positivi e negati sugli output prodotti. Queste tecniche richiedono un lungo apprendimento. I pro: sostiene di ricompense molto raffinati consentono di creare sistemi AI davvero complessi Può apprendere da qualsiasi ambiente I contro: Necessario molto tempo di training per evitare decisioni errate L’agente potrebbe avere un comportamento troppo conservativo ed essere troppo timoroso nell’intraprendere nuove azioni Il ML può essere usato per il rilevamento delle anomalia, consentendo di segnale un comportamento anomalo in quanto esse mostrano che sta accadendo qualcosa di diverso dal previsto. Ecco gli esempi più comuni: crimini finanziari; sensori di apparecchiature mediche, frodi sanitarie, difetti di fabbricazione Lezione 7 - algoritmi di ML Gli algoritmi del Machine Learning sono moltissimi ed in continuo aggiornamento, molti di loro concatenati tra loro attraverso. Il primo di questi algoritmi sono detti Alberi di Decisione, sono modelli con supervisione in grado di svolgere una regressione o una classificazione. In questi algoritmi i dati di input vengono continuamente spittati in base a certi criteri. I nodi sono i luoghi in cui, i dati vengono splittati, – 1. 2. 3. 1. 2. 3. 4. Le foglie sono invece i risultati intermedi o finali. Tutto questo per ottenere il miglior risultato possibile deciso in base a predefinite metriche. Qui sotto un esempio basico di un albero. (gli alberi decisionali o i grafi sono utilizzati moltissimo nella teoria dei giochi) Un altro metodo è il random forest, alla base del quale ci sono 1 o più alberi decisionali, è un metodo versatile di machine learning, capace di affrontare sia compiti di classificazione che di regressione. Sono i metodi d’insieme più diffusi, aperte e ti alla specifica categoria dei metodi di Bagging, ovvero una procedura di carattere generale che ha lo scopo di ridurre la varianza di un metodo di machine learning mediante l’ aggregazione di campioni d’avvio (bootstrap aggregation). In questo metodo possiamo distinguere 3 fasi principali: Creazione di un set di dati con bootstrap per ogni albero Creare un albero decisionale utilizzando i dataset corrispondenti Ripetere per costruire più alberi, così si costituirà una varietà di dati e ciò rende la foresta casuale e pertanto migliore di un singolo albero Altro modello è quello chiamato clustering K-means, è un modello ML senza supervisione. È un algoritmo di analisi dei gruppi di partizione che permette di suddividere un insieme di oggetti in k gruppi sulla base dei loro attributi. Lo scopo dell’analisi è quello di migliorare l’interpretazione di un dataset, suddividendolo ed analizzando i dati contenuti nei singoli gruppi. Sì raggruppano i dati in base a criteri di similarità, calcolata sulla base di un centroide il quale rappresenta il centro in mezzo al cluster di dati (solitamente è la media di una colonna) Il K-means prevede 4 step: Scegliere il numero di K centroidi iniziali (k rimane una variabile di input) Per ogni punto, assegnare al centroide più vicino Ricalcolare la posizione del centroide Ripeter i passi 2 e 3 fino a raggiungere un criterio di arresto, ovvero quel criterio che aggiornato i dati in avrei variazioni significative. 1. 2. – – – – – – Dato un set di dati, la classificazione è quel problema che mira ad identificare a quale insieme di categorie o sottopopolazione appartiene una specifica osservazione. La classificazione può essere distinta in due categoria: Classificazione binaria, in questa categoria una specifica data istanza può essere classificata in due classi differenti (esempio invio di 2 mail una contenuti pubblicitari e l’altra con informazioni private, esempio informazioni della propria banca, il provider che gestisce le Mail classifica la prima mail come spam e la seconda la classifica nell’insieme “principale”) Classificazione multi classe, in questo caso non esistono solo 2 classi, ma gli elementi possono appartenere a N. classi (ad esempio le notizie oppure i libri, dischi musicali ecc) Il dataset iniziale viene data in pasto al modello affinché possa imparare dai nostri dati. Alcuni dati vengono dati in pasto al modello per il training circa l’80% L’altra parte il 20% viene sottoposta al testing. Lezione 9 - presentazione dei Dati Una volta che il dataset è stato studiato, analizzato attraverso modelli e algoritmi c’è una fase finale in cui bisogna comunicarli attraverso una presentazione. La comunicazione dei dati possono essere di tipo verbale o visuale. La presentazione dei dati ha l’obiettivo di comunicare rapidamente i dati al lettore evidenziandone tendenza, relazioni e molto altro ancora. I principali strumenti e grafici utilizzati sono: Grafici a dispersione, si utilizza quando si vuole evidenziare le relazioni esistenti fra due variabili e ove possibile rilevare una correlazione. Occorrono due assi quantitativi e usare i punti per rappresentare le osservazioni. Solitamente i punti vengono collocati più o meno li tari rispetto ad una linea trasversale (esempio modello CAPM) grafici a linee, viene utilizzato per connette i punti dei dati e normalmente sull’asse X posizioniamo il tempo e sull’asse delle Y una variabile quantitativa. Sono user per mostrare le variazioni nel corso del tempo (esempio grafico di Borsa) diagrammi a barre, viene utilizzato quando dobbiamo confrontare variabili di vari gruppi, solitamente sull’asse delle X avrò una variabile specifica e sull’asse delle Y una variabile quantitativa. (Esempio numero di persone per paesi europei, sull’asse X tutti i paesi europei, e sull’asse Y il numero delle persone) istogrammi, mostrano la distribuzione di frequenza di un’unica variabile quantitativa, raggruppando i dati per intervalli in lotti equidistanti e tracciando il conteggio delle osservazioni i in ogni gruppo. Difatti l’istogramma è un grafico a barre in cui sull’asse C posizioniamo un intervallo di valori e sull’asse Y il rispettivo conteggio. grafici box-plot, vengono usati per mostrare una distribuzione di valori – – – – – – Un grafico deve mostrare una correlazione ma non necessariamente una casualità. Dove la correlazione è una metrica quantitativa espressa attraverso un indice (-1 = correlazione perfettamente negativa, ovvero una sale e l’altra scende; 0 = assenza di correlazione; +1 correlazione perfettamente positiva, ovvero entrambe scendono o entrambe salgono), questo indica come due variabili si spostano una dall’altra. La casualità è l’idea che una variabile influenzi un’altra. La correlazione non implica la casualità, ma questa dev’essere verificata, per poter verificarla bisogna effettuare una serie di esperimenti, ad esempio posso suddividere la popolazione in gruppi campionati e svolgere una verifica delle ipotesi (eseguire un T-test) bisogna comunque assicurarsi che non vi siano fattori di confusione. Durante il test bisogna tener conto e fare attenzione ad un’eventuale terza variabile di collegamento, ovvero una variabile che lega le prime due analizzate. Durante la mediante una comunicazione verbale invece bisogna: definire lo stato del problema Definire la natura dei dati Specificare un’ipotesi iniziale Descrivere la soluzione e gli strumenti che hanno condotto alla soluzione Condividere l’impatto che la soluzione avrà sul problema Concludere spiegando quali saranno i passi futuri Infine bisogna spiegare il perché la domanda che ci siamo posti è importante, come ho affrontato l’argomento e cosa sono riuscito ad ottenere
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved