Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Definizione, domande e risposte esame di Business Analytics, Appunti di E-Business

Appunti riguardanti definizione, domande e risposte che potrebbero essere presenti nell'esame di Business Analytics del corso di laurea magistrale in Management e Strategia d'impresa. Studiando da questi appunti ho passato l'esame egregiamente con una votazione di 27/30.

Tipologia: Appunti

2023/2024

In vendita dal 03/02/2024

giulia-pedroni
giulia-pedroni 🇮🇹

4.8

(9)

15 documenti

1 / 37

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Definizione, domande e risposte esame di Business Analytics e più Appunti in PDF di E-Business solo su Docsity! DEFINIZIONI, DOMANDE E RISPOSTE - BUSINESS ANALYTICS DEFINIZIONI • Dati strutturati o I dati strutturati (in inglese structured data) sono dati che sono stati predefiniti e formattati in una struttura impostata prima di essere inseriti nell’archivio dati. o Il miglior esempio di dati strutturati è il database relazionale: i dati sono stati formattati in campi definiti con precisione, come numeri di carta di credito o indirizzo, per poter essere facilmente interrogati con SQL. o Solo il 20% dei dati sono strutturati o I dati strutturati possono essere gestiti da un utente medio o I dati strutturati vengono archiviati all’interno di un data warehouse o Servono per creare previsioni attraverso gli strumenti di machine learning supervisionato • Dati non strutturati o I dati non strutturati (in inglese unstructured data) sono dati archiviati nel loro formato nativo e non elaborati fino a quando non vengono utilizzati. o Sono l’80% dei dati o È disponibile in una miriade di formati di file, tra cui e-mail, post sui social media, presentazioni, chat, dati dei sensori IoT e immagini satellitari. o I dati non strutturati possono essere stoccati all’interno di un data lake o I dati non strutturati, per la loro comprensione e organizzazione, necessitano di risorse umane aventi competenze di data science o Servono per creare classificazioni attraverso gli strumenti di machine learning non supervisionato • UML o Il machine learning non supervisionato è un paradigma di apprendimento automatico in cui un algoritmo viene addestrato su un insieme di dati senza avere etichette/conoscere output o target associati (DATI NON STRUTTURATI). A differenza del machine learning supervisionato, in cui il modello è addestrato su un insieme di dati etichettati, nel machine learning non supervisionato l'algoritmo deve identificare pattern, relazioni o strutture nei dati senza la guida di output desiderati. o Si utilizzando per le classificazioni o Esempio ▪ Per capirne il funzionamento, riprendiamo l’esempio della frutta. Con l’apprendimento non supervisionato, forniremo al modello l’insieme dei dati di input (le immagini dei frutti e le loro caratteristiche), ma non l’output (i nomi dei frutti). ▪ Il modello utilizzerà un algoritmo idoneo per allenarsi autonomamente a dividere i frutti in diversi gruppi in base alle caratteristiche che li accomunano maggiormente. • SML o Il machine learning supervisionato è un paradigma di apprendimento automatico in cui un modello viene addestrato su un insieme di dati (DATI STRUTTURATI) che contiene coppie o Il modello POPIT viene usato per fare business analysis durante il cambiamento organizzativo (change management) per analizzare dove ci potrebbero essere dei problemi e/o delle potenzialità; durante la fase di implementazione (reengineering) per evidenziare le aree dove si dovrebbero apportare dei cambiamenti e supportare successivamente l’implementazione del cambiamento. È utile anche quando si implementano delle modifiche a delle aree di business per determinare dove ci sono impatti importanti che devono essere considerati nel caso in cui le modifiche dovessero essere permanenti. o l modello POPIT reinventato mostra l'elemento «People» al centro della scena, riflettendo lo spostamento dell'enfasi necessaria per eseguire con successo la distribuzione delle modifiche o Il modello chiamato POPIT perché è l’acronimo inglese di 5 parole: People, Organization, Process, Information e Technology. People comprende tutti i ruoli, le regole del lavoro, le skills, le competenze, la cultura aziendale e le attività manageriali. Organization comprende il business model, ambiente esterno ed interno, la capacità e memoria di business. Process invece, include tutti quei requisiti e standard di informazione. Infine, Information e Technology comprendono tutte le architetture tecniche e applicative come le applicazioni, software, hardware ecc; nonché i requisiti e standard di informazione come i report, flussi informativi. • Business Analytics o La Business Analytics è la pratica per abilitare il cambiamento di un’organizzazione attraverso la comprensione del contesto interno/esterno, l’attenzione delle esigenze e offrendo soluzioni che apportino valore agli stakeholders. Consiste nell’utilizzare degli strumenti/tecniche (ad esempio, machine learning, statistica, econometria, deep learning) in grado di trasformare i dati in informazioni aziendali significative a supporto delle decisioni. o Utilizzare la business analytics è utile per diverse ragioni. ▪ In primo luogo, permette di prendere le decisioni migliori perché analizza i dati presenti e passati all’interno dell’azienda. ▪ Poi, grazie al benchmarking delle perfomance, rende possibile una gestione più efficiente ed efficace dell’azienda ▪ nonché facilita l’individuazione dei trend di mercato permettendo di aumentare le vendite e i ricavi. ▪ Inoltre, la BA è utile nelle procedure di conformità, nelle assunzioni, nella produzione e nel controllo di qualità, quindi, è un sostegno completo per tutta l’organizzazione. ▪ Infine, all’interno dell’azienda è presente una molteplicità di dati e non si sa come utilizzarli, grazie alla BA questi dati diventano significativi per l’organizzazione. • Tipologie di BA o Gli analytics si dividono in diverse tipologie, in base al tipo di analisi che devono compiere. Gli analytics descrittivi, servono per fare un’analisi storica, di ciò che è successo nel passato e utilizzano principalmente strumenti di business intelligence. Gli analytics predittivi, servono per fare un’analisi statistica di ciò che potrebbe accadere in futuro e utilizzano principalmente metodi/tecniche statistiche, di regressione e di econometria. Gli analytics prescrittivi, utilizzati per ottimizzare i processi, per capire cosa dovremmo fare in futuro attraverso l’individuazione della via più efficace per raggiungere un determinato obiettivo ed utilizzano tecniche di machine learning. Infine, gli analytics autonomi, sono analytics che perfezionano i modelli e apprendono dai dati senza necessitare del supporto umano. Questi modelli prendono i dati, creano dei modelli, ricevono nuovi dati e perfezionano/modificano il modello per migliorarlo utilizzando tecniche di deep learning. • 4 caratteristiche successo imprese o Le aziende che hanno successo grazie all’utilizzo degli analytics hanno 4 caratteristiche. ▪ La prima è che gli analytics supportano la capacità strategica e distintiva, questi strumenti vengono utilizzati come supporto alle decisioni. ▪ La seconda caratteristica è che gli analytics sono adottati e gestiti all’interno di tutta l’azienda, non solo nel top management ma anche nel nucleo operativo. ▪ La terza caratteristica è che l’azienda fa degli investimenti consistenti sulla competizione basata sugli analytics. ▪ Infine, l’ultima caratteristica è che gli analytics sono sostenuti da tutti i dirigenti; uno dei problemi principali all’interno delle aziende, infatti, è un gap di competenze, ovvero i manager non sapendo di cosa si tratti sono resistenti al cambiamento. • Modello DELTA o Il modello DELTA fu creato da Davenport, Harris e Morison nel 2010. DELTA è l’acronimo inglese di Data, Enterprise, Leadrship, Targets e Analysists. Questo modello fornisce le linee guida ai dirigenti che intendono creare un piano d’azione per costruire le capacità analitiche aziendali. Le aziende con un orientamento più analitico possiedono fonti e tipi di DATI distintivi, queste aziende hanno bisogno di dati integrati, di condivisi solo a livello di ogni singola funzione. All'interno dell’organizzazione ci sono isole di dati e tecnologie, le informazioni sono localizzate. Gli analisti sono pochi e singoli, non vi è relazione; mentre gli obiettivi presenti sono sconnessi e non strategicamente rilevanti. • Ambizioni analitiche = si cominciano a centralizzare i dati e all’interno dell’organizzazione avvengono le prime fasi di cambiamento. I leader iniziano a comprendere l’importanza della competizione analitica e vi sono piccoli obiettivi da rincorrere con gli analytics. Gli analisti iniziano ad essere presenti ed a influenzare le aree target. • Aziende analitiche = corrispondono ad aziende non native tecnologiche né digitali ma che da tempo avevano iniziato a capire l’importanza degli analytics poiché vedevano che i dati erano strategici per la loro crescita aziendale. I dati sono condivisi in tutta l’organizzazione grazie all’utilizzo dei datawarehouse, un archivio centralizzato dove vengono raccolte tutte le informazioni provenienti da tutte le aree; qui i dati possono essere analizzati ma i documenti originali non possono essere modificati o eliminati. In questa fase, le aziende comprendono l’importanza dei dati e gli analisti sono al centro dell’organizzazione o in rete. La leadership supporta la competizione analitica e gli analytics vengono utilizzati per obiettivi strategici chiave. • Competitor analitici = corrispondono ad aziende native digitali o del comparto tecnologico. In queste aziende c’è un’implacabile ricerca continua di nuovi dati da analizzare, tutte le principali risorse analitiche, professionali e ben qualificate, sono gestite centralmente. La leadership è fortemente appassionata alla competizione analitica e gli analytics sono utilizzati a supporto della strategia e delle decisioni. ▪ Le aziende migliori dal punto di vista della competizione analitica sono: Netflix, che usa gli analytics per prevedere le preferenze di visualizzazione dei clienti. Caesars, un gruppo di casinò, che utilizza gli analytics per aumentare la fedeltà del cliente ed ottimizzare il servizio. Marriott, una catena di hotel, che utilizza gli analytics per aumentare la redditività, attraverso l’analisi del territorio per flussi, per individuare i punti strategici delle città dove posizionare i propri hotel. Walmart, un negozio in cui il portfolio prodotti è ampio, che utilizza gli analytics per ottimizzare la supply chain per abbassare i prezzi di vendita. • I 4 pilastri della competizione analitica o Le capacità distintive: l’impresa deve avere delle capacità che la differenziano rispetto ai competitor. o Le capacità analitiche a livello aziendale: gli analitici, le analisi e i modelli devono essere condivisi e distribuiti in tutta l’organizzazione. (analisi fatte in tutti i livelli) ▪ Cultura del dato non solo a livello operativo ma anche nel middle management (come raggiungere obiettivi o controllo di gestione) e nel management strategico (strategie -> budget, piano di marketing, acquisti, innovazione, …) o L'impegno gestionale: bisogna sviluppare un linguaggio comune e delle regole comunemente accettate per incrementare la conoscenza all’interno dell’ambiente organizzativo (organizational behaviour). o Infine, ambizioni di larga scala: non bisogna avere ambizioni, obiettivi locali ma sviluppare una strategia ampia (es. Non solo nord Italia ma tutta Europa) • Step da seguire per un approccio analitico o 1. Aggiornamento competenze personale ▪ Competenze -> persone che sanno fare determinate attività (nella pratica) o 2. Cambiamento dei comportamenti (processo decisionale) ▪ Processo decisionale è sempre in evoluzione e cambiamento poiché cambiano i processi, cambiano le competenze delle persone, la valutazione delle persone, … o 3. Cambio di cultura aziendale ▪ Cambio della valutazione delle persone come dei bonus o stipendi più alti e ecc… o 4. Reingegnerizzazione dei processi ▪ Cambiare i processi -> nuovi indicatori e quindi cambiare i dati in termini di qualità e quantità o 5. Multidisciplinarietà ▪ Lavorare in gruppo con vari professionisti di ogni parte del processo ▪ Più il processo si complica e più professionisti servono • Business Intelligence - Step by step o La Business Intelligence “step by step” segue delle regole inderogabili: la soluzione tecnologica non è mai la scelta principale, la tecnologia è un mezzo e non il fine ultimo e se si hanno dei problemi, la tecnologia non li farà sparire. o Quindi, (1) bisogna analizzare l’infrastruttura informatica già presente in azienda ed individuare la soluzione più integrabile. perché altrimenti si creano problemi di distorsione del modello. ▪ Precisione modello -> R2 • Valore minimo 0, valore massimo 1 (trovate le variabili che descrivono al 100% il problema) • R2 -> 95%, 99% nelle imprese farmaceutiche • R2 -> 75% in su di norma altrimenti il modello non è staticamente significativo • Più è alto R2 e meno errore c’è ▪ Si usa la regressione quando si ricerca la relazione causa- effetto ▪ Utilizzata per fare delle previsioni (90% dei casi) ▪ Problema overfitting e underfitting • Overfitting o si verifica quando i dati di addestramento sono talmente accurati che il modello tende ad adattarsi alle sue caratteristiche, senza individuare quei pattern che dovrebbero consentirgli di apprendere progressivamente dai nuovi set forniti • Underfitting o si verifica quando il modello di apprendimento automatico è troppo semplice rispetto alla natura del problema, ed avrebbe probabilmente bisogno di più tempo per essere addestrato, oltre a disporre di un set di dati di maggior qualità e varietà nell’input. ▪ Regressione lineare (che si divide in SEMPLICE e MULTIPLA) • È un modello di regressione statistica che utilizza solo una variabile indipendente X e una variabile dipendente Y. Il grafico è rappresentato da una retta ed è la regressione utilizzata di più all’interno dei sistemi di support vector machine. (esempio: predire il salario di un imprenditore basato sull’esperienza annuale di egli) • La regressione lineare è una tecnica di machine learning utilizzata per modellare la relazione tra una variabile dipendente (o target) e una o più variabili indipendenti (o features) mediante una funzione lineare. L'obiettivo della regressione lineare è trovare la migliore linea di adattamento (detta linea di regressione) che approssima la relazione tra le variabili in modo da poter fare previsioni su nuovi dati. • La forma generale di un modello di regressione lineare per una singola variabile indipendente è data dall'equazione -> y=mx+b • Calcolo dello scarto quadratico medio tra gli errori positivi e negativi (delta tra quadrato degli errori positivi con quadrato degli errori negativi) -> trovare la linea retta che minimizza gli errori ▪ Regressione multipla • Segue le stesse regole di quella lineare (ed è anche rappresentata dallo stesso grafico) ma in questo caso non vi è solo una variabile indipendente ma ci possono essere più variabili indipendenti (esempio: vedere l’effetto del prezzo e della promozione rispetto al numero di barrette potenzialmente vendute). • Tantissime tipologie di variabili o Numeri interi, reali, positivi, negativi, poi categorie, variabile dicotomica (vero/falso, 0/1) sia nella LINEARE sia nella MULTIPLA ▪ Regressione logistica • Molto utilizzata nella logistica appunto, ma anche nella produzione, nella fase di manutenzione, nel controllo di qualità ma anche nel marketing. È dicotomica, ovvero la variabile dipendente Y può assumere solo due valori: 1/0, vero/falso, si/no. Ha una bivalenza, ovvero viene utilizzata sia per fare previsioni sia per fare la clusterizzazione dividendo importanti e quali no. Viene utilizzato anche per il riconoscimento delle immagini e del testo, ma anche per il riconoscimento facciale; avendo una suddivisione in solo 2 cluster, ad esempio, è facile capire se quello che sta passando è uguale alla foto del criminale oppure no. ▪ Si applica SOLO con variabili binarie ▪ Punto debole -> solo due classificazioni • Situazioni in cui i dati sono borderline (caratteristiche simili tra i due campioni) la validità del modello risulta essere bassa o Molti di quei dati starebbero sulla linea del confine o Es. suddividere cani e lupi ▪ 80% utilizzato per classificazioni, 20% per previsioni • K-Nearest Neighbor o È un metodo supervisionato perché bisogna avere piena conoscenza delle etichette dei dati ed è utilizzato per fare clusterizzazioni (per il 99%) ma anche previsioni. A differenza del support vector machine, con questo metodo è possibile suddividere i dati in K cluster e non solo in due cluster. Questo strumento va ad identificare gli elementi simili e clusterizzarli; il problema è che magari un elemento è simile ad altri appartenenti ad un certo cluster, ma allo stesso è distante dagli stessi, magari perché alcune caratteristiche non sono così accentuate. Nel caso in cui un elemento invece, si trovi in mezzo a due cluster, per stabilire in quale cluster si deve indentificare si utilizza (ad esempio) la formula della distanza del Teorema di Euclide e lo si mette nel cluster più vicino. I cluster son ben fatti quando le loro medie sono simili e non si sovrappongono graficamente. L’accuratezza del modello è garantita per alti livelli di cluster, da 3 a 20 ma, si preferisce adottarne il meno possibile (k < 10) per non rallentare ulteriormente il sistema; questo algoritmo, infatti, è detto anche “lazy learner algorithm” perché nonostante sia accurato e puntuale, è un metodo molto lento perché deve confrontare molti dati. (esempi: suggerire film consigliati su Netflix, settori bancari e assicurativi, vedere l’impatto che hanno alcuni farmaci sul corpo umano) ▪ Per classificare utilizza degli algoritmi di distanza ▪ K -> indica con quanti elementi per ciascun gruppo andare a controllare il nuovo elemento • Non è il numero di cluster/classificazioni che andiamo a trovare • Esempio o Cluster A ▪ Elementi o Cluster B ▪ Elementi o Cluster C ▪ Elementi o K = 3 (K < di 10 altrimenti è davvero troppo lento) ▪ Non significa che noi otteniamo 3 cluster ma significa che un nuovo dato/elemento viene confrontata la “distanza” (i più vicini/simili) con altri TRE dati/elementi per ogni cluster per capire in che categoria inserire il nuovo dato (o se serve crearne un’altra di categoria poiché il dato non c’entra niente con le tre categorie presenti) o Il classificatore Naive Bayes è apprezzato per la sua semplicità, efficienza con set di dati di grandi dimensioni e precisione, soprattutto nella classificazione del testo e nel filtraggio dello spam. È versatile, gestisce sia dati continui che discreti ed è efficiente dal punto di vista computazionale, ideale per applicazioni in tempo reale. o Utilizzato sia per le classificazioni sia per le previsioni. o E’ spesso usato anche nell’ambito del Text Classification, soprattutto nella Spam Detection e nel Sentiment Analysis. o Pregi ▪ Algoritmo molto semplice e veloce. Funziona bene sia sulla classificazione binaria sia su quella multiclasse. ▪ Tende a non considerare gli attributi irrilevanti. ▪ Se l’ipotesi di indipendenza è confermata, quindi se effettivamente i predittori sono tra loro indipendenti, il Naive Bayes ha ottime performance. o Difetti ▪ il grande difetto è che il modello presuppone che tutte le variabili siano indipendenti l'una dall'altra e che non vi sia alcuna correlazione tra le variabili stesse. Nella realtà le variabili sono spesso connesse e questo è il motivo per cui algoritmo è chiamato "naive” (ingenuo) • Adaptive Boost o È un metodo supervisionato perché bisogna avere piena conoscenza delle etichette dei dati da utilizzare. È un sistema molto preciso e veloce perché è l’insieme di due modelli: il modello Adaptive e il modello Boost. Molte volte si utilizza per classificare due cluster (solitamente utilizzato appunto per variabili binarie). È un metodo che può essere utilizzato sia per problemi di classificazione che di regressione. Attraverso l’utilizzo di più alberi decisionali cerca di capire come può dividere in modo accurato i diversi dati e, dopo una serie di iterazioni (minimo 25 step di solito per trovare la soluzione migliore), i dati vengono divisi in due cluster linearmente oppure non linearmente. ▪ Adaptive (Adattativo): • AdaBoost è adattativo nel senso che assegna dei pesi diversi ai dati durante il processo di apprendimento. In ogni iterazione (o round) dell'addestramento, assegna pesi più alti ai dati che sono stati classificati erroneamente nelle iterazioni precedenti. ▪ Boosting: • Il boosting è una tecnica di ensemble learning in cui vengono combinati diversi modelli deboli (weak learners) per creare un modello forte. • Alberi decisionali o Si tratta di uno strumento di machine learning supervisionato perché bisogna avere piena conoscenza delle etichette dei dati. Questo metodo è uno schema estetico, grafico che parte quindi dalla definizione delle radici dell’albero (detta madre), nodi (nodi con figli) fino ad arrivare alle foglie (dette figli, nodi senza figli); per questo motivo non viene quasi mai utilizzato da solo, generalmente viene utilizzato dopo aver già fatto delle classificazioni (ad esempio con le regressioni). o Esistono due tipologie di albero: binario, se è a due dimensioni, quindi, ogni nodo ha solo due figli; oppure non binario, se è a più dimensioni, quindi, ogni nodo può avere diversi figli. Ovviamente, prendere decisioni con alberi non binari diventa più complesso. o Splitting (Divisione): ▪ Durante la costruzione di un albero decisionale, il processo di splitting è il metodo attraverso il quale si decide come dividere i dati in sottoinsiemi più piccoli. L'obiettivo è massimizzare la purezza dei sottoinsiemi risultanti. o Pruning (Potatura): ▪ Dopo la costruzione di un albero decisionale, il processo di pruning riguarda la rimozione di alcune parti dell'albero per migliorarne le prestazioni e prevenire l'overfitting. L'overfitting si verifica quando l'albero è troppo complesso e si adatta eccessivamente ai dati di addestramento, ma non generalizza bene su nuovi dati. o Il Random Forest è un algoritmo di tipo supervisionato che può essere usato sia per task di classificazione sia di regressione. o Combina l'output di più strutture ad albero decisionali per raggiungere un unico risultato. o La caratteristica di questo algoritmo è che gli alberi sono indipendenti, non si condizionano a vicenda. Questo permette di evitare alcuni degli errori più comuni degli alberi. o Altra importante peculiarità è quella di scegliere ogni volta un campione casuale di variabili da utilizzare per il train interno, il che rende ancora più indipendenti (e differenti) i vari alberi, permettendo ad ognuno una diversa specializzazione. o Il Bagging inoltre fa riferimento alla tecnica boostrap, o in italiano campionamento casuale con rimpiazzo. Questa tecnica implica che alcuni dati possono comparire contemporaneamente in più modelli mentre altri potrebbero non comparire mai o Vantaggi ▪ Modello estremamente performante ▪ Poca probabilità di incorrere in overfitting ▪ Utile sia per classificazione sia per regressione ▪ Non è sensibile ai missing data (diversamente dagli alberi) o Difficoltà ▪ Tempo di esecuzione (solo se rapportato al Decision Tree, stiamo parlando comunque di una manciata di secondi) ▪ Richiede più risorse: poiché gli algoritmi Random Forest elaborano grandi set di dati, richiedono più risorse per l'archiviazione di tali dati. ▪ Più complesso: la previsione di una singola struttura ad albero decisionale è più facile da interpretare rispetto a una loro foresta. • Basket Analysis o analisi delle associazioni o La basket analysis è detta analisi delle associazioni perché viene utilizzata per andare a capire come vengono acquistati tra di loro i diversi prodotti/servizi attraverso il calcolo della frequenza di acquisto di ciascun prodotto e poi, con che frequenza questo prodotto viene acquistato assieme ad altri prodotti. Questo modello cerca di capire quali sono le regole associative dei prodotti e si calcola quella che potrebbe essere una tendenza (SUPPORT) e così, si crea una frequenza per ogni singolo prodotto; poi, vado a guardare la frequenza di due prodotti insieme. Successivamente, si calcola l’intervallo di confidenza (CONFIDENCE), ovvero quanto spesso gli elementi Y appaiono in X. infine, si calcola il LIFT e si guarda se questo valore è maggiore di 1 o minore di 1. Nel primo caso significa che la regola è statisticamente significativa mentre, nel secondo caso, significa che l’associazione non è statisticamente significativa ma è una casualità. La Basket Analysis viene utilizzata soprattutto nel marketing (esempio: Netflix ti consiglia sulla base di un film già visto quale altro potrebbe piacerti o Amazon che ti suggerisce dei prodotti da acquistare insieme ad un prodotto che stai acquistando) e nelle vendite, soprattutto nella GDO per aumentarle. • Association Rules o Riprende calcoli insiemistici o X (antecedente), Y (conseguente) ▪ Si parte SEMPRE dall’antecedente ad eseguire l’analisi o Calcolare tre valori ▪ Support del bene singolo X • Frequenza acquisto bene X rispetto al numero totale di beni venduti o scontrini • PROBABILITA’ ▪ Support del bene singolo di X associata a Y • Frequenza di acquisto di X E Y rispetto al numero totale di beni venduti o scontrini • PROBABILITA’ ▪ Intervallo di confidenza DI X -> Y • Support di X -> Y rispetto al support di X • PROBABILITA’ • Es. percentuale di latte e biscotti comprati contemporaneamente rispetto a chi ha comprato solo il latte ▪ Lift • Support di X -> Y (persone che hanno acquistato in contemporanea i due prodotti) rispetto al support di X (chi ha acquistato solo il prodotto X) * support di Y (chi ha acquistato solo il prodotto Y) • Espone quando è solida quell’associazione tra i due prodotti • Specie di R2 o Quanto è forte o debole il legame tra i due prodotti o Ottimizzazione combinatoria ▪ Consente di comprendere quale sia la migliore allocazione per ottenere determinati obiettivi ▪ Es. gestione del portafoglio nelle banche per ridurre il rischio e ottimizzare il fatturato o Analisi dei vincoli ▪ Utilizza delle metodologie e algoritmi per analizzare il set di soluzioni praticabili ▪ Analizzare per ciascun punto vendita i prodotti da esporre • Es. Ikea di Padova ci sono prodotti diversi rispetto all’Ikea di Milano o Design/disegno sperimentale ▪ (per esempio, per l’analisi dei siti web). Si cerca di capire quale delle diverse alternative consente di vendere di più o Analisi del valore futuro ▪ Utilizzata per capire quali potrebbero essere i flussi futuri per calcolare un valore o Algoritmi genetici ▪ Utilizzati per lo sviluppo del prodotto (da idea a prototipo) ▪ Utilizzati dagli ingegneri o Metodo Monte Carlo ▪ Tecnica utilizzata soprattutto in finanza ▪ Modelli matematici utilizzati per calcolare il rischio di uno o più pacchetti finanziari o Analisi di regressione multipla ▪ (per esempio, stabilire in che modo i fattori non economici influenzino la performance economica). Tecnica statistica che permette di determinare l’influenza di un insieme di variabili indipendenti su una singola variabile dipendente. o Analisi mediante reti neurali ▪ Sistemi modellati sulla struttura e sul funzionamento del cervello o Simulazione ▪ (per esempio, nella ricerca farmaceutica “in silico”, simulazioni non in provetta). Manipolazione dei parametri utilizzando metodi matematici o basi di regole per ottenere modelli di come risultati diversi possano generare un risultato. o Analisi del testo ▪ (per esempio, per valutare la performance dei call center o ottenere dati da Twitter relativi all’opinione dei clienti). Analisi della frequenza, delle relazioni semantiche e dell’importanza relativa di determinati termini, frasi e documenti nei testi online. o Analisi del rendimento ▪ L’impiego di parametri statistici di base per comprendere il volume e la qualità della produzione e per mettere a confronto un insieme di elementi con un altro • Quali sono gli strumenti di machine learning che useresti per fare una classificazione o Svm, regressione logistica o Knn o Alberi e random forest o Adaboost • Per cosa si usa la BI o Reporting ▪ Analisi del passato o Predictive analysis ▪ Analisi del futuro o Analisi organizzative e di mercato ▪ Target analysis ▪ CRM ▪ Market basket analysis ▪ Cross selling ▪ Market segmentation ▪ Controllo di gestione ▪ People analytics o Risk analysis e gestionale ▪ Customer retention ▪ Quality control ▪ Competitive analysis ▪ Analisi frodi o Altre analisi ▪ Web/social analytics ▪ Text mining
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved