Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Trascrizione video pillole + corso di Analisi dei dati prof. Cavicchioli, Sbobinature di Analisi Dei Dati

Variabili statisticheStatistica inferenzialeAnalisi datiRegressione logistica

Trascrizione video pillole + corso di Analisi dei dati prof. Cavicchioli

Tipologia: Sbobinature

2019/2020

In vendita dal 14/04/2022

Lorenzo.42
Lorenzo.42 🇮🇹

4.5

(28)

18 documenti

1 / 33

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica Trascrizione video pillole + corso di Analisi dei dati prof. Cavicchioli e più Sbobinature in PDF di Analisi Dei Dati solo su Docsity! 2.1 HR Information Systems Quale tipo di dati abbiamo a disposizione all’interno dell’organizzazione? Alcuni esempi… Guardando alla soddisfazione dei clienti dai risultati del survey, se guardiamo solo questo dato possiamo sapere come si interfacciano i consumatori con lo staff, cosa sentono i consumatori… Ma sarà difficile determinare delle azioni che debbano essere prese se questi risultati sono poveri. Dobbiamo interfacciare i dati della soddisfazione dei clienti con altri, tipo quelli del L&D team (Learning and development), dove possiamo andare a trovare i dati relativi ai corsi che il personale ha seguito; corsi riguardo la gestione delle relazioni con i clienti; oppure dobbiamo interfacciare i dati sulla soddisfazione dei clienti con le informazioni sul profilo del cliente che abbiamo intervistato, e allora potremmo allora trovare che il cliente è stato scontento del rapporto con il nostro staff perché in quella determinata filiale si è percepito un incosciente pregiudizio sulla diversità perché è un cliente che dimostra alcuni elementi di “diversità”. Quindi si potrebbe suggerire un corso allo staff per consapevolizzarli sul pregiudizio inconsapevole che hanno mostrato. Quindi questo esempio è per dire che una fonte di dati singola, di per sé non produce azioni da essere intraprese che possono essere soddisfacenti. Quando invece i dati vengono incrociati con altri tipo di dati, provenienti da altre sorgenti, allora abbiamo un quadro più completo e siamo potenzialmente in grado di fornire indirizzi, implicazioni, per l’organizzazione e il business che siano strategicamente migliori. Tutto ciò per dire che non è sufficiente solo guardare i dati che vengono tipicamente amministrati dal dipartimento HR, ma sarà anche utile e importante andare ad analizzare dati proveniente da survey sulla customer satisfaction, o dati di tipo operational, per ottenere implicazioni che abbiano un risvolto soddisfacente all’interno dell’organizzazione. Mettere in relazione i dati con altri dati significa applicare in maniera corretta le tecniche di statistica inferenziale per capire bene cosa sta succedendo in organizzazione: servono buoni dati per investigare con tecniche statistiche le informazioni che sottostanno ai dati. Fonti di informazione HR database (come SAP o Oracle) -> informazioni che descrivono gli impiegati, incluso dettagli personali, sulle performance ecc. Ad esempio: età, sesso, educazione, ruolo, salario… Dati provenienti da delle survey sul dipendente e i suoi comportamenti (da survey programmes e esportati su Excel ad esempio) -> Questi survey possono essere proposti dall’organizzazione stessa o da un provider esterno. Tipicamente sono dati relativi al coinvolgimento dei dipendenti; l’informazione viene raccolta proponendo delle domande, che poi vengono collezionati all’interno di un programma di amministrazione di dati. Alcuni esempi: formulando domande dettagliate si possono poi costruire variabili relativi al livello di stress che un lavoratore percepisce sul lavoro, o il grado di coinvolgimento del dipendente, o il suo grado di soddisfazione… Ci sono poi i survey non solo per i dipendenti ma quelli proposti ai clienti, per misurare il livello di soddisfazione attraverso particolari questionari (solitamente catalogati con alcuni programmi ed esportati su Excel) -> solitamente questi questionari vengono proposti dalle funzioni marketing o vendite, e le informazioni che si ottengono sono importanti, soprattutto quando le preferenze dei clienti vengono interfacciate con il profilo dei dipendenti e con i dati operativi. Questo link tra le diverse fonti di dati può aiutare l’organizzazione ad identificare come modifiche agli skills dei dipendenti può avere un impatto sull’esperienza del cliente. Quindi, proponendo questi survey, che tipo di variabili possiamo ottenere? Ad esempio il raiting della valutazione dei clienti su specifici servizi (specifiche filiali); la fedeltà e le preferenze del cliente. Dati relativi alle performance delle vendite -> sono dati solitamente posseduti dalla sezione vendite ed è una registrazione dettagliata di tutte le vendite e di tutti i ricavi. Questa informazione è importante per determinare il successo dell’organizzazione, ma anche per identificare se i gruppi preposti alla vendita sono in grado di raggiungere gli obiettivi. Quando poi questi dati sono linkati e vengono ad essere interfacciati con dati relativi ai clienti o operational, possono essere utili per determinare le condizioni sotto cui il personale di vendita ha più probabilità di successo. Esempi di variabili che derivano da questi sorgenti informative: le vendite mensili medie, il numero di nuovi clienti che vengono ad interfacciarsi con la nostra organizzazione, il raggiungimento degli obiettivi… Dati di tipo operational (relativi alla performance operativa) -> sono dati che misurano quanto è di successo lo svolgimento del business: solitamente si parla di efficienza. Alcuni esempi: se pensiamo ad un supermercato, è il numero di scansioni che il dipendente fa al minuto. Se pensiamo al call center: le chiamate di quel particolare cliente… 2.2 Software I software che vengono utilizzati per l’analisi dei dati, in particolare per analizzare dati aziendali o dati di tipo organizzativo, sono tanti: - SPSS -> quello che useremo in questo corso - Minitab - Stata - SAS - R - JASP - Jamovi - Phython Software SPSS: come si presenta? Ci sono due particolare finestre. La prima è quella che viene definita data view, dove abbiamo i dati in senso stretto e i valori delle unità statistiche. Ogni riga sarà l’unità statistica di riferimento, con i dati di tipo HR avremo ad esempio l’employee o il team; ogni colonna è una variabile, cioè la misura che osserviamo; ogni cella è il valore di quella particolare unità statistica. La seconda finestra è la variable view: lì dentro c’è la descrizione per ogni singolo variabile. C’è il nome, il tipo di variabile, la scala, un’etichetta. Sarà molto importante specificare la variable type (numerica, una data, una stringa di tipo verbale, una valuta…) e anche la scala (ordinale, nominale, scala metrica…). di persone che hanno lasciato l’organizzazione in un determinato periodo / il numero medio di persone che appartengono all’organizzazione durante lo stesso periodo. - Turnover cost: è chiaro che queste vengono definite da organizzazione a organizzazione. Anche qui esempi possono essere il costo per assumere o un costo di una più bassa produttività del nuovo arrivato. - Revenue metrics: metriche per i ricavi. Una classica metrica sono i ricavi/l’income nel tempo. Questo tempo può essere in un’ora, in un giorno, in una settimana e venga relazionata con una certa unità statistica. Quindi può essere una media per employee o per team o un employee singolo. - Performance metrics: metriche che misurano la performance. Solitamente queste metriche vengono associate agli individui e poi successivamente possono essere aggregate ad altri livelli (gruppo, team). Esempi di queste metriche: raiting per la valutazione della performance, competency raiting, feedback degli altri dipendenti, misure specifiche riguardo le vendite o al contesto di lavoro (scanning raiting in un supermercato, customer feedback, call speeding in un call center…). Altre metriche della performance: indice di coinvolgimento, feedback dei clienti riguardo un team o un determinato store, il turnover dello staff, la fedeltà dei clienti. - Productivity oriented metrics: metriche orientate alla produttività. Per calcolare queste metriche abbiamo necessità di avere degli output misurabili e indici di output misurabili per dipendente. Misura di output in una certa unità di tempo (ora, giorno…) associata ad una particolare unità statistica (un dipendente o una media per dipendente o una media per team). - Diversity metrics: metriche che misurano la diversità. Che vogliono fare lo storage dei dati paragonando diversi gruppi con diverse caratteristiche demografiche. Esempi: percentuali di donne in un team, donne in posizioni rilevanti, gender gap, minoranze etniche in un gruppo, minoranze etniche ai livelli più alti dell’organizzazione. - Talent potential metrics: metriche che misurano il talento o il talento potenziale. Esempi: il tempo per ottenere una promozione o il raiting di una performance come misura di potenziale per ogni lavoratore. - Sickness absence: assenza per malattia. Ad esempio: numero di giorni che un lavoratore ha usato per malattia in un determinato periodo (mese, anno). - Engagement metrics: metriche che misurano il coinvolgimento dei lavoratori all’interno dell’organizzazione. Solitamente vengono raccolte a livello individuale con un questionario specifico per ogni lavoratore. Poi questi score possono essere volendo aggregati anche a livello di team: a quel punto una misura tipica può essere lo score medio individuale o per team. Quando si parla di score si misurano il livello di accordo o disaccordo riguardo certe valutazioni che misurano appunto il coinvolgimento all’interno dell’organizzazione. 3.2 Tipologie di dati Andiamo a vedere le diverse tipologie di dati per quando faremo le analisi. I dati sono diversi perché misurano cose diverse e perché si comportano in maniera diversa nel misurare i fenomeni. Ogni tipologia di dati, che sia il salario, il genere o qualsiasi altra colonna nel nostro datasat è detta variabile. Le variabili sono classificate in due grandi categorie: variabili di tipo categorico e variabili di tipo continuo. Partiamo con le variabili di tipo categorico. Una variabile di tipo categorico è costruita su varie categorie. Pensiamo, ad esempio, ad un ruolo in un’organizzazione; dal momento in cui vogliamo studiare la diversità e dobbiamo ad esempio analizzare la prevalenza delle donne in alcuni ruoli rispetto ad altri, allora dobbiamo raccogliere dati sul role level dei singoli dipendenti nell’organizzazione. La variabile role (ruolo) può essere classificata come: clerical, administrative, graduate consultant, consultant, senior consultant, principal consultant and partner (ovviamente dipende da ogni organizzazione). È chiaro che ogni dipendente può rientrare in una sola di queste categorie. È chiaro che ad ogni categoria posso associare il nome “clerical”, ma posso associare anche un’etichetta numerica: clerical corrisponde alla categoria 1. Tra le variabili categoriche, però, è necessario suddividere tre differenti tipi: le binarie, le nominali e le ordinali. La prima variabile di cui ci occupiamo è la binaria: per la variabile binaria esistono solamente due distinte categorie. È la forma ovviamente più semplice della variabile categorica, viene anche detta binomiale o categorica. Esempi tipici sono il sesso, male or female, o aver frequentato un corso di training per la formazione del personale, yer or no. Ad una variabile binaria possiamo associare anche un’etichetta numerica 0/1. La seconda tipologia è le nominali. Per variabili categoriche nominali si intendono variabili che hanno due o più categorie distinte. Attenzione che non viene pensato alcun ordine particolare tra le categorie. Ogni valore è mutualmente esclusivo, se si appartiene ad una categoria non si appartiene alle altre. Pensiamo ad esempio ad una variabile come home office location (locazione dell’ufficio): un dipendente può appartenere alla categoria Australia, United Kingdom, Canada ecc. non c’è ordine! Anche per quanto riguarda la division: può appartenere al dipartimento sales, legal, HR, finance ecc. Si può associare un’etichetta numerica, basta che non ci sia un ordine. Sono solo etichette che hanno un ordine arbitrario. La terza tipologia è le ordinali. Qui esiste invece un ordine significativo tra le categorie. L’ordine, ovviamente, può essere ascendente o discendente. Attenzione perché gli intervalli tra ogni categoria non devono essere uguali in linea generica. Ad esempio, se vogliamo fare un ranking del job satisfaction: 1. Very dissatisfied 2. Dissatisfied 3. Neither satisfied nor dissatisfied 4. Satisfied 5. Very satisfied Passiamo adesso al secondo grande insieme di varibili: le variabili quantitative o continue. Questo tipo di variabili assumono un valore numerico su una scala di misura. Anche qui abbiamo due sottotipi: le interval variables e ratio variables. Partiamo dalle interval. Qui i dati vengono misurati su una scala numerica, attenzione però che a questa scala numerica manca lo zero starting point. Esempio: temperatura in gradi Celsius. Oppure una data di inizio. Lo zero starting point, invece, è presente nelle ratio variables. Sono variabile numeriche, continue, ma hanno un punto zero definito. Esempi: il salario, l’altezza, il peso, gli anni di lavoro. Possono essere sottoposti a tutte le operazioni matematiche (divisioni, moltiplicazione, ecc…). 3.3 Tipologie di variabili Abbiamo detto che le variabili possono essere divise in diverse tipologie a seconda della misura che rappresentano: le categoriche, che si suddividono in nominali, ordinali, e le continue, che si suddividono in interval e ratio. Continuiamo adesso a vedere altre caratteristiche tipiche delle variabili. A seconda dell’argomento che andremo ad analizzare, sarà più appropriato in alcuni casi andare ad analizzare le variabili a livello team e in altri casi a livello individuale. Tipicamente, informazioni sensibili come ad esempio questionari sull’engagement dei dipendenti, per ragioni etniche vengono resi noti i dati solo a livello di team. In altri casi, è più appropriato condurre analisi con dati a livello individuali: questo quando stiamo studiando delle caratteristiche dell’individuo (o lavoratore) nei confronti di un certo outcome. Esempi tipici di variabili da considerare a livello di team: - Opinioni raccolte con survey (questionario) dove i dipendenti devono esprimere le loro opinioni sull’engagement del gruppo, devono dare un’opinione sulla leadership di appartenenza - Feedback o il livello di fedeltà dei clienti riguardo l’intero store/filiale - Percentuale di turnover dello staff - La grandezza del gruppo - Valutazioni sul leader di un gruppo Esempi tipici di variabili da considerare a livello individuale: - Valutazione della performance per lavoratore - Valutazione sul comportamento del lavoratore - Dati sulle performance di vendita - Scan rate di un dipendente al momento del checkout - Feedback dei clienti a livello individuale rispetto ad un particolare lavoratore - Il feedback dei colleghi di quell’individuo - Nei call center: i call rates o call loads (totale delle chiamate da fare) - Status: leaver o no. Anzianità di servizio. - Sesso: maschio o femmina. Oltre alla caratterizzazione in tipologie di variabili e in livello di variabili (se raccolti a livello individuale o a livello di team), un’altra importante differenziazione è tra variabile detta dipendente e variabile indipendente. La variabile dipendente viene detta outcome variable e fa riferimento a quella dimensione che stiamo cercando di modellare, di predire. Stiamo, cioè, cercando le dinamiche prevalenti delle sue variazioni. La variabile indipendente, detta anche predictor, è la variabile che pensiamo essere causante rispetto ad un determinato outcome. Quindi, è quella variabile che ha un effetto sulla variabile dipendente; è quella variabile che influenza il comportamento o le variazioni della variabile dipendente. 3. Specifichiamo i gradi di libertà, che si calcolano moltiplicando il numero delle righe -1 per il numero delle colonne -1 -> (r-1) (c-1). 4. Scegliamo un alpha level. Solitamente è dello 0.05. 5. Andiamo sulla tabella a trovare il critical value. 6. Se il valore calcolato del chi-square cade nella parte sinistra rispetto al valore critico per un certo alpha level, allora significa che siamo nella zona di accettazione dell’ipotesi nulla: significa che le due variabili sono indipendenti. Se invece il chi-square nella parte destra rispetto al chi-square siamo nella zona di rigetto dell’ipotesi nulla: esiste un’associazione significativa fra le due variabili categoriche che stiamo osservando. Questo procedimento può essere calcolato dal software SPSS. Bisogna andare su analyze, descriptive statistics, crosstabs. In crosstab bisogna definire la variabile categorico di riga, di colonna, e selezionare la statistica chi-square. 3.6 Chi-Square SPSS Esercizio pratico con Chi-Square SPSS. Unico appunto: se la percentuale dell’asymptotic significance è > dell’alpha value allora NON rigettiamo H0. Se invece, la percentuale dell’asymptotic significance è < dell’alpha value, allora a quel punto rigettiamo H0 è quindi c’è dipendenza tra le due variabili. 3.7 Logit Abbiamo visto la metodologia del Chi-Square e il Chi-Square test per due variabili di tipo categorico. Continuiamo a vedere la misura delle relazioni delle variabili. Adesso andiamo a vedere la regressione logistica per la misurazione delle relazioni tra una variabile dipendente di tipo categorico ed un set generale di variabile continue ma che possono essere anche categoriche. Quindi la nostra variabile dipendente, quella da spiegare il comportamento, è di tipo categorico, in particolare è di tipo binario 0,1. Indicando con 1 la presenza di un fenomeno e 0 l’assenza del fenomeno. Il nostro obiettivo sarà quello di spiegare il comportamento di questa outcome variable dato un set di variabili in generale continue ma che possono essere anche categoriche fra queste. Quindi, se la variabile dipendente è binaria, codificata come 0,1, e le indipendenti sono un set di variabili che possono essere sia categoriche o continue, allora usiamo la regressione logistica per spiegare e predire il comportamento della nostra variabile dipendente di tipo binario. Esempio: vogliamo trovare i fattori predittivi della probabilità di essere ad esempio un leaver (1. Otherwise=0). Fra i fattori spieganti possiamo inserire l’età (continua), gender (variabile categorica binaria) o tante altre. Logistic regression: slide 46-49 + p.89 libro Nella logistic regression – spss. Sarà importante commentare il Chi-Square del modello. Il chi- square ci dice quanto bene i regressori che abbiamo inserito sono esplicativi nello spiegare il fenomeno di outcome. Associato a questo avremo il p value del chi square, e sarà valido per dire se il modello predice in maniera significativa la nostra variabile di outcome. Andremo a commentare anche il Nagelkerker R-Square, che è la misurazione della percentuale di variazione che otteniamo con il modello che abbiamo proposto. Esempio, se questo pseudo r square è del 60%, come nel nostro esempio, possiamo dire che il 60% della variabilità nel nostro dataset è spiegato dal modello che abbiamo costruito introducendo variabili indipendenti come il gender, l’age e lo score nel numerical reasoning. Significa che stiamo spiegando una buona parte di variabilità della nostra outcome variable includendo quel set di regressori: 60% è una figura sufficiente di variabilità catturata rispetto al set di regressori inclusi nel modello. Poi ci soffermeremo sul valutare la significatività (guardando al p value) delle variabili indipendenti. Ancora una volta, se fissiamo come soglia alpha del 5% andremo a valutare se un coefficiente è significativo (se un regressore incide significativo sull’outcome variable) se il p value associato è <0.05. Questa solitamente è la soglia di riferimento. Infine, ci concentreremo sugli odds ratio, exp (B). Gli odd ratio sono interessanti non nel valore ma quanto nell’esponenziale del beta, perché indica la variazione in probabilità di quei odds, e quindi la variazione in probabilità dell’accadimento di quell’evento identificato dalla variabile dipendente. Quindi un’unità di variazione nella variabile indipendente avrà exp (B) effetto sulla variabile dipendente, dove per variabile dipendente intendiamo la variazione di probabilità dell’accadimento di quell’evento. 3.8 Logit SPSS Usiamo il software. Abbiamo i 5 different aptitude + l’1 che è la costante, quindi in totale sono 6 i coefficienti da stimare. 3.9 t-test Ora ci concentriamo su metodologie volte ad analizzare l’effetto di certe variabili indipendenti su variabili dipendenti di tipo metrico (continuo). Il primo caso che vedremo è valutare la relazione tra una variabile dipendente di tipo metrico rispetto a due particolari gruppi; cioè la variabile indipendente sarà una variabile categorica di tipo binario, perché ci concentriamo solamente su due gruppi. Quando invece l’indipendente assumerà più categorie, più classi, vedremo l’ANOVA. Iniziamo col t-test. Il t-test è usato per valutare se esiste una differenza significativa, nel comportamento di una particolare dipendente, rispetto a due campioni ben superati. Quando la dipendente è continua (es: numero di vendite con una particolare valuta) e quando esiste una sola variabile dipendente che sia di tipo categorico binario utilizzeremo il t-test. Attenzione, perché possiamo distinguere due tipi di t-test per i campioni, a seconda che la variabile dipendente indipendente categorica binaria rappresenti due gruppi superati (gruppo 1 e gruppo 2) o due differenti pointing time (t1-t2). Nel primo caso avremo l’indipendent t-test e nel secondo il paired samples t-test. Iniziamo con l’indipendent. Noi siamo interessati a testare le differenze fra due gruppi nel comportamento di una particolare variabile continua, quindi di una variabile metrica. I due gruppi devono essere due campioni che contengono due differenti e ben separate tipologie di unità statistiche. Due differenti tipi di persone (nei casi di hr) o di team. La domanda a cui ad esempio vogliamo rispondere è considerare le vendite di un particolare prodotto (la variabile dipendente è continua) rispetto alla variabile indipendente gender (binaria in due gruppi uomini vs donne). La domanda che andremo a costruire è: le donne vendono i prodotti in maniera significativamente più elevata rispetto agli uomini? Formuliamo un’ipotesi nulla vs ipotesi alternativa. Ipotesi nulla (H0): non esistono differenze nei campioni nell’ammontare vendite. Ipotesi alternativa (H1): esistono differenze significative tra i due gruppi nelle vendite. Come si presenta formalmente il t-test? Il t-test vuole confrontare le differenze osservate nelle medie campionarie dei due gruppi, e quindi chiamiamo la media campionaria del primo gruppo x barrato 1 e la media campionaria del secondo gruppo x barrato 2, poi compariamo le differenze osservate rispetto alle differenze expected che a tutti i nostri fini saranno poste uguale a 0. Dividiamo il tutto per lo standard error delle differenze tra le medie. Questa è la formulazione della statistica t. esempi: vogliamo confrontare i livelli di engagement per lo staff che lavora part time vs full time; oppure, vogliamo comparare le differenze degli score a livello di engagement tra i teams finance and sales. Ci sono tre dimensioni che influenzano la significatività di differenze in medie, in particolare queste sono: - Quanto grande sono le differenze osservate nelle medie tra i due gruppi le due variabili co-muovono insieme (si muovono insieme). E ovviamente possono co-muovere nella stessa direzione o in direzione opposte; ovviamente possono co-muovere con un’intensità più elevata o meno elevata. Quindi la correlazione misura in che maniera le due variabili si mettono in relazione? In che modo co-muovono? Ovviamente la correlazione misura una relazione che non è necessariamente precisa, ma se troviamo che la correlazione: - È positiva: allora le due variabili muovono nella stessa direzione. - E’ negativa: le due variabili co-muovono in direzioni opposte, cioè che se una aumenta l’altra diminuisce e viceversa. Formalizzazione: come si misura? È un rapporto dove al numeratore abbiamo la sommatoria per tutte le unità statistiche da 1 a M delle discrepanze nelle due variabili metriche che abbiamo considerato sottratte per la propria media. Quindi se consideriamo il co-movimento della variabile X e della variabile Y avremo tanti values per la variabili X e per la Y; calcoliamo la media e sommiamo tutti gli scostamenti fra la media, moltiplicandoli fra le due variabili. Il numeratore di questo rapporto non è altro che la co-varianza. Al denominatore, invece, abbiamo la radice quadrata della varianza di X e la radice quadrata della varianza di Y: la prima non è altro che la deviazione standard di X e la seconda la deviazione standard di Y. Queste due vanno moltiplicate. Dunque la formula è: la co-varianza di x,y diviso per il prodotto delle standard deviation. Il coefficiente r che si ottiene dà la misura del co-movimento di queste due variabili x,y. Attenzione perché misura solo la relazione lineare, non quelle di altro tipo. Il valore r sarà compreso tra -1 e 1. Se r è molto vicino a 0, significa che le due variabili non sono correlate (o ortogonali): le due variabili sono completamente scollegate. Se invece, il valore di correlazione è esattamente 1 siamo nel caso di perfetta correlazione di tipo positivo: ad una variazione unitaria della variabile x corrisponde esattamente una variazione unitaria nello stesso senso anche nella variabile y. Se il coefficiente di correlazione è -1 siamo nel caso di perfetta correlazione di tipo negativo, ossia: per uno spostamento unitario in X corrisponderà uno spostamento unitario nella direzione opposta in Y. In generale, per variazioni percentuali una correlazione perfetta indica che a un valore di % di variazione di X corrisponde un valore % di variazione di Y. Dal punto di vista lessicale, la Pearson correlation può essere tradotta secondo le linee guida di Tukey e Cohen. Tukey propone questa interpretazione: - Se il coefficiente di correlazione è tra 0 e 0.2 (con entrambi i segni) è una correlazione molto debole. - Se è tra 0.2 e 0.4 è debole. - Tra 0.4 e 0.6 è moderata. - Tra 0.6. e 0.8 è forte - Tra 0.8 e 1 è molto forte. Cohen propone un’altra lettura del coefficiente di correlazione. - Se il coefficiente è inferiore a 0.10 è trivial (può essere tralasciata). - Tra 0.1 e 0.3 è debole o piccola. - Tra lo 0.3 e 0.5 è moderata. - >0.5 grande o forte. Attenzione che non viene fatta alcun tipo di ipotesi sulla causalità, ossia noi stiamo parlando di co- movimento fra x e y. Non stiamo dicendo che il movimento in X causa un movimento di una certa entità e una certa direzione in Y. L’esistenza di una correlazione positiva tra X e Y non significa che ad un aumento in X corrisponde un aumento in Y, ma solamente che le due variabili co-muovono per una certa entità e in una certa direzione. Se non esiste assunzione di causalità la correlazione è simmetrica: il calcolo del coefficiente di correlazione fra x e y è lo stesso. Ovviamente la correlazione è un indicatore che ci dice la relazione nel co-movimento fra due variabili, ma può anche essere pensato come una statistica campionaria e quindi permette il test di ipotesi. Steps: 1. Formuliamo l’ipotesi nulla e l’ipotesi alternativa 2. Determiniamo la distribuzione della statistica test sotto l’ipotesi nulla 3. Scegliere un alpha level a cui corrisponde un livello di confidenza di 1-alpha 4. Calcolare la statistica test e confrontarla con il critical value per quel valore di alpha Calcoliamo il valore della statistica t con questa formula: r è la correlazione del campion, n è la numerosità del campione. N-2 gradi di libertà. 3.14 Correlation SPSS Esempio nel programma. Matrice della correlazione: nella diagonale tutti i valori sono 1 perché sono fra sé stessi. 3.15 Bivariate regression La regressione di tipo lineare. Nella regressione lineare misuriamo le relazioni fra una variabile dipendente che è continua e una serie (se siamo nelle regressioni multiple) di dipendenti che possono essere sia continue che categoriche. Partiamo dal modello dal modello bivariato. Qui abbiamo una singola dipendente continua e una singola indipendente anch’essa continua. La domanda a cui vogliamo rispondere è se la variabile dipendente ha un impatto significativo sulla variabile indipendente e di quanto sia questo impatto. Qua introduciamo quindi un concetto di causalità. Formalmente questo legame si esprime così: Explanatory, indipendent o predictor: è la nostra variabile dipendente, è il predictor del fenomeno che vogliamo spiegare, cioè la variabile y. Quindi si vede già dalla formula che c’è un legame di causalità da x a y. L’impatto è quantificato da beta, detto anche il coefficiente di regressione. Beta: misura l’impatto del predictor sul fenomeno che vogliamo spiegare, la variabile dipendente. Si chiama regressione perché noi vogliamo andare indietro dal fenomeno identificato dalla variabile dipendente verso i suoi determinanti, cioè i fattori che spiegano quel fenomeno. Viene poi inclusa l’intercetta e si aggiunge un termine di errore random, che contiene al suo interno tutto ciò che non è spiegato da questa relazione lineare (epsilon). I parametri alpha e beta una volta stimati li chiamiamo a, b. Come li stimiamo? Con la tecnica OLS (ordinary list square). Portiamo la epsilon a sinistra nell’equazione e calcoliamo i nostri errori: y-a- bx. Sommiamo tutti gli errori al quadrato per tutti gli i. E tutto questo viene minimizzato. Una volta calcolato questo processo di minimizzazione vengono tenute delle stime per alpha e beta che sono a,b. (Slide 110). Ci sono però delle assunzioni, cioè delle ipotesi che devono essere vere per far sì che questo procedimento sia il più corretto possibile. Queste assunzioni sono 5. 1. Per tutti gli i la media degli errori sia 0. Cioè che sia veramente un errore di tipo casuale. 2. Non solo che la media sia 0, ma anche che la varianza di questi errori non vari rispetto le unità statistiche, e quindi non vogliamo che la variabilità dell’errore diventi sempre più grande per valori sempre più grandi della variabile indipendente. 3. Il termine di errore sia indipendente per ogni caso dal termine di errore degli altri casi. Ovviamente se questa ipotesi non è vera significa che ci sono delle variabili esplicative, dei predittori, che non sono stati inclusi nel modello e che sono importanti per la spiegazione del fenomeno. Se noi omettiamo queste variabili allora rimane qualcosa per forza nel residuo per tutti i casi e per tutte le unità statistica. E gli errori non sono più uguali a 0. 4. Il termine di errore deve essere indipendente da tutte le variabili indipendenti che abbiamo incluso nel modello. Se non fosse così significa che le variabili indipendenti non sono veramente indipendenti, ma anche loro sono soggette a variazioni della variabile dipendente che vogliamo spiegare. 5. Vogliamo che l’errore sia distribuito secondo una normale. La normalità ci facilità l’ipotesi test. Ci interessa valutare e quantificare l’effetto di una o più variabili indipendenti sulla variabile dipendente, ma ci interessa anche valutare se ci sono predictor che influiscono in maniera significativa sulla variabile y. Per questo dobbiamo inserire alcuni test di ipotesi su a, b. Anche in HR management è importante analizzare dei fenomeni che non possono essere misurati direttamente, come l’engagement, la leadership o la job satisfaction. Questo concetto si riflette in quello che è chiamato variabili latenti: variabili non osservabili e sottostanti ai dati, cioè sono dimensioni che vengono catturate da una molteplicità di variabili osservate, ma che sono una sintesi di esse che noi non osserviamo. La factor analysis and principal component analysis sono metodi per la riduzione dimensionale. Riduzione dimensionale vuol dire che sono metodologie utili per fare una semplificazione, sommarizzazione delle informazioni che abbiamo nel nostro dataset. Sono utili, quindi, quando abbiamo dei grandi dataset con molte informazioni e molte variabili e abbiamo bisogno di fare una sintesi di queste informazioni per fornire un’interpretazione a questi dati che altrimenti non saremmo in grado di dare. L’idea poi, sottostante a queste metodologie, è quella di evitare il double counting della stessa informazione, cioè quando consideriamo una molteplicità di variabili è molto probabile che alcune dimensioni vengano catturate in parte da diverse variabili. Per evitare il conteggio doppio della stessa informazione, una metodologia di riduzione dimensionale è quello che ci vuole. Quindi, il nostro framework considererà un dataset X di dimensioni n*p (n sono le units e p le variables). Quindi se questo è il nostro punto di partenza avremo un dataset molto grande in termini di n e di p. In particolare, ci troveremmo nel caso in cui queste p variables siano correlate (cioè condividono pezzi di informazioni fra di loro) e per evitare il double counting vogliamo ridurci da una molteplicità p di variabili ad un numero k di variabili latenti molto minore. K<<p. Variabili che siano sottostanti ai dati, che spiegano una grande parte dell’original variability dei nostri dati in x e che soprattutto siano ortogonali (non correlate) tra di loro. Questo vuol dire che stiamo identificando k variabili latenti che sintetizzano il contenuto informativo delle p variabili estraendo dimensioni completamente ortogonali tra di loro. Quali sono i pro e i contro? - Una metodologia di riduzione dimensionale semplifica i dati. Quando il numero di variabili è grande e quando le correlazioni fra le variabili originarie è un problema, o selezioniamo dei predictor che siano indipendenti tra di loro, oppure lo step necessario è semplificare i dati e ridurre questa multidimensionalità presente nelle variabili in variabili latenti di numero inferiore e che catturino dimensioni ortogonali (indipendenti tra di loro). - È chiaro che è più facile interpretare relazioni complesse guardando a un numero inferiori di fattori/variabili latenti estratti, rispetto a studiare relazioni complesse fra una multidimensionalità elevata. - Qual è il prezzo di tutto ciò? È la perdita di una parte delle informazioni originarie che avevamo nei dati che non avremo considerando solamente k fattori rispetto alla p dimensionalità delle variabili. Qui siamo all’interno di metodologie prettamente devote ad un dataset multivariato di righe e colonne, e la riduzione va sul numero delle colonne. Sono particolarmente adatti per studiare, manipolare, dati originari che sono correlati tra di loro e per creare un set più piccolo di nuovi oggetti, di nuove variabili latenti che possono essere espresse come combinazioni lineari delle variabili originali. È chiaro che è più alta la correlazione tra le variabili originale più piccolo sarà il numero di variabili latenti che descrivono in maniera adeguata il fenomeno di riferimento. Il ricercatore avrà davanti a sé un trade off: ridurre le dimensioni dell’analisi (la dimensione colonna), dall’altro perdere meno informazione possibile nella riduzione. La condizione iniziale è che ci sia un livello elevato di correlazioni fra le variabili originali, cioè che queste variabili condividano una parte delle informazioni con altre. Perché factor analysis and principal component analysis? Tutti questi modelli rientrano in queste metodologie multivariate per la riduzione dimensionale delle variabili. Differenze: - La factor analysis stima k fattori dove però k fattori è fissato a priori. - La principal component analysis non sceglie a priori il numero di variabili latenti da considerare, ed è un metodo esplorativo di tipo geometrico. Noi ci concentreremo su questa metodologia che esplora tutti i possibili k fattori fino al massimo di p variabili e il numero k che sceglieremo sarà scelto ad uno stadio successivo. PCA è un metodo di tipo esplorativo-geometrico, dove le componenti principali (variabili latenti, fattori sono tutti sinonimi) non sono assunti a priori. Dobbiamo immaginare il nostro dataset di dimensioni n*p come uno spazio geometrico dove le n unità statistiche sono punti in uno spazio p dimensionale. Ad esempio, con 3 variabili 3p, allora le nostre n unità statistiche saranno punti in uno spazio tridimensionale, dove ogni dimensione è una variabile. Quelli che selezioneremo come k componenti saranno la migliore k approssimazione dello spazio: sarà quindi uno sub space di k dimensione dove le n unità statistica saranno le proiezioni su questo k dimensional sub space. Esempio: con 3 variabili se le riduciamo a 1 avremo solo la lunghezza, con 2 larghezza e lunghezza (perpendicolare). Sono ortogonali, non correlate. Questa operazione non è indolore: stiamo perdendo una parte di informazioni nel proiettare l’unità statistica da uno spazio multidimensionale ad uno spazio più piccolo, che comunque è più osservabile e facilita l’interpretazione dei dati. 3.18 PCA 2 Introduciamo due concetti chiave che saranno importanti per l’interpretazione nella PCA. Questi due concetti sono quelli di autovalore e di auto vettore di una matrice quadrata A. Prendete una matrice quadrata (con ugual numero di righe e colonne) di ordine p x p; solitamente è simmetrica. Si indica con A. L’autovalore è un numero reale, è una costante, e viene indicata con λ. L’auto vettore è un vettore di dimensione p x 1, cioè una colonna con p righe e quindi una colonna unica. Si indica con w. Introduciamo questa uguaglianza: il prodotto della matrice quadrata A * auto vettore è uguale alla costante lambda moltiplicato per l’autovettore stesso. -> Aw= λw. Con l’operazione di raccoglimento ci troviamo di fronte a questa eguaglianza: (A-λ|) w = 0 Quest’ultima uguaglianza può essere uguale a 0 soltanto se il primo termine di questo prodotto è 0, perché w viene assunto diverso da un vettore nullo. Cosa vuol dire che il primo termine di questa moltiplicazione deve essere 0? Vuol dire che il determinante della sua matrice deve essere 0. |A- λ |= 0. Quindi la soluzione di questa equazione è che il determinante (che viene identificato con le due barre) sia uguale a 0. Che è l’equazione caratteristica della matrice e ha p soluzioni, p tanto quanto è l’ordine della matrice quadrata p x p. (esempio: 2 righe e 2 colonne 2x2, ha 2 soluzioni). Slide 138-139. Qual è l’oggetto che descrive la variabilità iniziale dei dati? Questo oggetto si chiama matrice di varianza e covarianza S, a cui è associato ed è sempre possibile ottenere anche una matrice di standardizzata di correlazione R. Com’è fatta la matrice di varianza e covarianza S? slide 140. Associato alla matrice di varianza e covarianza, anche un altro oggetto rappresenta la variabilità totale del sistema, ed è la matrice di correlazione. La matrice di correlazione non fa altro che normalizzare/standardizzare la matrice di varianza e covarianza. Quando usiamo la matrice di varianza e covarianza e quando invece utilizziamo la matrice di correlazione per fare l’analisi dei nostri componenti principali? Entrambi descrivono la variabilità dei dati, che è il punto di partenza dell’analisi dei componenti principali: ma quale dei due utilizziamo? 1. Quando le unità di misura delle variabili, degli oggetti iniziali del nostro dataset, sono uguali per tutti allora matrice di varianza e covarianza è quella da utilizzare. Perché? perché se le unità di misura o anche l’ordine di grandezza differisce fra le variabili, allora c’è un problema di variabilità differente tra le diverse variabili considerate, e quindi alcune variabili potrebbero pesare di più solo perché hanno un ordine di grandezza maggiore o l’unità di misura è espressa in maniera diversa rispetto ad un’altra. 2. Se invece tutte le unità di misura delle variabili del dataset iniziale sono espresse in percentuali in quel caso l’unità di misura sono uguale per tutti e allora si può applicare l’analisi dei componenti principali direttamente sulla matrice di varianza e covarianza. 3. Se invece le variabili del nostro date sono espresse diversamente (decine, migliaio, grammi ecc) allora a quel punto è necessario applicare la PCA sulla matrice di correlazione, che standardizza tutte le variabili rendendole tutte con varianza unitaria e quindi confrontabile. Quindi cosa fa la Principal Component Analysis? La PCA vuole conservare la maggior parte di variabilità iniziale dei dati, pur riducendo il numero di dimensioni osservate (k<<p). Attenzione che questi k oggetti che replicano se non tutta, la stragrande maggioranza della variabilità iniziale dei dati, sono non osservabili. Sono variabili latenti. Il primo principale componente non osservabili sarà l’oggetto che cattura la più grande variabilità del nostro dataset. Il secondo sempre meno fino al pesimo oggetto che ne cattura la parte più piccola. Tutti questi p oggetti, ovviamente, ricostruiscono poi insieme la variabilità totale del sistema. A noi non interesserà considerare tutte le p variabili, ne sceglieremo un numero inferiore k che replica una buona parte di variabilità iniziale del sistema a costo di una piccola perdita informativa. Derivazione di questi oggetti che noi chiamiamo componenti/variabili latenti. Slide 144. primo posto nell’organizzazione, e quindi questa motivazione può essere messa in discussione. 2. Diversity business case: quando noi massimizziamo l’uguaglianza e l’inclusione otteniamo dei benefit nell’organizzazione che possono essere efficienti anche per il business. Quali sono questi benefit? Possiamo massimizzare il potenziale delle persone in azienda; capendo la diversità e sfruttando la diversità dei nostri dipendenti possiamo essere in grado di conoscere i nostri customers; siamo in grado di sviluppare un’immagine positiva dell’organizzazione anche all’esterno, ottenendo benefit superiori grazie alla promozione dell’inclusione. La sfida sarà misurare la diversità e l’inclusione. Quando ci troviamo quindi nel compito di misurare e gestire l’inclusione e la diversità, solitamente nell’organizzazione si producono dei descriptive report, dei report descrittivi. I report sono uno snapshot (istantanea) descrittiva dell’organizzazione rispetto ad alcuni aspetti della diversità. Ad esempio, un report tipico prodotto dall’organizzazione include la rappresentazione femminile nei diversi gradi dell’organizzazione, o nei gradi più elevati. Il numero di anni per ottenere la promozione dato l’età e il genere. Rating della performance di dipendenti che hanno disabilità o no. Attenzione, noi parliamo di differenze significative, ma per fare ciò non è sufficiente avere dei report descrittivi, perché i report descrittivi sono una semplice istantanea. Ecco perché è necessario introdurre metodologie statistiche di tipo predittivo: così possiamo capire se ci sono differenze significative. Case study 1. Vogliamo cercare una possibile discriminazione all’interno dell’organizzazione, se ci sono ingiustizie nei ruoli senior con rispetto al genere. Si parte con l’analisi descrittiva. Quante donne vs uomini ci sono in differenti gradi. Case study 2. Ethnic diversity. Andiamo a vedere la diversità nella rappresentatività delle diverse etnie all’interno dell’organizzazione. Perché l’organizzazione dovrebbe avere dei dipendenti etnicamente diversificati? - Avere dipendenti appartenenti a diverse etnie può aiutare ad avere diverse competenze e prospettive. - Avere dipendenti di diverse etnie porta in organizzazione delle competenze che possono essere utili nei diversi mercati, perché i dipendenti possono aiutare a capire meglio quali sono i bisogni dei clienti appartenenti alle diverse etnie. Black, Asian and Minority Ethnic -> BAME Lezione 2 Levenes test rapporto tra variabilità interna del primo gruppo con quello del secondo gruppo. Per rispondere alla domanda quali fattori sono in grado di predire una prevalenza inferiore di BAME nei nostri teams? Usiamo la regressione multipla. R square ci dice la bontà del modello (% di varianza di % BAME che è spiegata dal modello) ma è più utile l’adjusted r square perché è purificato per i regressori. Ipotesi nulla ANOVA tutti i parametri sono = 0 e quindi nessun predictor influenza la dipendente. Lezione 3 Oggi c’è un nuovo topic che riguarda il coinvolgimento dei lavoratori, quello che viene definito engagement. L’engagement misura il coinvolgimento dei lavoratori e delle loro percezioni, ed è un obiettivo importante per la funzione delle HR. Presenta ovviamente delle sfide: la prima è quella della misurazione dell’engagement (coinvolgimento). Non esiste una misura diretta che possa direttamente misurare il coinvolgimento, essendo quindi una variabile di tipo latente avrà bisogno di particolari strumenti per essere misurata. Una seconda sfida riguarda la produzione di survey adatti alla misurazione di questo concetto chiave che è il coinvolgimento. Organizzazioni grandi solitamente producono e conducono i loro questionari direttamente all’interno dell’organizzazione tramite un team specializzato che ne segue il coinvolgimento, organizzazioni più piccole si appoggiano a delle strutture esterne particolarmente adatte a perseguire l’obiettivo della misurazione del coinvolgimento del dipendente. La prima cosa però da dire è il concetto di coinvolgimento dei dipendenti. La prima domanda a cui rispondere prima di andare a ideare un questionario e poi misurare le diverse proxy dell’engagement è che cos’è il coinvolgimento dei lavoratori; una volta definito passeremo a capire come misurarlo, come fare un survey adatto, come interrogare queste proxy e poi interpretare i risultati. Iniziamo con la definizione di engagement dei dipendenti. Il primo dato di fatto è che non esiste una definizione universalmente accettata di engagement dei dipendenti. Ci sono diverse aree che provano a definire l’engagement. In ambito accademico: 1. Cosa intende la ricerca accademica per engagement? Questa definizione fa capo a Kahn (1990) e presenta quello che è il coinvolgimento a livello comportamentale dei lavoratori come la simultanea espressione della persona come suo self preferito (sé stesso preferito) nei diversi comportamenti riferiti alle attività che vengono promosse sul lavoro in connessione con diversi aspetti personali. L’aspetto physical, cognitivo e emozionale. Connesso a questa definizione, fra i ricercatori, Rich, LePine e Crawford fanno un survey personalizzato su queste tre aree. 2. Questa definizione proviene da UWES (Utrecht Work Engagement Scale) dove due ricercatori propongono un questionario connesso alla definizione di engagement vista come uno state of mind che sia positivo e soddisfazione per il lavoratore caratterizzato da vigore, dedication e assorbimento verso il lavoro. Dalla parte dei consultancies abbiamo altre definizioni: 1. Mercer definisce il coinvolgimento dei dipendenti come uno stato psicologico in cui i dipendenti hanno un interesse al successo della propria organizzazione e sono motivati a performare a livelli che eccedono le richieste che vengono fatte al proprio lavoro. 2. The Hay Group definisce il coinvolgimento come una funzione del committment. 3. Watson: l’abilità di andare oltre Queste 3 accezioni hanno un’accezione positiva, di superare sé stessi e incoraggia a fare di più a livello del proprio task. Altre definizioni provenienti dal business: 1. Il coinvolgimento dei lavoratori è quando il business value dell’impiegato è anche il valore del business. C’è un rapporto in tutte e due le direzioni, uno promuove l’altro. In conclusione, indipendentemente da dove prendiamo la definizione, l’engagement è qualcosa che sta nella zona di sentimenti positivi, di sentirsi soddisfatti, di essere coinvolti nel successo dell’organizzazione. Alcuni studi accademici riguardo all’engagement mettono in correlazione l’engagement dei dipendenti con altri aspetti: task performance, contextual performance, health e negativamente con l’intenzione ad uscire. Adesso sappiamo cos’è l’engagement. La seconda sfida è: come lo misuriamo? Non è tangibile. Ovviamente un può pensare ad una domanda come “quanto sei coinvolto?” ma una domanda così generale può portare ad una differenziazione di risposte che corrisponde all’idea che ha lo stesso dipendente del concetto di coinvolgimento che può essere molto diverso fra i diversi lavoratori presente in organizzazione. Quindi il modo migliore per misurare il concetto di engagement è fare un insieme di domande specificatamente pensate per misurare diversi aspetti associati con l’idea di coinvolgimento, in modo tale che il ricercatore abbia un minimo di controllo sul tipo di risposte che sono misure che approssimano il concetto di coinvolgimento. In modo tale da essere sicuri, alla fine del processo, di misurare quello che è il livello complessivo di engagement del dipendente. Esistono dei survey già preparati e testati che vogliono misurare il coinvolgimento partendo dalle diverse definizioni di engagement che vengono dati dai ricercatori che propongono il survey. Riguardo alla prima definizione accademica, gli autori propongono un survey riguardo le 3 aree physical engagement, empotional engagement, cognitive engagement. 18 domande con 1 strongly disagree a 5 strongly agree. Non è l’unico questionario: la seconda definizione accademica (UWES) propone 17 sentenze. Sia che produciate un questionario “in casa” sia che vi appoggiate a un external provider dovete comunque essere sicure che le domande/statement siano buoni indicatori del coinvolgimento definito secondo una precisa accezione. Quindi per dare un certo vigore alla misura ovviamente un indicatore non è sufficiente ma bisogna includere diversi indicatori che poi insieme possono essere una misura sintetica del coinvolgimento finale, in modo da catturare in maniera precisa il coinvolgimento che è nella mente del lavoratore. Ovviamente, sappiate che quando il dipendente risponde può essere influenzato da quello che è successo poco prima. Potrebbero esserci degli errori dovuti a fattori esterni. X= t+e Qui ci viene incontro la Classical test theory dove si identifica ogni risposta di un questionario come una parte che è assolutamente vera, a cui si somma un margine di errore. Quindi, una buona misura è un indicatore che definisce il costrutto che vogliamo misurare, in questo caso l’engagement. La metodologia principe qui è l’analisi fattoriale. Perché la factor analysis? Perché è in grado di sintetizzare, di raggruppare insieme gruppi di variabili che hanno un certo grado di correlazione fra loro. Inoltre, è utile per le variabili latenti. Quindi, attraverso la designazione di un questionario andiamo a vedere come misurare e come interpretare l’output di un survey. Example 1. Vedete che in questo ambito vi collegate alla predictions della performance. È vero anche che in altre analisi potete interfacciarvi con modelli che predicano il turnover (questo è un dipende che starà o è un potenziale leaver? -> ci ricolleghiamo a modelli già visti). Inoltre, un’area molto presidiata dalle analisi HR è il grado di bias free, cioè il grado di libertà rispetto alle distorsioni nel processo di recruitment in relazione con la diversity analytics. Pensate ad esempio di voler valutare se nel processo di recruitment avete dei bias tra uomini e donne: qui state andando a valutare una possibile differenza significativa nel processo di recruitment tra generi diversi. Il processo di recruitment ha il vantaggio di collezionare di tanti dati relativi alle persone che vengono ad interfacciarsi con l’organizzazione, ma utilizza modelli predittivi che già abbiamo visto nello studio della diversity, turnover, predizione della performance… sono tutte interconnesse quindi. Un’area di discussione su recruitment e selection gira intorno alla selezione del metodo di recruitment che è considerato migliore per l’individuazione di nuovi candidati. A livello statistico per migliore si intendono due caratteristiche. Migliore in termine di affidabilità e di validità del metodo. - L’affidabilità del metodo di selezione: è il grado di per cui un particolare metodo di selezione porta in maniera consistente allo stesso giudizio finale rispetto ad un individuo su una particolare caratteristica rispetto a differenti scenari. - Validità del metodo di selezione: il grado in cui un particolare metodo identifica in maniera accurata le persone che sono il dipendente adatto per un particolare lavoro discriminando tali persone che performano al meglio rispetto alle persone che performano in maniera meno adeguata e discriminando le persone che rimarranno in organizzazione rispetto a quelle che saranno dei leaver. Qui le metriche saranno ad esempio il performance rating e staff turnover. Nel processo di recruitment c’è un human bias: c’è una distorsione data dall’essere persone che probabilmente entra nel processo di selezione. Quali sono questi bias? Ci possono essere tendenze a troppa clemenza date delle certe caratteristiche che impressionano il selezionatore, ci possono essere effetti di prima impressione o ultima impressione. Effetti alone ecc. attenzione quindi che ci possono essere queste distorsioni da esplorare per evitare di incappare in processi di tipo discriminatorio o processi che sono influenzati dal pregiudizio. Per valutare il grado di bias del processo di selezione è sempre bene analizzare i dati sotto il profilo demografico. Pensate al gender o di essere una minoranza etnica, anche qui possiamo andare a vedere se ci sono pregiudizi o discriminazioni nel processo di selezione. Lezione 9 Nella logistic regression: se il valore della exp (B) è >1, dobbiamo prendere il valore del regressore più alto (se è binario tra 1 o 2 scelgo 2), se invece è <1 è il contrario. Leggere sul libro la parte di odds. Lezione 10 Siamo sul topic del recruitment and selection dei dipendenti nell’organizzazione. Quando abbiamo introdotto il topic abbiamo detto che è sempre bene discutere la validità del metodo di selezione, cioè il grado con cui un particolare metodo è in grado di identificare in maniera accurata le persone giuste per l’organizzazione. Cosa significa identificare il metodo di selezione giusta? Identificare quei candidati che sono potenziali performer (sapere discriminare tra le persone che nel futuro saranno in grado di performare rispetto ad altri) e in seconda istanza discriminare tra le persone che in futuro saranno degli stayer rispetto a delle persone che saranno dei leaver. Ci sono delle metriche che conosciamo per andare a valutare questi due aspetti: il primo è il performance rating (valutazione della performance, ad esempio, con scala da 1 a 5) il secondo è lo staff turnover data (ad esempio una binaria che identifica un stayer vs leaver o su una variabile continua separation rate). Ora agganciamo la validità del metodo di selezione con topic già visti per andare a validare il metodo di selezione. Esempio 3. A proposito di logistic regression con variabile binaria: con binaria -> 0=stayer e 1=leaver la formula è -> y= p (y=1)/p (y=0) Ultimo topic: valutazione degli impatti degli interventi che si introducono nell’organizzazione. Un altro pattern significativo del HR pratiche è andare a valutare l’impatto dei diversi interventi che vengono proposti dall’HR per aumentare un certo aspetto specifico della vita dell’organizzazione. Ad esempio, l’introduzione di un training program. Fare un training costa e quindi è un bene fare una valutazione dell’efficacia di tale intervento come controllo del successo dell’iniziativa che è stata introdotta, proprio in ragione del fatto che i financial investment che si introducono non sono indifferenti. Ci dev’essere un ritorno. La valutazione dell’efficacia di questi interventi deve considerare la misurazione del cambiamento che si osserva nel momento in cui è stato messo in campo tale intervento. Quindi vedete che avete bisogno di certe metriche per l’assestment del change. Pensate ad esempio come abbiamo detto ad un training program, dovete poi mettere in campo la valutazione dell’iniziativa, ad esempio, andando a misurare il cambiamento dell’attitude del dipendente, oppure il cambiamento nel consumer perception dopo che i responsabili delle vendite hanno seguito questo training program. Bisogna misurare una certa metrica su cui vi aspettate un impatto dell’iniziativa messa in campo. In generale, l’hr function vuole impattare con il proprio intervento su qualcosa, quindi capire come si misura quel qualcosa che deve cambiare dopo l’intervento è fondamentale. Questo già deve essere chiaro prima della messa in campo dell’iniziativa. Le domande a cui un HR analyst deve rispondere quando va a misurare l’impatto degli interventi sono essenzialmente 3: 1. Dove ci aspettiamo che questo intervento impatti? In quale funzione? 2. Come misuriamo che questo intervento sia di successo? 3. Se non esiste una metrica già raccolta nell’HR, allora noi HR analyst che dovremmo creare una metrica per misurare l’impatto dell’iniziativa che mettiamo in campo. Queste valutazione devono essere fatte prima dell’implementazione e solitamente la valutazione: prima, dopo e ancora oltre per vedere se l’effetto è diventato stabile. Esempio: vogliamo provare a migliorare le skills matematiche di cassieri -> all’inizio facciamo un test, poi un test dopo il training e dopo 6 mesi andare a fare il track dei progressi per vedere se gli effetti del training sono state completamente assorbite da questo personale. Se non è presente una metrica stabilita potete pensare ad una produzione di surveys dove raccogliete informazioni prima e dopo per valutare la sensibilità dell’iniziativa. Solitamente condurre un survey su tutti i dipendenti è dispendioso, quindi l’hr function propone due altri tipi survey: panel e pulse. Panel: raccoglie dati su un campione, non su tutta la popolazione dell’organizzazione, ma li raccoglie in diversi pointing time. In diversi punti nel tempo per lo stesso sample di dipendenti. Pulse: a volte non è possibile raccogliere per gli stessi dipendenti caratteristiche nel tempo, e allora viene utilizzato il pulse survey (un piccolo survey) che viene mandato ad un campione dello staff. Attenzione però che questo campione non ha bisogno delle stesse persone all’interno del campione da essere monitorate nel tempo. Attenzione, perché per essere un campione random abbiamo bisogno che ci sia un sample più grande rispetto al sample utilizzato nel panel. Lezione 11 La caratteristica essenziale del processo di valutazione: questi processi di valutazione sono soggetti ad una valutazione nel tempo. Abbiamo detto, la scorsa volta, che è sempre buona norma crearsi uno snapshot dello state of art in organizzazione prima della messa in atto dell’intervento; ovviamente, una valutazione immediatamente successiva all’intervento messo in atto; infine, un controllo a distanza di circa 6 mesi (before, after, beyond) per vedere se questi comportamenti sono stati veramente incorporati dai dipendenti all’interno dell’organizzazione. Quindi, la valutazione rispetto alla variabile tempo è la caratteristica principe di questo tipo di monitoring. Introducendo questa valutazione rispetto alla variabile tempo vi dovrebbero subito tornare in mente due metodologie viste nelle video pillole: in particolare, per fare un confronto di medie, abbiamo detto che se la variabile dipendente è di tipo continuo le metodologie da utilizzare sono l’indipendent t-test nel caso in cui siano presenti solo due gruppi o anova con più di due gruppi. Paired t-test è un t-test ripetuto in due istanti di tempo diversi. La variante introdotta invece per la metodologie anova è sempre un confronto fra medie ma su più di due istanti temporali, e l’abbiamo chiamato one way repeated anova. Nel repeated 3 o più stati temporali diversi, nel paired 2 periodi. Per entrambi lo stesso sample. Repeated one way anova: slide 11. Nella prima tabella c’è il confronto fra media. Si passa da un valore medio di 4.112 al tempo 1, al 4.122 al tempo 2 al 4.188 al tempo 3. C’è un minimo di incremento dalla wave 1 alla 3. L’incremento è significativo statisticamente? Sia nell’indipendent t- test sia nell’anova (nelle versioni classiche) una assunzione classica da andare a controllare era la valutazione della uguaglianza o delle diversità delle varianze nei diversi gruppi da controllare. Nell’indipendent t-test andavamo a scegliere tra il t-test con equal variance assumed e equal variance not assumed in base alla rejection o no dell’ipotesi nulla che le varianze tra gruppi fossero uguali. La stessa cosa veniva fatta nel one way anova. Infatti, prima di andare a commentare gli esiti del f-test andavamo a commentare se le varianze tra gruppi potevano essere considerate uguali o simili oppure no. Nel caso in cui fosse stata rigettata H0 (uguaglianza delle varianze - >quindi gruppi con varianze diverse) non commentavamo il test f nella versione classica, ma commentavamo il test robusto. Questo proprio perché il test veniva ad essere irrobustito per la caratteristica di diverse varianze tra gruppi. Qui, nel caso del repeated anova, il parellelo esiste: anche qui c’è bisogno di testare prima del commento specifico del repated anova test l’assunzione che la varianza nelle diverse waves sia uguale o no. Questa ipotesi si chiama nel reapetd anova la sphericity. Quindi test sphericiti= assunzione che le varianze nelle differenze tra i diversi peer
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved