Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Econometria dei mercati finanziari a.a. 2023/2024 - Prof. Graziano Moramarco UNIBO, Appunti di Econometria

Appunti teorici completi del corso "Econometria dei mercati finanziari" del prof. Graziano Moramarco per il CdLM di Finanza, Intermediari e Mercati (CLAMFIM) di UniBo. Tale documento risulta sufficiente per eseguire l'esame scritto con profitto (io stesso ho ottenuto un 29). Per la parte software relativa al report da fare a casa, provvede direttamente il professore a fornire il relativo materiale.

Tipologia: Appunti

2023/2024

In vendita dal 03/07/2024

lorenzo-cjo
lorenzo-cjo 🇮🇹

3 documenti

1 / 92

Toggle sidebar

Documenti correlati


Anteprima parziale del testo

Scarica Econometria dei mercati finanziari a.a. 2023/2024 - Prof. Graziano Moramarco UNIBO e più Appunti in PDF di Econometria solo su Docsity! 1 Lezione 1 – 15 febbraio 2024 INTRODUZIONE L’econometria dei mercati finanziari è l’intersezione tra teoria economico-finanziaria tradotta in metodologie statistiche e applicata a dati osservati nel mondo reale. Abbiamo, quindi, la combinazione di 3 fattori: teoria, metodologia, dati. I mercati finanziari sono i mercati nei quali vengono emessi e scambiati asset finanziari. Distinguiamo: - mercati azionari (stock markets o equity markets); - mercati obbligazionari1 (bond markets) e di altri titoli a reddito fisso: bills, commercial papers, ecc. (fixed-income markets); - mercati delle valute (foreign exchange o currency markets) = mercato con scambi giornalieri più pungenti come volumi; - mercati dei derivati (futures, opzioni, swaps, ecc.) = strumenti finanziari il cui valore non è intrinseco bensì dipende dal valore di un titolo sottostante, tipicamente azioni e/o obbligazioni; - mercati delle materie prime (commodity markets) = possono essere, ad esempio, le materie prime energetiche come petrolio, gas naturali; metalli preziosi come l’oro; metalli industriali come rame e zinco; le materie prime agricole ecc. Non sembrano essere asset prettamente finanziari ma sono diventati dei veri e propri mercati finanziari: anche le grandi banche internazionali fanno trading su mercati organizzati di queste materie prime, molto spesso non per scopi reali bensì per speculare sulle variazioni di prezzo, quindi, trarre profitto dalle fluttuazioni di prezzo delle materie prime. Le criptovalute tecnicamente si presentano come valute, ma non tutti sono d’accordo. Per alcuni economisti dovrebbero essere inserite nel mercato delle materie prime. FOCUS: Mercati azionari e obbligazionari a confronto 1 Ricordiamo la differenza tra azioni e obbligazioni: le azioni sono titoli partecipativi, quindi, comprando una quota della proprietà di un’impresa si ha diritto ai profitti, ma ci si accolla anche il rischio di perdita (non sono titoli a reddito fisso bensì dipendono dal rischio d’impresa); le obbligazioni sono titoli di debito per l’emittente: l’impresa che emette le obbligazioni si sta facendo prestare dei soldi, l’investitore che acquista il titolo è un creditore dell’impresa per cui ha diritto al rimborso del capitale e al pagamento degli interessi (sono titoli a reddito fisso, salvo il caso in cui l’impresa va in default). 2 A sinistra abbiamo la scomposizione mondiale del valore del mercato azionario, quindi, si prendono tutti i titoli nazionali mondiali (la capitalizzazione di borsa) e se ne fa la scomposizione geografica. Gli USA da soli contano più del 40% del mercato azionario mondiale: occorre tenere presenta questa cosa quando si fanno delle analisi sui mercati. Molto spesso si tende a pensare che il mercato azionario europeo e quello americano siano equiparabili, ma non è così. In Europa c’è una tradizione meno forte dei mercati azionare, per ragioni anche storiche legate alle modalità con cui le imprese si finanziano: molto meno sui mercati, molto più con prestiti delle banche o con emissioni di obbligazioni. I mercati azionari sono dominati dal punto di vista quantitativo dagli Stati Uniti, nel mercato obbligazionario la situazione è più “equilibrata”. Per motivi storici le strategie di investimento delle imprese e dei Governi in Europa sono particolarmente centrate sulle emissioni di debito: all’interno della fetta nel grafico si comprendono, difatti, anche i titoli di Stato. RICORDA = I mercati azionari sono dominati dal punto di vista quantitativo dagli Stati Uniti, quindi, ciò che avviene negli USA è metà di ciò che accade su scala mondiale e influenza tutto quello che accade attorno; nel mercato obbligazionario le cose sono più sfumate e aree come Cina, Giappone, Europa hanno una tradizione di mercati obbligazionari più forte sia in campo corporate che in campo sovereign. Vediamo l’ordine di grandezza di come hanno performato diverse categorie di titoli nell’ultimo secolo. Sull’asse orizzontale abbiamo il tempo, più o meno un secolo. Immaginiamo di essere nel 1925, investiamo 100 $ in un determinato asset. Per queste 5 categorie vediamo come l’investimento iniziale evolve nel tempo. La scala è logaritmica, quindi, non fa vedere esattamente le proporzioni. Small stocks (azioni PMI) = nel 2015 avrebbe un valore di 4 milioni circa, quindi, per ogni dollaro investito nel ‘25 avremmo 46000 nel 2015 (grandezze nominali). Bisogna tenere conto anche del fatto che nel frattempo sono aumentati i prezzi (inflazione): il costo della vita è aumentato e ciò lo vediamo dall’andamento della linea viola che rappresenta il livello dei prezzi dei beni di consumo (costo della vita è aumentato di 13 volte). 5 arancione, allora andremmo a sottostimare la probabilità di crisi finanziaria perché andremmo a sottostimare la probabilità della coda sinistra in cui il mercato performa male. L’alta curtosi empirica dei mercati azionari la dobbiamo catturare con i modelli di volatilità. Ciò che vogliamo andare a spiegare in questo corso sono fondamentalmente 3 cose: 1. la dinamica dei rendimenti finanziari; 2. il rischio; 3. le interdipendenze tra variabili/mercati finanziari. 6 Il modello di regressione lineare Consideriamo la formula più generale con una variabile dipendente 𝑦𝑖 per l’individuo/osservazione⁡𝑖 che è funzione di una costante 𝛽0, sommata ad un coefficiente 𝛽1 che moltiplica il regressore 𝑥1𝑖 osservato sull’individuo i-esimo, più 𝛽2 moltiplicato per il secondo regressore 𝑥2𝑖 sempre osservato sull’individuo i- esimo e così via fino ad arrivare al k-esimo regressore: 𝑦𝑖 =⁡𝛽0 + 𝛽1𝑥1𝑖 + 𝛽2𝑥2𝑖 + ⋯+ 𝛽𝑘𝑥𝑘𝑖 + 𝜀𝑖 ⁡ dove 𝜀𝑖 rappresenta il termine di errore per l’individuo 𝑖 con 𝑖⁡ = ⁡1, 2,… ,𝑁. Lo scopo dello stimatore OLS (Ordinary Least Squares) è quello di minimizzare la somma dei residui al quadrato. Definiamo una funzione obiettivo 𝑆() che è funzione dei parametri che vogliamo stimare: 𝑆(𝛽0, 𝛽1, … , 𝛽𝑘) = ∑(𝑦𝑖 − 𝛽0 − ∑𝛽𝑗𝑥𝑗𝑖 𝑘 𝑗=1 ) 2 𝑁 𝑖=1 Per minimizzare questa funzione passiamo gradualmente alla forma matriciale che ci semplifica le cose e ci servirà in seguito per la programmazione. Definiamo i seguenti vettori: - vettore dei regressori: 𝑥𝑖 =⁡ [ 1 𝑥1𝑖 𝑥2𝑖 ⋮ 𝑥𝑘𝑖] di dimensioni (𝑝⁡ × ⁡1) posto 𝑝 = 𝑘 + 1 e rappresenta il numero di parametri da stimare2; - vettore dei coefficienti: 𝛽 = ⁡ [ 𝛽0 𝛽1 𝛽2 ⋮ 𝛽𝑘] di dimensioni (𝑝⁡ × ⁡1) posto 𝑝 = 𝑘 + 1. Possiamo riscrivere il nostro modello di regressione lineare generale come: 𝑦𝑖 = 𝑥𝑖 ′⁡𝛽 + 𝜀𝑖 2 L’1 posto in alto consente di stimare il parametro 𝛽0: nel modello è come se fosse moltiplicato per un 1 immaginario. (1⁡ × ⁡𝑝) (𝑝⁡ × ⁡1) 7 Riscriviamo la funzione obiettivo: 𝑆(𝛽) = ∑(𝑦𝑖 − 𝑥𝑖 ′𝛽)2 𝑁 𝑖=1 Minimizziamo la funzione ponendo la derivata uguale a 0 (condizioni del primo ordine): 𝜕𝑆(𝛽) 𝜕𝛽 = 0 ⁡= −2∑𝑥𝑖( 𝑁 𝑖=1 𝑦𝑖 − 𝑥𝑖 ′𝛽) = 0 ⁡= ∑𝑥𝑖𝑦𝑖 − ∑𝑥𝑖𝑥𝑖 ′𝛽 = 0 𝑁 𝑖=1 𝑁 𝑖=1 Per cui otteniamo la stima OLS del modello: ?̂? = (∑𝑥𝑖𝑥𝑖 ′ 𝑁 𝑖=1 ) −1 ∑𝑥𝑖𝑦𝑖 𝑁 𝑖=1 La nostra stima si può semplificare ulteriormente mediante la forma matriciale. Definiamo: - un vettore 𝒚 che è il vettore colonna che comprende tutti gli 𝑦𝑖: 𝑦 = ⁡ [ 𝑦1 𝑦2 𝑦3 ⋮ 𝑦𝑁] - una matrice 𝑿 che comprende tutti i regressori per tutti gli individui: 𝑋 = [ 1 𝑥11 ⋯ 𝑥𝑘1 1 𝑥12 ⋮ 𝑥𝑘1 ⋮ ⋮ ⋮ ⋮ 1 𝑥1𝑁 ⋯ 𝑥𝑘𝑁 ] - un vettore 𝜺 che comprende gli errori per ogni individuo: 𝜀 = ⁡ [ 𝜀1 𝜀2 𝜀3 ⋮ 𝜀𝑁] Possiamo riscrivere il modello in forma matriciale: 𝑦 = 𝑋𝛽 + ⁡𝜀⁡ Il termine tra parentesi è un singolo numero, quindi, è indifferente trasporre il vettore 𝑥𝑖. (𝑝 × 1) (𝑁 × 𝑝) (𝑁 × 𝑝) (𝑁 × 1) (𝑁 × 1) 10 per l’ipotesi 2 la covarianza è nulla, mentre, per l’ipotesi 1 𝐸[𝜀] = 0 quindi otteniamo: 𝐸(?̂?) = ⁡𝛽⁡ L’ipotesi 1 e l’ipotesi 2 sono necessarie per avere la correttezza. - Cosa succede se una delle 4 ipotesi alla base del teorema viene meno? Ipotesi violate 1. Se viene violata l’ipotesi 1 → OLS è DISTORTO (non corretto) 2. Se viene violata l’ipotesi 2 → OLS è DISTORTO (non corretto) 3. Se viene violata l’ipotesi 3 → OLS è ancora corretto ma INEFFICIENTE 4. Se viene violata l’ipotesi 3: - OLS è ancora corretto ma INEFFICIENTE; - OLS è DISTORTO quando il modello che stiamo stimando è un modello di serie storica dinamico (vale a dire che la variabile al tempo t dipende dai suoi valori passati)3. CAPM – Capital Asset Pricing Model Dimostriamo che lo stimatore OLS può essere lo stimatore corretto per stimare il più importante modello di teoria finanziaria vale a dire il CAPM: lo consideriamo come modello di regressione lineare. Per un generico titolo 𝑗 il CAPM ci dice che: 𝐸(𝑟𝑗𝑡) = 𝑟𝐹 + 𝛽𝑗𝐸(𝑟𝑚𝑡 − 𝑟𝐹) 𝐸(𝑟𝑗𝑡 − 𝑟𝐹) = 𝛽𝑗𝐸(𝑟𝑚𝑡 − 𝑟𝐹) dove 𝑟 sta per rendimento ed 𝑟𝐹 è il rendimento del titolo privo di rischio. Il CAPM ci dice che ogni titolo deve remunerare gli investitori in eccesso rispetto al tasso privo di rischio e in che modo secondo un fattore di proporzionalità 𝜷𝒋 che moltiplica il rendimento in eccesso del mercato in generale. Dove: 𝛽𝑗 = 𝑐𝑜𝑣(𝑟𝑖𝑗 , 𝑟𝑚𝑡) 𝑣𝑎𝑟(𝑟𝑚𝑡) - Come facciamo a dimostrare che l’OLS stima bene il nostro parametro Beta? Per riscrivere il CAPM come un modello di regressione lineare, definiamo i cosiddetti rendimenti inattesi, in inglese “unexpected return”: 𝑼𝒋𝒕 = 𝑟𝑗𝑡 − 𝐸(𝑟𝑗𝑡) → rendimento inatteso del titolo j 𝑼𝒎𝒕 = 𝑟𝑚𝑡 − 𝐸(𝑟𝑚𝑡) → rendimento inatteso del mercato 3 Quando abbiamo un modello in cui il valore della variabile dipende dai valori passati dobbiamo stare attenti all’ipotesi 4: se i test dicono che c’è autocorrelazione degli errori, le stime OLS non sono affidabili perché sono distorte. excess return rendimento in eccesso rispetto al titolo privo di rischio 11 𝛽𝑗 = 𝐸[(𝑟𝑗𝑡 − 𝐸(𝑟𝑗𝑡))(𝑟𝑚𝑡 − 𝐸(𝑟𝑚𝑡)] 𝐸[(𝑟𝑚𝑡 − 𝐸(𝑟𝑚𝑡)) 2 ] Riscriviamo 𝛽𝑗 in funzione dei rendimenti inattesi: 𝛽𝑗 = 𝐸[𝑈𝑗𝑡𝑈𝑚𝑡] 𝐸[𝑈𝑚𝑡 2 ] Dobbiamo riscrivere il CAPM come un modello di regressione lineare: 𝑟𝑗𝑡 − 𝑈𝑗𝑡 = 𝑟𝐹 + 𝛽𝑗[𝑟𝑚𝑡 − 𝑈𝑚𝑡 − 𝑟𝐹] 𝑟𝑗𝑡 = 𝑟𝐹 + 𝛽𝑗[𝑟𝑚𝑡 − 𝑟𝐹] + ⁡𝜀𝑗𝑡 𝑟𝑗𝑡 − 𝑟𝐹 = 𝛽𝑗[𝑟𝑚𝑡 − 𝑟𝐹] + ⁡𝜀𝑗𝑡 Denotiamo i rendimenti in eccesso con ?̃? : ?̃?𝑗𝑡 = 𝛽𝑗?̃?𝑚𝑡 +⁡𝜀𝑗𝑡 Dobbiamo verificare che l’ipotesi 1 e l’ipotesi 2 siano verificate nel CAPM: ▪ Verifico ipotesi 1: 𝐸(𝜀𝑗𝑡) = 0 ? 𝐸(𝜀𝑗𝑡) = 𝐸(𝑈𝑗𝑡 − 𝛽𝑗𝑈𝑚𝑡) = 𝐸(𝑈𝑗𝑡) − 𝛽𝑗𝐸(𝑈𝑚𝑡) = 𝐸 (𝑟𝑗𝑡 − 𝐸(𝑟𝑗𝑡)) − 𝐵𝑗 ⁡× 0 = 0 ▪ Verifico ipotesi 2: 𝑐𝑜𝑣(𝜀𝑗𝑡 , 𝑟𝑚𝑡) = 0 ? 𝑐𝑜𝑣(𝜀𝑗𝑡 , 𝑟𝑚𝑡 − 𝑟𝐹) = 𝐸 [(𝜀𝑗𝑡 − 𝐸(𝜀𝑗𝑡)) (𝑟𝑚𝑡 − 𝑟𝐹 − 𝐸(𝑟𝑚𝑡 − 𝑟𝐹))] = 𝐸[𝜀𝑗𝑡(𝑟𝑚𝑡 − 𝐸(𝑟𝑚𝑡))] = = 𝐸[(𝑈𝑗𝑡 − 𝛽𝑗𝑈𝑚𝑡)𝑈𝑚𝑡] = = 𝐸[𝑈𝑗𝑡𝑈𝑚𝑡 − 𝛽𝑗𝑈𝑚𝑡 2 ] = = 𝐸[𝑈𝑗𝑡𝑈𝑚𝑡] − 𝛽𝑗𝐸[𝑈𝑚𝑡 2 ] = = 𝐸[𝑈𝑗𝑡𝑈𝑚𝑡] − 𝐸[𝑈𝑗𝑡𝑈𝑚𝑡] 𝐸[𝑈𝑚𝑡 2 ] × 𝐸[𝑈𝑚𝑡 2 ] = = 𝐸[𝑈𝑗𝑡𝑈𝑚𝑡] − 𝐸[𝑈𝑗𝑡𝑈𝑚𝑡] = 0 𝐸(𝑟𝑗𝑡) 𝐸(𝑟𝑚𝑡) 𝑈𝑗𝑡 − 𝛽𝑗𝑈𝑚𝑡 12 Lezione 2 – 22 febbraio 2024 Nella scorsa lezione abbiamo definito il nostro CAPM, che è un modello per i rendimenti attesi, come modello di regressione lineare dove la variabile dipendente è data dal rendimento effettivo in eccesso rispetto al titolo risk free (?̃?𝑗𝑡), mentre, a destra dell’uguale abbiamo 𝛽𝑗 che moltiplica il rendimento effettivo in eccesso del portafoglio di mercato al tempo t (?̃?𝑚𝑡) più un termine di errore specifico del titolo j (𝜀𝑗𝑡)che abbiamo visto essere un termine composito dipendente dai rendimenti inattesi: ?̃?𝑗𝑡 =⁡𝛽𝑗?̃?𝑚𝑡 +⁡𝜀𝑗𝑡 Stimiamo 𝜷𝒋 quindi, il grado di reattività (sensitivity) dell’excess return rispetto al mercato, quindi, quanto il titolo j si co-muove rispetto al mercato. Differentemente dalle classiche regressioni lineari, in questo modello manca la costante: ?̃?𝑗𝑡 =⁡𝜶𝒋 + 𝛽𝑗?̃?𝑚𝑡 +⁡𝜀𝑗𝑡 Se stimiamo questa versione estesa del CAPM, la teoria economica alla base ci dice che la stima del coefficiente 𝜶𝒋 è pari a 0. L’ipotesi nulla implicita nel modello teorico del CAPM è che: 𝐻0:⁡⁡⁡⁡⁡⁡𝛼𝑗 = 0⁡⁡⁡⁡∀⁡𝑗 Se il CAPM è il modello corretto dei mercati finanziari, per ogni titolo dovremmo avere un 𝛼𝑗 = 0. Sappiamo dai giornali che, in realtà, non è così, anzi, ci sono degli 𝛼𝑗 ≠ 0: nello specifico esistono delle intere figure professionali (seeking alpha) che vivono di questo cioè che cercano appositamente titoli con 𝛼𝑗 > 0. Dal punto di vista economico, perché questo test di ipotesi deve essere condotto? Perché ci aspettiamo un 𝛼𝑗 = 0? Facciamo un passo indietro. Sulla base della relazione fondamentale del CAPM, quella che lega il rendimento atteso di un titolo al rendimento atteso di un portafoglio di mercato, rappresentiamo il grafico che sintetizza tale relazione: 𝐸(𝑟𝑗) 𝛽𝑗 𝐸(𝑟𝑚) 𝑟𝐹 0 1 𝑬(𝒓𝒋) = 𝒓𝑭 + 𝜷𝒋[𝑬(𝒓𝒎) − 𝒓𝑭] [] 𝛽𝑗 = misura di rischio rilevante per i singoli titoli 𝐸(𝑟𝑗) = rendimento atteso del titolo j 𝜶𝒋 Security Market Line 15 2. modelli dinamici: la variabile dipendente è influenzata dai propri valori passati, il classico esempio è dato dai modelli autoregressivi dove la variabile esplicativa è data dal valore passato della variabile dipendente. 𝑦𝑡 = 𝛽0 + 𝛽1𝑦𝑡−1 + 𝛽2𝑥𝑡 + 𝜀𝑡 Qualsiasi modello nel quale ci sia a destra dell’uguale la variabile dipendente ritardata o qualche sua trasformazione è un modello dinamico. OSSERVAZIONE: A volte nei libri ci sono degli autori che considerano un modello del tipo: 𝑦𝑡 = 𝛽0 + 𝛽1𝑥𝑡−1 + 𝜀𝑡 come un modello dinamico: l’idea che hanno è quella di considerare come tale ogni modello in cui ci sia una discrepanza temporale tra variabile dipendente e regressori. In realtà è un po’ una forzatura: affinché un modello possa essere considerato modello dinamico ci deve essere, in seguito ad un impulso di una variabile, una risposta nel tempo dinamica. Se cambiamo il valore di 𝑥𝑡−1 questo cambierà il valore di 𝑦𝑡 ma non cambia il valore di 𝑦𝑡+1 (a patto che non cambi 𝑥𝑡): 𝑦𝑡+1 = 𝛽0 + 𝛽1𝑥𝑡 + 𝜀𝑡 L’effetto si risolve nel momento stesso in cui avviene, quindi, soltanto al tempo 𝑡. 6 Se invece abbiamo un modello in cui il regressore è rappresentato dal ritardo della variabile dipendente, uno shock del regressore 𝑦𝑡−1 ha un effetto che non si risolve in un periodo, ma va avanti per molti periodi. Se sale 𝑦𝑡−1, salirà anche 𝑦𝑡; ma se sale 𝑦𝑡, salirà anche 𝑦𝑡+1 e così via. Possiamo concludere che il modello propriamente dinamico è solo quello in cui c’è la variabile dipendente ritardata tra i regressori. Modello Autoregressivo (AR) Nella versione più semplice il modello autoregressivo presenta un solo ritardo: AR (1) 𝑦𝑡 = 𝛽0 + 𝛽1𝑦𝑡−1 + 𝜀𝑡 Nella lezione precedente abbiamo detto che se viene violata l’ipotesi di assenza di autocorrelazione degli errori, quindi, l’ipotesi 4 in base alla quale la covarianza tra gli errori relative a due distinte osservazioni deve essere nulla7, in un modello di cross section e in un modello statico di serie storica si ha l’inefficienza dell’OLS (è corretto ma inefficiente); se si tratta di un modello di serie storiche dinamico, invece, la violazione di tale ipotesi implica la distorsione dell’OLS, quindi, è inaffidabile perché ci dà dei valori strutturalmente lontani da quelli che vogliamo stimare. - Perché l’autocovarianza degli errori implica distorsione dell’OLS in caso di un modello come questo? 6 Il professore considera gli ultimi due modelli presentati come modelli statici. 7 𝑐𝑜𝑣⁡(𝜀𝑖 , 𝜀𝑗) = 0⁡∀⁡𝑖, 𝑗 = 1, 2, … , 𝑁 con 𝑖 ≠ 𝑗 16 Per vederlo confrontiamo i seguenti modelli: 𝑦𝑡 = 𝛽0 + 𝛽1𝑦𝑡−1 + 𝜀𝑡 𝑦𝑡−1 = 𝛽0 + 𝛽1𝑦𝑡−2 + 𝜀𝑡−1 Ipotizziamo che 𝑐𝑜𝑣⁡(𝜀𝑡 , 𝜀𝑡−1) ≠ 0 quindi che venga violata l’ipotesi 4. Intuitivamente, se questi due termini sono correlati allora 𝜀𝑡−1 influenza il valore di 𝑦𝑡−1, ma 𝑦𝑡−1 è un regressore di 𝑦𝑡, quindi, una variazione di 𝜀𝑡−1 ha un impatto sul regressore della prima equazione. Perché questo è un problema? Pensando alle ipotesi dell’OLS, se c’è questa covarianza tra i termini di errore e c’è questa catena che lega 𝜀𝑡, 𝜀𝑡−1, 𝑦𝑡−1 , abbiamo come conseguenza che la covarianza tra 𝑦𝑡−1 e 𝜀𝑡 non sarà più necessariamente 0: 𝑐𝑜𝑣⁡(𝑦𝑡−1, 𝜀𝑡) ≠ 0. Rappresenta un problema perché viene violata l’ipotesi 2 che richiede che la covarianza dell’errore e del regressore sia nulla8. In un caso di un modello dinamico, quindi, la violazione dell’ipotesi 4 implica anche la violazione dell’ipotesi 2, segue che l’OLS non è semplicemente inefficiente ma anche distorto.9 Efficient Market Hypohesis (EMH) In mercati efficienti i prezzi dovrebbero istantaneamente incorporare tutte le informazioni disponibili, quindi, soltanto qualcosa di inaspettato che si verifica in questo istante potrebbe smuovere i prezzi. Dal punto di vista econometrico, ma non solo, l’ipotesi di mercati efficienti ha un’implicazione molto importante. Immaginiamo che il rendimento di un titolo segua un modello AR: (1.) 𝑟𝑡 = 𝛽0 + 𝛽1𝑟𝑡−1 + 𝜀𝑡 Quello che è successo nel passato dovrebbe influenzare la nostra previsione del rendimento di oggi: AR (1) 𝐸(𝑟𝑡|𝑟𝑡−1) = 𝛽0 + 𝛽1𝑟𝑡−1 Secondo l’ipotesi di mercati efficienti, invece, il valore atteso di 𝑟𝑡, conoscendo l’informazione passata, dovrebbe essere uguale al valore atteso 𝐸(𝑟𝑡) non condizionato: EMH 𝐸(𝑟𝑡|𝑟𝑡−1) = 𝐸(𝑟𝑡) Una delle implicazioni dell’ipotesi di mercato efficiente stabilisce che conoscere 𝑟𝑡−1, quindi, la storia passata, non deve avere alcun impatto sulle nostre previsioni dei rendimenti futuri. Il valore atteso condizionato, cioè nota l’informazione 𝑟𝑡−1, e il valore atteso non condizionato, quindi in assenza dell’informazione 𝑟𝑡−1, devono essere uguali. Conoscere 𝑟𝑡−1 non ci deve dare alcuna informazione utile per prevedere meglio il mercato: è ininfluente dal punto di vista di come formare le nostre previsioni. 8 𝑐𝑜𝑣⁡(𝜀𝑖 , 𝑥𝑗𝑖) = 0⁡∀⁡𝑗 9 Quando andremo a stimare questi modelli con i software, prima di trarre delle conclusioni sui coefficienti, dobbiamo sempre fare un test di autocorrelazione dei residui perché se il test non passa, quindi, se gli errori sono autocorrelati (o serialmente autocorrelati) allora le nostre stime non sono attendibili, quindi, dobbiamo cambiare modello. 17 Matematicamente abbiamo che: 𝐸(𝑟𝑡|𝑟𝑡−1) = 𝐸(𝑟𝑡) dove il valore atteso condizionato è 𝐸(𝑟𝑡|𝑟𝑡−1) = ⁡𝛽0 + 𝛽1𝑟𝑡−1 nell’ AR (1), mentre, il valore atteso non condizionato di 𝑟𝑡, dato il modello AR (1), è: (2.) 𝐸(𝑟𝑡) = ⁡𝛽0 + 𝛽1𝐸(𝑟𝑡−1) Se noi vogliamo calcolare in una serie storica stazionaria il valore atteso non condizionato, quindi, 𝐸(𝑟𝑡), allora prendiamo l’equazione (1.), mettiamo in valore atteso anche 𝑟𝑡−1 e per la stazionarietà10 il valore atteso 𝑟𝑡 deve essere uguale al valore atteso di 𝑟𝑡−1: 𝐸(𝑟𝑡) = ⁡𝐸(𝑟𝑡−1) Sostituiamo 𝐸(𝑟𝑡) al posto di 𝐸(𝑟𝑡−1) nella (2.) 𝐸(𝑟𝑡) = ⁡𝛽0 + 𝛽1𝑬(𝒓𝒕) e risolviamo per 𝐸(𝑟𝑡) ottenendo il valore atteso non condizionato: 𝐸(𝑟𝑡) = ⁡ 𝛽0 1 − 𝛽1 Il CAPM ci dà l’implicazione sul parametro 𝛼𝑗 che deve essere uguale a 0. L’ipotesi di mercati efficienti, quindi, che il valore atteso, noto il passato, è uguale al valore atteso non condizionato (in assenza dell’informazione passata), in altre parole, l’ipotesi secondo cui il passato è irrilevante nel formulare l’aspettativa, è matematicamente verificata quando 𝛽1 = 0. 𝐸(𝑟𝑡|𝑟𝑡−1) = 𝐸(𝑟𝑡) → 𝛽1 = 0 L’interpretazione economica è che se i mercati sono efficienti non ci deve essere una correlazione empirica tra i rendimenti di ieri e i rendimenti di oggi (se ci fosse, quindi, se 𝛽1 fosse significativo, allora potremmo usare l’informazione passata per fare profitto). Per 𝛽1 = 0 il rendimento è uguale a 𝛽0 + 𝜀𝑡 dove 𝜀𝑡 rappresenta un white noise. 10 Una variabile stazionaria non ha un trend di crescita nel tempo. 20 MATLAB – Stima OLS % Stima OLS di un modello di regressione lineare % % Modello di regressione lineare: % y(t) = beta0 + beta1 * x(t) + epsilon(t) % epsilon(t) ~ N(0,sigma^2) % Importiamo i dati >> dati = readmatrix("capm.xlsx"); Creo una matrice che si chiama ‘dati’ e per l’importazione uso il comando readmatrix vale a dire leggi una matrice esterna da (“nomefile.xlsx”). Il “;” dopo il comando evita che la soluzione venga riportata nella Command Window e salva direttamente il risultato della variabile nel Workspace. Apro ‘dati’ in Workspace > Seleziono la colonna 4 > PLOTS > Seleziono il primo plot. Rappresenta la serie storica del rendimento del settore Costruzioni. La prima colonna è come MATLAB rappresenta le date. % Definiamo le variabili y e x Definiamo la variabile dipendente e la variabile indipendente del nostro modello: >> y = dati(:,4); % excess return del settore costruzioni  comando B = A(righe, colonne) Vogliamo estrarre () dalla matrice dati la colonna 4 con tutte le righe “:”. >> plot(y) Comando per rappresentare il grafico di y: alternativa al metodo manuale visto in precedenza. >> x = dati(:,5); % excess return del portafoglio di mercato 21 % Numero di osservazioni >> T = size(dati,1); Vogliamo soltanto il numero di righe quindi prendimi () la dimensione size della matrice ‘dati’ ma solo la prima dimensione 1 (righe). Se mettiamo 2, prende il numero di colonne. % Aggiungiamo colonna di 1 ad x per stimare la costante >> X = [ones(T,1) x]; Creiamo la matrice X che deve avere un vettore di 1 di lunghezza T ones(T,1) – rif. comando A(righe, colonne) – e la seconda colonna è x che rappresenta la serie storica del rendimento del portafoglio di mercato. %%%%% Stima OLS dei parametri beta_ols = (X'*X)^(-1)*X'*y; % Run un solo comando Evidenziare il comando > tasto destro > Evaluate Selection in Command Window 22 Lezione 3 – 29 febbraio 2024 Abbiamo visto nella scorsa lezione come l’efficient market hypothesis (EMH) di teoria finanziaria ha, tra le varie implicazioni, per il modello autoregressivo, che il coefficiente autoregressivo che noi sBmiamo in una regressione dei rendimenB per il mercato azionario deve essere non significaBvamente diverso da 0. Ciò significa che l’informazione contenuta nei prezzi e nei rendimenB passaB non dovrebbe aiutarci a prevedere il futuro: questa è una conseguenza del faIo che i mercaB perfeIamente efficienB dovrebbero incorporare istantaneamente tuIa l’informazione disponibile, senza lasciare margine di guadagno basato su lo sfruIamento di informazioni precedenB. Stazionarietà – Serie storiche RappresenBamo il grafico di una serie storica in cui abbiamo il tempo 𝑡 in ascissa e la variabile 𝑦! in ordinata: normalmente una variabile stazionaria ha un profilo di questo Bpo con fluIuazioni più o meno frequenB che, grosso modo, tendono a fluIuare aIorno ad un valore medio senza mostrare trend di crescita sostenuta nel tempo. La non stazionarietà può avere molte forme. In campo economico, il profilo Bpico di una variabile non stazionaria come, ad esempio, il livello del PIL o il livello generale dell’indice dei prezzi, presenta delle fluIuazioni, ma anche una tendenza alla crescita. 𝑦! 𝑡 𝑦! 𝑡 25 Se c’è stazionarietà, per definizione, il valore aIeso è lo stesso a prescindere dal periodo temporale, quindi, 𝐸(𝑦!"#) = 𝐸(𝑦!) per cui oIeniamo: 𝐸(𝑦!) = 𝛽* + 𝛽#𝐸(𝑦!) + 𝐸(𝜀!) 𝐸(𝑦!) = 𝜇 = 𝛽* 1 − 𝛽# 2) 𝑉(𝑦!) = 𝐸[(𝑦! − 𝜇)%] = 𝛾* Nel caso di un modello AR (1) la varianza è data da12: 𝑉(𝑦!) = 𝛽#%𝑉(𝑦!"#) + 𝜎% Se c’è stazionarietà 𝑉(𝑦!) = 𝛾* e 𝑉(𝑦!"#) = 𝛾* cioè in qualsiasi periodo di tempo la varianza è sempre la stessa, quindi, risolviamo per 𝛾*: 𝛾* = 𝜎% 1 − 𝛽#% RICORDA: Se abbiamo una normale 𝑁(0, 𝜎%) e la molBplichiamo per un numero 𝑎 il risultato è una Normale 𝑁(0, 𝑎%𝜎%): ogni numero che mol6plica una variabile casuale quando viene portato nella varianza deve essere elevato al quadrato. Se sBmiamo un AR (1), quindi, e ci viene chiesto quale sia il valore aCeso di lungo periodo di questa variabile sappiamo che è il punto 1); se ci viene chiesto qual è la varianza di lungo periodo 13 sappiamo che è il punto 2). 3) 𝑐𝑜𝑣(𝑦! , 𝑦!"+) = 𝛾+ Procediamo per intuizione. Se 𝑘 fosse uguale a 0, la covarianza sarebbe la varianza di 𝑦! (la covarianza di una variabile con sé stessa è semplicemente la varianza), quindi, per 𝑘 = 0 avremo: 𝛾* = 𝜎% 1 − 𝛽#% 𝑝𝑒𝑟 𝑘 = 0 12 L’ipotesi è che 𝜀! sia una variabile i.i.d. cioè indipendente e iden)camente distribuita. Vedere ipotesi 2 della s9ma OLS. 13 Parliamo di lungo periodo perché si traIa di valori aGesi e varianze non condizionate cioè in assenza di informazioni sul recente passato, in generale, di qualsiasi informazione condizionante. Inoltre, se noi sBmiamo l’AR e lo uBlizziamo per prevedere il futuro, vediamo che le previsioni, man mano, convergono a quesB valori non condizionaB. = 𝛾* 26 Supponiamo che 𝑘 = 1, quindi, vogliamo calcolare la covarianza di 𝑦! con 𝑦!"#: 𝛾+ = 𝛽# 𝜎% 1 − 𝛽#% 𝑝𝑒𝑟 𝑘 = 1 Procedendo allo stesso modo per intuizione o dimostrazione formale troviamo che prendendo un generico 𝑡 − 𝑘 avremo: 𝛾+ = 𝛽#+ 𝜎% 1 − 𝛽#% Il professore non chiede la dimostrazione, ma ci fa fare questo passaggio perché ci servirà per spiegare l’argomento successivo. Autocorrelazione C’è un oggeIo molto usato in econometria che è l’autocorrelazione che è semplicemente la correlazione di 𝛾! con il proprio passato 𝛾!"+ . Calcoliamo l’autocorrelazione14 nel caso di un modello AR (1): 𝑐𝑜𝑟𝑟(𝑦! , 𝑦!"+) = 𝑐𝑜𝑣(𝑦! , 𝑦!"+) U𝑉(𝑦!) U𝑉(𝑦!"+) 𝜌+ = 𝛾+ 𝛾* = 𝜎% 1 − 𝛽#% 𝛽#+ 𝜎% 1 − 𝛽#% = 𝛽#+ TuIa questa analisi ci permeIe di ricavare il vincolo fondamentale parametrico che deve valere in un processo AR affinché la variabile sia stazionaria. - Posto che un processo AR dà ques9 risulta9 (verifica dei 3 momen9 della distribuzione), quale vincolo deve essere rispeGato sui parametri del processo AR affinché la variabile sia stazionaria? Quando abbiamo visto con la stazionarietà debole o in covarianza che la media, la varianza e la covarianza devono essere costan6, con il termine “costante” intendiamo anche valori fini9 15. Il vincolo richiesto per la stazionarietà è: ⇒ |𝛽#| < 1 per avere stazionarietà 14 Ricordiamo che la correlazione è data dalla covarianza diviso il prodo=o delle deviazioni standard. 15 Aggiungiamo questa cara=eris9ca nelle ipotesi esaminate ponendo µ, g0 e gk < ¥ . = 𝛾* = 𝛾* U𝛾* U𝛾* 𝛾+ autocorrelazione di ordine k 27 Econometria dei Merca; finanziari – Parte 2 IpoBzziamo un modello generico del Bpo: 𝑦! = 𝜇! + 𝜀! dove 𝜇! può essere, ad esempio, 𝛽#𝑥!. Calcoliamo i nostri residui di s6ma 𝜺𝒕[ , quali sono le caraGeris9che che vogliamo che essi abbiano? Vogliamo intanto verificare che siano idealmente omoschedas6ci e non autocorrela6 affinché siano rispeIate le ipotesi alla base del teorema di Gauss Markov sull’OLS. Ci concentriamo ora sull’eteroschedasBcità vale a dire sull’ipotesi che gli errori non abbiano varianza costante nel tempo bensì abbiano una volaBlità che cambia. Test di eteroschedas;cità Abbiamo diversi test per poter testare la presenza di eteroschedasBcità quali, ad esempio, il test di White o il test di Breusch-Pagan. Nell’ambito dei mercaB finanziari ci interessa una forma specifica di eteroschedas9cità. Nell’introduzione del corso16 abbiamo deIo che i nostri modelli dovrebbero teoricamente rifleIere delle caraIerisBche empiriche dei mercaB finanziari. Considerando i rendimenB del mercato azionario americano, abbiamo deIo che la vola6lità varia nel tempo, ma non in modo casuale/random (un giorno alta, un giorno bassa), piuIosto sembra esserci un pa9ern. In parBcolare, sembra che la volaBlità aumenB sopraIuIo a seguito di shock negaBvi. La vola6lità dei merca6 finanziari deve essere persistente. Cosa vuol dire? Guardando il grafico dei rendimenB, noBamo che ci sono dei periodi in cui la volaBlità per un anno, quasi due anni, è molto bassa come, ad esempio, tra il 2017 e il 2018. Ci sono poi dei periodi prolungaB di volaBlità, come ad esempio nel 2022, in cui le fluIuazioni sono più alte. Non c’è, quindi, una componente puramente casuale in cui un giorno la volaBlità è alta e il giorno dopo è bassa. Ci sono i cosiddeX cluster di vola6lità cioè periodi in cui la volaBlità bassa in un giorno viene seguita da volaBlità bassa anche nei giorni successivi o, al contrario, periodi in cui volaBlità alta viene seguita da altri giorni di volaBlità alta. Si formano, dunque, dei grappoli (cluster) di volaBlità in cui si alternano interi periodi di bassa volaBlità e interi periodi di alta volaBlità. C’è, quindi, della persistenza nella vola6lità e noi vogliamo che i nostri modelli di volaBlità, la nostra eteroschedas9cità degli errori abbia questa caraIerisBca. Non vogliamo semplicemente che gli errori siano eteroschedas6ci, ma anche che la loro eteroschedas6cità sia persistente nel tempo. 16 Rif. pag.3 30 - Quali limi9 devono soddisfare 𝛼* e 𝛼#? Per garanBre19 che 𝜎!% > 0 per ∀ 𝑡 dobbiamo imporre: • 𝛼* > 0 ® streCamente perché se 𝛼* = 0 e 𝛼# > 0 non garanBremmo la posiBvità della varianza; • 𝛼# ≥ 0 GRETL – Verifica (EMH) File > Apri daB > SP500_weekly.gdt > Seleziona SP500 > Tasto destro: Grafico serie storica OIeniamo la serie storica dell’indice S&P500 che abbiamo già visto nelle slides relaBva, in questo caso, ai valori seXmanali degli ulBmi 10 anni. - Come si testa la stazionarietà? METODO SBAGLIATO: Potremmo pensare sBmare un modello AR e verificare se 𝛽# = 1. 19 Se fosse 𝜎!" = 0 sarebbe un modello determinis)co ovvero non ci sarebbe nessuna variabilità (nessuna componente random). 31 Cliccare su ‘Ritardi…’ > Spuntare ‘Ritardi della variabile dipendente’ OIeniamo il seguente risultato: METODO CORRETTO: Il test che si svolge per la verifica della stazionarietà è il Test Dickey – Fuller. Variabile > Test di radice_unitaria 20 > Test Dickey – Fuller aumentato 20 Significa test di stazionarietà. 32 Nella finestra che si apre togliamo la spunta ‘con costante e trend’ ed oIeniamo il seguente risultato: Questo test ha come ipotesi nulla la non stazionarietà della variabile e come ipotesB alternaBva la stazionarietà della variabile. Il p-value, che rappresenta la probabilità di sbagliare se rifiuBamo l’ipotesi nulla correIa21, è pari al 67%, quindi, non rifiuBamo l’ipotesi nulla, dunque, la serie è non stazionaria. Non possiamo lavorare con la variabile non stazionaria, quindi, effeIuiamo una trasformazione prendendo il rendimento. Nella scorsa lezione abbiamo visto che è il rendimento è dato dalla variazione percentuale del valore di un Btolo più una componente che dipende dai dividendi22. In questa serie storica il prezzo, dunque, il valore dell’indice è aggiustato in modo tale da incorporare già l’informazione sui dividendi: ciò significa che se vogliamo calcolare il rendimento, basta calcolare la variazione di prezzo perché i dividendi sono già incorporaB. Calcoliamo i rendimen6 dell’indice S&P500 come tasso di variazione del prezzo. Definiamo il prezzo adjusted 𝑷∗che incorpora già le informazioni sui dividendi, per cui il rendimento al tempo (𝑡 + 1) è pari a: 𝑟!(# = 𝑃!(#∗ − 𝑃!∗ 𝑃!∗ Il tasso di variazione percentuale si approssima con la differenza logaritmica: 𝑟!(# ≅ ln (𝑃!(#∗ ) − ln (𝑃!∗) Torniamo in Gretl: Selezione la variabile ‘SP500’ > Aggiungi > Differenze logaritmiche delle variabili selezionate > Rinomina variabile con ‘r_SP500’ che rappresenta il rendimento dell’indice. 21 Se il p-value è molto alto non rifiu9amo l’ipotesi nulla; se è molto basso, in par9colare, so=o una certa soglia (normalmente il 5%), rifiu9amo l’ipotesi nulla. 22 Rif. pag.13 35 MATLAB – S;ma OLS Quando sBmiamo un modello ARCH andiamo, in realtà, a sBmare un modello congiunto di questo Bpo23: t 𝑦! = 𝛽* + 𝛽#𝑦!"# + 𝜀! 𝜎!% = 𝛼* + 𝛼#𝜀!"#% dove 𝐸(𝜀!%|𝐼!"#) = 𝜎!%. Abbiamo un modello per la variabile di interesse e un modello per la vola6lità degli errori. %%% Impor6amo i da6 >> daB = readmatrix("SP500.xls"); Aprendo la matrice ‘daB’ in MATLAB nella prima colonna abbiamo le date riportate con un numero idenBficaBvo, quindi, dobbiamo specificare al sodware che si traCa di date uBlizzando il comando: >> data_excel = daB(:,1); Al posto di usare i “:” si potrebbe usare “1: end” e il so|ware prende dalla prima all’ulBma riga in questo caso. Definiamo la nostra variabile S&P500: >> sp500 = daB(:,2); Vogliamo converitre la data da Excel a MATLAB: >> data = date6me(data_excel, 'ConvertFrom', 'excel'); Il comando prevede come primo input la serie storica delle date in Excel e poi occorre specificare da quale programma converBre. % Creiamo serie storica dei rendimen6 Calcoliamo il rendimento con la differenza logaritmica: >> r_sp500 = log(sp500(2:end))-log(sp500(1:end-1)); Prendiamo il logaritmo della variabile sp500 dalla seconda osservazione all’ulBma meno il logaritmo del veIore sp500 della prima osservazione alla penulBma. % Grafico di indice e rendimen6 Quando vogliamo dichiarare una figura uBlizziamo il comando figure e il numero: >> figure(1) Si crea uno spazio vuoto da riempire con gli oggeX che vogliamo. Vogliamo una figura con due righe e una colonna (un pannello sopra e un pannello soIo): >> subplot(2,1,1) Indica al so|ware di creare una figura dove ci sono 2 righe, 1 colonna e seleziona la prima riga. Nella prima riga andiamo a graficare il livello dell’indice: >> plot(data,sp500,'LineWidth',2) 23 Supponiamo che il modello che andiamo a s9mare per la nostra variabile 𝑦 sia un AR(1). AR(1) – ARCH(1) 36 Dobbiamo meIere prima la data che è la variabile sull’asse x, poi la variabile y che è l’sp500. >> Btle('Indice azionario S&P 500') >> subplot(2,1,2) >> plot(data(2:end),r_sp500) >> Btle('RendimenB giornalieri S&P 500') %%% Modello AR(1) per i rendimen6 % S6ma AR con OLS >> y = r_sp500(2:end); >> yrit = r_sp500(1:end-1); % crea ritardo y(t-1) >> T = size(y,1); >> X = [ones(T,1) yrit]; >> beta_ols = inv(X'*X)*X'*y; Sui daB giornalieri la costante è posiBva mentre il 𝛽# è negaBvo: quando cambiamo la frequenza di sBma del modello, sopraIuIo nei modelli dinamici come l’AR, il coefficiente può cambiare notevolmente anche di 37 segno. Il 𝜷𝟏 sebmanale posi6vo che abbiamo sBmato in Gretl e il 𝜷𝟏 giornaliero nega6vo appena sBmato ci dice che il rendimento seXmanale di oggi del mercato americano tende ad essere correlato posiBvamente con il rendimento della seXmana precedente; mentre, a livello giornaliero, se ieri c’è stato ad esempio un +10%, oggi tenderà ad andare giù24 e viceversa. %%% Test % Eteroschedas6cità condizionata: test ARCH Definiamo i residui: >> res = y – X*beta_ols; EffeIuiamo il test con la funzione archtest: >> [arch_rifiuta, arch_pvalue, arch_stat] = archtest(res, 'Lags', 15); Ci dà in output tre cose: la prima la variabile 0/1 che ci dà 0 se dobbiamo rifiutare o 1 se non dobbiamo rifiutare l’ipotesi nulla di omoschedas6cità; il secondo output è il p-value; il terzo output che ci dà è valore della staBsBca test 𝑇𝑅%. 24 Questo perché le persone quando vedono salire la borsa, tendono a vendere i 9toli (vendita in un momento favorevole) e questo eccesso di vendita tende a riportare un po’ giù i rendimen9. diamo i nomi agli output che ci darà la funzione Indichiamo i ritardi con ‘Lags’ seguito dal numero di ritardi che vogliamo. Modelli di volatilità Quando si parla di volatilità nei mercati finanziari, normalmente si intende l’ampiezza delle fluttuazione del valore di un titolo o di un portafoglio, quindi la variabilità delle variabili di mercato. Normalmente la misura standard di volatilità è deviazione standard σ (in alcuni casi viene indicata la varianza 𝜎𝜎2 con il termine volatilità). Perché la volatilità è importante in finanza? Dal punto di vista pratico: • È la classica misura di rischio, alla base di altre misure di rischio più complesse (permette quindi sia la valutazione del rischio sia la gestione del rischio stesso, rappresentando l’input per tali processi). • È un input dei modelli di pricing (utilizzati per calcolare il valore corretto di un titolo sul mercato) • I modelli di volatilità sono molto utilizzati per la cosiddetta asset allocation (tutti quei processi che hanno come scopo l’allocazione del portafoglio). Quali sono le caratteristiche empiriche dei mercati finanziari? • Volatilità variabili e persistente: non è costante, varia nel tempo, con periodi prolungati di bassa volatilità e periodi prolungati di alta variabilità. Questo fenomeno viene spesso indicato con l’espressione volatility clusting. Il modello ARCH è in grado di catturare tale punto • La distribuzione empirica dei rendimento non è normale, poiché presenta una fluttuosi maggiore rispetto alla normale (maggiore massa di probabilità al centro, quindi maggiore probabilità di avere rendimenti centrali), con la coda sinistra più alta (nelle distribuzioni con curtosi alta c’è maggiore probabilità di avere eventi estremi). Tale fenomeno si riflette a livello grafico nella presenza di code spesse. Il modello ARCH cattura anche questo secondo punto • La volatilità tende ad aumentare quando ci sono shock negativi, cioè quando il livello del mercato finanziario crolla, piuttosto che in situazione positive (in tal caso infatti la volatilità tende a diminuire). Questa asimmetria, motiva l’introduzione di modelli di volatilità che non sono ARCH (che, come il modello GARCH, non è in grado di cogliere questo terzo punto) Nei mercati finanziari emergenti, non sempre queste 3 caratteristiche vengono rispettate. Modello ARCH 1 Abbiamo: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 Per garantire 𝜎𝜎𝑡𝑡2 > 0 in ogni periodo, dobbiamo imporre due vincoli • 𝛼𝛼0 > 0 • 𝛼𝛼1 ≥ 0 Introduciamo ora la differenza tra distribuzione condizionata e distribuzione non condizionata. In generale, abbiamo il valore atteso della variabile x, condizionata la variabile y: 𝐸𝐸(𝑋𝑋|𝑌𝑌) In questo caso vogliamo calcolare il valore atteso della variabile x, conoscendo il valore atteso della variabile y. Questo prende il nome di valore atteso condizionato. 40 Il valore atteso non condizionato (detto anche marginale) è il valore atteso della variabile in assenza di informazioni aggiuntive: 𝐸𝐸(𝑋𝑋) Questa distinzione tra condizionato e non condizionato è fondamentale, perché i modelli di volatilità che stiamo analizzando sono modelli di volatilità condizionata. Infatti, quando scriviamo: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 Abbiamo che: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝑬𝑬(𝜺𝜺𝒕𝒕𝟐𝟐|𝑰𝑰𝒕𝒕−𝟏𝟏) Dove 𝐼𝐼𝑡𝑡−1 non è altro che il set informativo disponibile al tempo 𝑡𝑡 − 1. La varianza condizionata, non è concettualmente uguale alla varianza non condizionata, che normalmente indichiamo semplicemente come 𝐸𝐸(𝜀𝜀𝑡𝑡2), vale a dire la varianza in assenza di informazioni. A livello grafico: Supponiamo di avere al tempo T un set informativo 𝐼𝐼𝑇𝑇 e di voler fare una previsione su quella che sarà la volatilità al tempo 𝑇𝑇 + 1. Il modello ARCH ci dice che la varianza in un certo momento storico dipende dagli shock che si sono verificati di recente. Come vediamo dal grafico, nel periodo immediatamente precedente a T si sono verificati degli shock piccoli, veniamo quindi da una fase di mercato che non presenta grandi fluttuazioni. Il modello ARCH ci dice che, condizionatamente a questa informazione, possiamo aspettarci che domani, l’incertezza che avremo sul mercato azionario, vale a dire la varianza che ci aspettiamo, sia relativamente piccola. Concentriamoci ora sul periodo 𝑇𝑇2, immaginando di provenire da un periodo in cui gli shock sono stati consistenti: 41 Dovendo fare un previsione sulla varianza condizionata al tempo 𝑇𝑇2 + 1 ci aspetteremo che la distribuzione condizionata dei rendimento (immaginando sempre che sia una normale) avrà un’ampiezza molto maggiore rispetto a quella precedentemente riscontrata. Queste due diverse dispersioni sono le varianze condizionate che variano nel tempo. Avendo tutti i dati a disposizione per i vari periodi, a partire da essi realizziamo la distribuzione (che per convenzione rappresentiamo come normale, anche se abbiamo visto che empiricamente presenta delle differenze). Calcoliamo la deviazione standard della distribuzione σ, che non presenta il pedice t perché non è calcolata su un momento specifico, ma considera tutta la storia possibile del mercato. Questo σ rappresenta la volatilità non condizionata. Che relazione esiste tra la volatilità non condizionata di lungo periodo e la volatilità condizionata relativa ad un istante t? Concettualmente ci aspettiamo che la volatilità non condizionata rappresenti una sorta di media storica di tutti i periodi di mercato. Il modello ARCH quindi è un modello per la varianza condizionata. Tuttavia, dato il modello ARCH, cosa implica il modello stesso in termini di distribuzione non condizionata? Andiamo a calcolare sia la volatilità non condizionata di lungo periodo sia la curtosi di questa distribuzione marginale. Sappiamo che questa curtosi, se il modello è corretto, deve essere maggiore rispetto alla curtosi di una normale (pari a 3, Come calcoliamo la deviazione standard σ a partire dal modello ARCH? Partiamo applicando la legge delle aspettative iterate, la quale ci dice che il valore atteso non condizionato di una variabile generica x è uguale al valore atteso del valore atteso condizionato di x rispetto ad una seconda variabile y: 𝑬𝑬(𝑿𝑿) = 𝑬𝑬[𝑬𝑬(𝑿𝑿|𝒀𝒀)] Se la applichiamo al modello ARCH, quello che otteniamo è: 𝑬𝑬�𝜺𝜺𝒕𝒕𝟐𝟐� = 𝑬𝑬�𝑬𝑬�𝜺𝜺𝒕𝒕𝟐𝟐�𝑰𝑰𝒕𝒕−𝟏𝟏�� 42 Abbiamo ottenuto una distribuzione marginale non condizionata non normale, partendo dall’ipotesi che le distribuzioni condizionate siano normali. Quindi anche se le singole distribuzioni sono normali, la grande distribuzione media marginale non lo è. Questo risultato è singolare, perché ci aspetteremmo che la media sia normale. Questo non è il caso perché, immaginando che esistano solo due stati del mondo dei mercati finanziari: periodi di alta volatilità e periodi di bassa volatilità. Nell’ARCH, per 𝜎𝜎𝑡𝑡2, possiamo avere un numero infinito di valori. Assumiamo che ne esistano solo due, uno alto e uno basso. Abbiamo quindi periodi storici in cui la distribuzione condizionata è una normale con deviazione standard bassa 𝜎𝜎𝐵𝐵2 e periodi in cui abbiamo una normale con deviazione standard alta 𝜎𝜎𝐴𝐴2, come visibile nel seguente grafico: Immaginiamo ora che, in questo mercato, nel 50% dei periodi di mercato, la distribuzione condizionata sia: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝑬𝑬�𝜺𝜺𝒕𝒕𝟐𝟐�𝑰𝑰𝒕𝒕−𝟏𝟏� = 𝝈𝝈𝑩𝑩𝟐𝟐 E che, nell’altro 50% dei periodi di mercato, la distribuzione condizionata sia: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝑬𝑬�𝜺𝜺𝒕𝒕𝟐𝟐�𝑰𝑰𝒕𝒕−𝟏𝟏� = 𝝈𝝈𝑨𝑨𝟐𝟐 Statisticamente, in un modello del genere, definiamo due sole normali e immaginiamo di campionare casualmente tante osservazioni, dicendo che nel 50% dei casi avremo la normale rossa, e nel restante 50% avremo la normale verde. Creando un dataset di questo tipo, andando a calcolarne la distribuzione, normalmente questa distribuzione non è normale, ma prende il nome di mistura di normali. Quindi, come detto, in un modello ARCH, anche se assumiamo le singole distribuzioni come normali, con dei 𝜎𝜎𝑡𝑡2 che cambiano nel tempo, la distribuzione marginale di fatto è una mistura (una composizione di diversi normali) non normale. In questo specifico caso abbiamo anche dimostrato una specifica caratteristica, evidenziando la presenza di una curtosi maggiore di 3. L’ARCH è molto importante proprio perché ci permette di indagare distribuzioni non normali partendo da distribuzioni normali. Il vincolo 𝛼𝛼1 < 1 √3 è necessario per garantire che la curtosi sia definita e positiva, ma non strettamente per garantire che sia maggiore della normale (è una conseguenza). Tale risultato è garantito ogni qualvolta ci sia eteroschedisticità di tipo ARCH. 45 Molto spesso, per molti mercati, il modello ARCH per spiegare bene la dinamica di molti mercati, necessita di un numero elevato di ritardi (un ARCH 1 difficilmente spiega bene un mercato finanziario maturo), questo perché molti di questi ritardi sono significativi. Considerando ora un generico ARCH di ordine m: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + ⋯+ 𝜶𝜶𝒎𝒎𝜺𝜺𝒕𝒕−𝒎𝒎𝟐𝟐 Sappiamo che presenterà un valore elevato di m. Questo è un problema perché più è grande m, più parametri vanno stimati, rendendo il modello pesante. Questo problema si può ovviare mediante il modello GARCH (Generalized ARCH). Modello GARCH Tale modello è in grado di replicare esattamente il modello ARCH mediante l’ausilio di molti meno parametri. Il modello GARCH(m,p) è strutturato come: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + ⋯+ 𝜶𝜶𝒎𝒎𝜺𝜺𝒕𝒕−𝒎𝒎𝟐𝟐 + 𝜷𝜷𝟏𝟏𝝈𝝈𝒕𝒕−𝟏𝟏𝟐𝟐 + 𝜷𝜷𝟐𝟐𝝈𝝈𝒕𝒕−𝟐𝟐𝟐𝟐 + ⋯+ 𝜷𝜷𝒑𝒑𝝈𝝈𝒕𝒕−𝒑𝒑𝟐𝟐 I parametri α prendono il nome di parametri ARCH, mentre i parametri β vengono chiamati parametri GARCH. Il modello più semplice è il GARCH(1,1): 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + 𝜷𝜷𝟏𝟏𝝈𝝈𝒕𝒕−𝟏𝟏𝟐𝟐 Il GARCH ci dice che l’incertezza che abbiamo nel mercato finanziario dipende da due fattori: • L’incertezza dipende dagli shock recenti del mercato • L’incertezza di oggi dipende dall’incertezza di ieri Qual è il 𝐸𝐸(𝜀𝜀𝑡𝑡2) in assenza di informazione condizionante del modello GARCH? Per la legge delle aspettative iterate: 𝑬𝑬�𝜺𝜺𝒕𝒕𝟐𝟐� = 𝑬𝑬�𝝈𝝈𝒕𝒕𝟐𝟐� Nel modello GARCH: 𝑬𝑬�𝝈𝝈𝒕𝒕𝟐𝟐� = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝑬𝑬(𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 ) + 𝜷𝜷𝟏𝟏𝑬𝑬(𝝈𝝈𝒕𝒕−𝟏𝟏𝟐𝟐 ) Da quest’uguaglianza avremo che: 𝑬𝑬�𝝈𝝈𝒕𝒕𝟐𝟐� = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝑬𝑬(𝝈𝝈𝒕𝒕−𝟏𝟏𝟐𝟐 ) + 𝜷𝜷𝟏𝟏𝑬𝑬(𝝈𝝈𝒕𝒕−𝟏𝟏𝟐𝟐 ) Assumendo la stazionarietà debole, avremo che: 𝑬𝑬�𝝈𝝈𝒕𝒕𝟐𝟐� = �𝑬𝑬𝝈𝝈𝒕𝒕−𝟏𝟏𝟐𝟐 � = 𝝈𝝈𝒕𝒕𝟐𝟐 46 Quindi riscriviamo come: 𝝈𝝈𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝝈𝝈𝒕𝒕𝟐𝟐 + 𝜷𝜷𝟏𝟏𝝈𝝈𝒕𝒕𝟐𝟐 Da cui ricaviamo che: 𝝈𝝈𝟐𝟐 = 𝜶𝜶𝟎𝟎 𝟏𝟏 − (𝜶𝜶𝟏𝟏 + 𝜷𝜷𝟏𝟏) Per quanto riguarda i vincoli del modello, partiamo da quelli già visti nell’ARCH. Per garantire la positività, abbiamo che: 𝝈𝝈𝒕𝒕𝟐𝟐 > 𝟎𝟎 ∀𝒕𝒕 → 𝜶𝜶𝟎𝟎 > 𝟎𝟎,𝜶𝜶𝟏𝟏 > 𝟎𝟎,𝜷𝜷𝟏𝟏 > 𝟎𝟎 Per avere varianza finita: 𝝈𝝈𝒕𝒕𝟐𝟐 < ∞ → 𝜶𝜶𝟏𝟏 + 𝜷𝜷𝟏𝟏 < 𝟏𝟏 Per quanto riguarda la curtosi, vale lo stesso discorso già visto per il modello ARCH. Come detto, il GARCH: • Rappresenta una generalizzazione del modello ARCH • Risolve il problema della numerosità dei parametri del modello ARCH In che modo il GARCH risolve il problema della numerosità dei parametri da stimare nel modello ARCH? Per risolvere tale quesito partiamo considerando un GARCH(1,1): 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + 𝜷𝜷𝟏𝟏𝝈𝝈𝒕𝒕−𝟏𝟏𝟐𝟐 Procediamo per sostituzione dei 𝜎𝜎𝑡𝑡2 ritardati: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + 𝜷𝜷𝟏𝟏�𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟐𝟐𝟐𝟐 + 𝜷𝜷𝟏𝟏𝝈𝝈𝒕𝒕−𝟐𝟐𝟐𝟐 � Sviluppiamo il prodotto e otteniamo: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎 + 𝜶𝜶𝟏𝟏𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + 𝜶𝜶𝟎𝟎𝜷𝜷𝟏𝟏 + 𝜶𝜶𝟏𝟏𝜷𝜷𝟏𝟏𝜺𝜺𝒕𝒕−𝟐𝟐𝟐𝟐 + 𝜷𝜷𝟏𝟏𝟐𝟐𝝈𝝈𝒕𝒕−𝟐𝟐𝟐𝟐 E raccogliamo a fattor comune: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎(𝟏𝟏 + 𝜷𝜷𝟏𝟏) + 𝜶𝜶𝟏𝟏�𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + 𝜷𝜷𝟏𝟏𝜺𝜺𝒕𝒕−𝟐𝟐𝟐𝟐 � + 𝜷𝜷𝟏𝟏𝟐𝟐𝝈𝝈𝒕𝒕−𝟐𝟐𝟐𝟐 A questo punto possiamo sostituire 𝜎𝜎𝑡𝑡−22 applicando sempre la formula del GARCH: 𝝈𝝈𝒕𝒕𝟐𝟐 = 𝜶𝜶𝟎𝟎�𝟏𝟏 + 𝜷𝜷𝟏𝟏 + 𝜷𝜷𝟏𝟏𝟐𝟐� + 𝜶𝜶𝟏𝟏�𝜺𝜺𝒕𝒕−𝟏𝟏𝟐𝟐 + 𝜷𝜷𝟏𝟏𝜺𝜺𝒕𝒕−𝟐𝟐𝟐𝟐 + 𝜷𝜷𝟏𝟏𝟐𝟐𝜺𝜺𝒕𝒕−𝟑𝟑𝟐𝟐 � + 𝜷𝜷𝟏𝟏𝟑𝟑𝝈𝝈𝒕𝒕−𝟑𝟑𝟐𝟐 47 Estensioni GARCH: ASIMMETRIA Modello GJR-ARCH Entriamo nell’ambito delle estensioni del GARCH, in particolare, quelle che consentono di cogliere l’asimmetria nel comportamento dei mercati finanziari. Il modello più semplice per incorporare l’asimmetria è il modello GJR-GARCH (o Threshold GARCH) dove l’acronimo dipende dai 3 autori di questa estensione (Glosten, Jagannathan e Runkle). Consideriamo un modello GJR (1,1): GJR (1,1) 𝜎𝑡2 = ⁡𝛼0 + 𝛼1𝜀𝑡−12 + 𝛽1𝜎𝑡−12 +⁡𝛾1𝕀(𝜀𝑡−1 < 0)𝜀𝑡−12 abbiamo un coefficiente nuovo 𝛾1 che moltiplica una variabile dummy26 𝕀 che è uguale ad 1 se 𝜀𝑡−1 è stato negativo, altrimenti uguale a 0 se 𝜀𝑡−1 ≥ 0 . Il termine 𝛾1𝕀(𝜀𝑡−1 < 0)𝜀𝑡−12 distingue il modello GJR da un semplice GARCH. - Perché questa semplice estensione permette di generare l’asimmetria? Consideriamo l’effetto di 𝜀𝑡−12 (lo shock quadratico avvenuto ieri) su 𝜀𝑡2 (volatilità di oggi): • se 𝜀𝑡−1 > 0 allora 𝛼1; • se 𝜀𝑡−1 < 0 allora 𝛼1 + 𝛾1. Dovremo stimare 𝛼1 e 𝛾1 ma, a priori, ci aspettiamo che la stima di 𝜸𝟏 sia positiva perché vogliamo che l’incremento della volatilità sia maggiore quando c’è uno shock negativo. Varianza Marginale Vediamo ora qual è la varianza marginale del modello che ci dà la previsione di lungo periodo dei nostri modelli. Per la legge delle aspettative iterate possiamo imporre l’uguaglianza: 𝐸(𝜀𝑡2) = 𝐸(𝜎𝑡2) e per la stazionarietà: 𝐸(𝜎𝑡2) = 𝐸(𝜎𝑡−12 ) = 𝜎2 Per trovare la varianza marginale riscriviamo il modello sostituendo 𝜎𝑡2 e 𝜀𝑡2 ecc. con il 𝜎2 senza pedice temporale. Consideriamo il valore atteso del modello GJR: 𝐸(𝜎𝑡2) = ⁡𝛼0 + 𝛼1𝐸(𝜀𝑡−12 ) + 𝛽1𝐸(𝜎𝑡−12 ) +⁡𝛾1𝐸[𝕀(𝜀𝑡−1 < 0)(𝜀𝑡−12 )] (1.) 𝜎2 = ⁡𝛼0 + 𝛼1𝜎2 + 𝛽1𝜎2 +⁡𝛾1 … Ipotesi di simmetria della distribuzione di 𝜺𝒕: 𝐸[𝕀(𝜀𝑡−1 < 0)] = 1 2 ⁡× 1 + 1 2 ⁡× 0 = 1 2 26 Spesso in italiano viene chiamata funzione indicatrice vale a dire una funzione che dà valore 1 se una certa condizione è verificata, 0 altrimenti. 𝑝𝑟𝑜𝑏(𝜀𝑡−1 < 0) 𝑝𝑟𝑜𝑏(𝜀𝑡−1 > 0) 50 Sappiamo che il valore atteso dell’errore è 0, quindi, la distribuzione simmetrica è centrata sullo 0. Se 𝜀𝑡 è distribuito simmetricamente attorno allo 0 allora il valore atteso della dummy sarà dato nel 50% dei casi sotto lo 0 e nel restante 50% sopra lo 0: avremo la stessa probabilità di avere valori positivi e negativi. 𝐸[𝕀(𝜀𝑡−1 < 0)(𝜀𝑡−12 )] = 1 2⁡× 1 × 𝐸(𝜀𝑡−12 |𝜀𝑡−1 < 0) +⁡ 1 2⁡× 0 × 𝐸(𝜀𝑡−12 |𝜀𝑡−1 > 0) = = 1 2⁡× 1 × 𝐸(𝜀𝑡−12 |𝜀𝑡−1 < 0) Data la simmetria della nostra distribuzione, il fatto che ci sia stato un errore negativo o positivo cambia qualcosa sul valore atteso dell’errore al quadrato? No, perché la nostra distribuzione è simmetrica, quindi, il valore atteso dell’errore quadratico è indipendente dal fatto che siamo stati in territorio positivo o in territorio negativo perché sono identici. Possiamo, dunque, riscrivere il valore atteso come: 𝐸[𝕀(𝜀𝑡−1 < 0)(𝜀𝑡−12 )] = 1 2⁡× 𝐸(𝜀𝑡−12 ) L’informazione sul fatto che l’errore sia stato positivo o negativo è irrilevante per calcolare l’errore quadratico perché la distribuzione è simmetrica, quindi, possiamo togliere il condizionamento. 𝐸[𝕀(𝜀𝑡−1 < 0)(𝜀𝑡−12 )] = 1 2 ⁡×⁡𝜎 2 Riprendiamo la (1.) ed inseriamo l’ultimo termine: 𝜎2 = ⁡𝛼0 + 𝛼1𝜎2 + 𝛽1𝜎2 +⁡𝛾1 1 2𝜎 2 Risolviamo rispetto a 𝜎2 e otteniamo che il valore di equilibrio della varianza marginale è uguale a: 𝜎2 = ⁡ 𝛼0 1 − (𝛼1 + 𝛽1 + 1 2𝛾1) Ciò implica che: 𝛼1 + 𝛽1 +⁡𝛾1 1 2 < 1 . In questo modello, dunque, siamo andati ad inserire l’asimmetria nel modo più semplice possibile: siamo andati ad aggiungere una componente di volatilità che si attiva soltanto se l’errore che c’è stato è negativo. Exponential GARCH: EGARCH Guardiamo la seconda e un po’ più complicata estensione asimmetrica del GARCH: il cosiddetto Exponential GARCH o EGARCH. Rispetto ai modelli visti fino ad ora abbiamo una novità: la variabile dipendente non è la varianza al quadrato bensì il logaritmo della varianza al quadrato. Perché? La variabile 𝜎𝑡2 non può andare sotto lo 0, quindi, questo ci costringeva ad imporre dei vincoli sui coefficienti in maniera tale che in nessun caso il nostro modello potesse prevedere dei 𝜎𝑡2 negativi. Con 𝐥𝐧𝝈𝒕𝟐 non occorrono i vincoli perché il logaritmo può andare anche in territorio negativo (va da −⁡∞ a +⁡∞), quindi, ciò fa sì che non sia più necessario imporre vincoli per garantire 𝜎𝑡2 > 0. 51 Scriviamo il modello EGARCH la cui struttura è in parte simile al GARCH: ln𝜎𝑡2 = ⁡𝛼0 + 𝛽1 ln 𝜎𝑡−12 + 𝛼1 [ |𝜀𝑡−1| 𝜎𝑡−1 − 𝐸 ( |𝜀𝑡−1| 𝜎𝑡−1 )] +⋯ All’interno della parentesi quadra abbiamo il primo termine al numeratore presenta il valore assoluto |𝜀𝑡−1| e al denominatore 𝜎𝑡−1 : abbiamo il valore assoluto dell’errore standardizzato per la propria standard deviation27. Supponendo che finisca in questo modo (non c’è ancora asimmetria), il modello ci sta dicendo che la varianza logaritmica dipende da una costante, da un ritardo (come nel GARCH, solo che qui abbiamo il logaritmo) più un termine che non coglie l’asimmetria di mercato. Perché? Nei modelli ARCH e GARCH non veniva colta perché gli errori erano al quadrato; qui si perde l’informazione sul segno perché all’interno della parentesi quadra abbiamo i termini di errore in valore assoluto. Il termine aggiuntivo ci dice che se lo shock in valore assoluto è stato grande, questo tenderà a far aumentare la varianza: in altri termini, se l’errore in valore assoluto standardizzato per il proprio 𝜎 è stato maggiore del suo valore atteso (quello che ci aspettavamo), allora tenderà a far aumentare la varianza. - Perché standardizza l’errore? L’idea economica del GARCH è che non conti tanto l’ordine di grandezza dello shock che c’è stato ieri, ma l’ordine di grandezza parametrato alla fase di mercato in cui ci trovavamo: se lo shock di ieri è stato dell’ordine del 10% (non sappiamo se positivo o negativo perché in valore assoluto), nell’ARCH questo shock aveva sicuramente un impatto maggiore rispetto ad uno shock di 5 punti percentuali (quello che contava era il livello dell’ordine di grandezza dell’errore); nel GARCH dobbiamo tenere conto della fase di mercato in cui eravamo, quindi, se c’è stato uno shock dell’ordine del 10% ma eravamo in una fase di tranquillità per cui 𝜎𝑡−1 era molto basso, allora lo shock peserà tanto. Avremo un errore che è stato molto grande rispetto alla variabilità che ci aspettavamo. Lo stesso errore peserà molto meno se, invece, ieri vi era una situazione di grande incertezza (𝜎𝑡−1 molto grande), quindi, si era messo in conto che ci potessero essere degli sbalzi. L’idea di standardizzare è questa: non conta di per sé l’ordine di grandezza dell’errore, ma quanto ci ha sorpreso rispetto ai livelli di incertezza che stavamo sperimentando in quel momento. Lo shock standardizzato per la standard deviation di ieri tenderà ad aumentare la volatilità solo se è stato maggiore del suo valore atteso; se è stato minore, invece, il termine all’interno della parentesi quadra sarà negativo, quindi, la varianza tenderà a diminuire. La morale della favola è che in questa componente si tenga presente un effetto dello shock indipendente dal segno, ma dipendente dalla fase di mercato (in termini di 𝜎𝑡−1) in cui ci trovavamo. Si tratta di un termine complicato da interpretare, ma lo semplificheremo. Riprendiamo il modello e aggiungiamo il termine che cattura l’asimmetria: ln𝜎𝑡2 = ⁡𝛼0 + 𝛽1 ln 𝜎𝑡−12 + 𝛼1 [ |𝜀𝑡−1| 𝜎𝑡−1 − 𝐸 ( |𝜀𝑡−1| 𝜎𝑡−1 )] + 𝛾1 𝜀𝑡−1 𝜎𝑡−1 ci consente di catturare l’asimmetria perché non abbiamo il valore assoluto dell’errore. - Ci aspettiamo un 𝛾1 positivo o negativo? 27 Sappiamo che la standard deviation di 𝜀𝑡 è 𝜎𝑡. 52 Per verificare la validità del modello, noi sappiamo che gli 𝜀 sono eteroschedastici (test di eteroschedasticità dei residui), in particolare, sappiamo che la varianza cambia nel tempo ed è pari a 𝜎𝑡2 . C’è, però, una trasformazione dell’errore per cui, se noi abbiamo fatto bene il modello, non dovrebbe essere eteroschedastica e sono i nostri errori standardizzati. Se, invece, abbiamo stimato un 𝜎2̂ che non c’entra niente con la vera volatilità degli errori, allora l’errore standardizzato non è necessariamente omoschedastico. Un buon modello di volatilità ripulisce gli errori standardizzati da qualsiasi forma di eteroschedasticità. Occorre, quindi, fare un test ARCH su 𝑍?̂? = 𝜀?̂? 𝜎?̂?⁡ : il risultato NON deve rifiutare cioè 𝒁?̂? deve essere omoschedastico (se così non fosse, la nostra stima non sarebbe corretta); 2. il secondo step prevede per i modelli che passano il test i cosiddetti criteri informativi che sono due: • Akaike Information Criterion (AIC); • Bayesuan Information Criterion (BIC). Si tratta di funzioni di “penalità” che: - penalizzano i modelli con un maggiore numero di parametri; - favoriscono, a parità di tutto il resto, la cosiddetta “goodness of fit”29 che è la bontà di adattamento ai dati, quindi, quanto bene il modello si piega ai dati. Si tratta di due funzioni che fanno un bilanciamento: se consideriamo un modello con pochi parametri, ma che fitta male e un modello con tanti parametri, ma che fitta molto bene i dati, le funzioni sono costruite in maniera tale da bilanciare i due aspetti per stabilire quale modello preferire. Ciò che dobbiamo fare per scegliere il modello migliore, secondo questi due criteri, è quello che va a minimizzare queste funzioni di penalità (AIC/BIC). Quale scegliere tra AIC e BIC? Dipende: l’AIC tende a preferire modelli più grossi, il BIC molto il numero di parametri, ma non c’è uno migliore dell’altro. Normalmente c’è un leggera prevalenza del BIC perché è più facile lavorare con modelli piccoli. 29 Il classico esempio è l’indice di determinazione lineare 𝑅2. 55 Lezione 6 – 19/04/2024 Modelli di previsione: non si limitano ad analizzare eventi passati, ma mirano a produrre degli scenari di volatilità futuri. La principale applicazione dei modelli di volatilità futura consiste nella costruzione del Value at Risk, ad oggi la misura di rischio più utilizzata all’interno dei mercati finanziari e non solo (la BCE impone alle banche, secondo varie modalità, il calcolo del Value at Risk). Il value at risk è una misura molto semplice nella costruzione, ma molto potente, capace di indentificare un profilo di rischio all’interno di un portafoglio. Value at Risk (VaR) Il Value at Risk rappresenta la massima perdita, su un certo orizzonte d’investimento, a un dato livello di probabilità. Ovviamente, visto che dipende da probabilità e orizzonte temporale, il VaR è una misura di rischio relativa, non assoluta. ESEMPIO Se 𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜 = 𝑡𝑡, allora 𝑉𝑉𝑉𝑉𝑉𝑉𝑡𝑡 è uguale alla probabilità che la perdita al tempo 𝑡𝑡 + ℎ (dove h è l’orizzonte di investimento) sia maggiore o uguale al VaR e uguale a 1 − 𝛼𝛼 (dove α è il livello di probabilità che stiamo considerando): Se 𝒐𝒐𝒐𝒐𝒐𝒐𝒐𝒐 = 𝒕𝒕 𝑽𝑽𝑽𝑽𝑽𝑽𝒕𝒕 → 𝑷𝑷(𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒐𝒐𝒕𝒕𝑽𝑽𝒕𝒕+𝒉𝒉 ≥ 𝑽𝑽𝑽𝑽𝑽𝑽) = 𝟏𝟏 − 𝜶𝜶 Immaginiamo ora di avere un investimento, che ovviamente avrà un valore futuro incerto. Per semplicità, assumiamo che il nostro investimento segua una distribuzione di tipo normale. Immaginiamo poi che questa normale sia accentrata sul valore di investimento iniziale 𝑊𝑊0 (valore certo): A questo punto, ipotizziamo che, all’orizzonte prefissato, il valore del nostro investimento abbia come media il valore 𝑊𝑊0, con W che ovviamente oscilla a seconda delle fluttuazioni di mercato (graficamente si sposta a destra o a sinistra). 56 Supponiamo ora che 𝑾𝑾𝟎𝟎 = $𝟏𝟏𝟎𝟎𝟎𝟎, come indichiamo il VaR a livello grafico con un 𝜶𝜶 = 𝟗𝟗𝟗𝟗%? Ci concentriamo sulla coda sinistra della distribuzione (dal momento che siamo interessati alla massima perdita) e nello specifico su quel 5% che rappresenta i risultati peggiori: Per calcolare il VaR, facciamo riferimento al quinto percentile, vale a dire a quello specifico valore di W tale per cui c’è solo il 5% di probabilità alla sua sinistra. Chiamiamo questo percentile 𝑊𝑊∗. Il VaR, per come lo abbiamo definito, è dato dalla differenza 𝑊𝑊0 −𝑊𝑊∗, che a livello grafico non è altro che la distanza tra 𝑊𝑊0 e 𝑊𝑊∗: Quindi, se 𝑊𝑊∗ = $60, sapendo che 𝑊𝑊0 = $100, il 𝑉𝑉𝑉𝑉𝑉𝑉 = 100 − 60 = $40 $40 è una perdita tale per cui esiste solo il 5% di possibilità di fare peggio. Questa modalità di calcolo è tipicamente indicata come VaR assoluto, nel senso che la perdita viene calcolata rispetto al valore iniziale dell’investimento, sottoforma di differenza. Normalmente, nel sistema finanziario, si è più interessati ad una seconda misura, vale a dire il VaR relativo. Concettualmente è molto simile rispetto a quello assoluto, ma la perdita non viene calcolata rispetto all’investimento iniziale 𝑊𝑊0, bensì rispetto al valore atteso dell’investimento ad una data futura: 𝑽𝑽𝑽𝑽𝑽𝑽 𝒑𝒑𝒑𝒑𝒓𝒓𝑽𝑽𝒕𝒕𝒐𝒐𝒓𝒓𝒐𝒐 = 𝑬𝑬(𝑾𝑾) −𝑾𝑾∗ 57 Eravamo arrivati alla seguente definizione del VaR: 𝑽𝑽𝑽𝑽𝑽𝑽 = 𝑬𝑬(𝑾𝑾𝑻𝑻+𝟏𝟏) −𝑾𝑾𝑻𝑻+𝟏𝟏 ∗ Se sostituiamo ai due termini della differenza i valori appena trovati, otteniamo: 𝑽𝑽𝑽𝑽𝑽𝑽 = 𝑾𝑾𝑻𝑻[𝟏𝟏 + 𝝁𝝁𝑻𝑻+𝟏𝟏] −𝑾𝑾𝑻𝑻(𝟏𝟏 + 𝒑𝒑𝑻𝑻+𝟏𝟏∗ ) Raccogliamo per 𝑊𝑊𝑇𝑇 e otteniamo: 𝑽𝑽𝑽𝑽𝑽𝑽 = 𝑾𝑾𝑻𝑻[𝟏𝟏 + 𝝁𝝁𝑻𝑻+𝟏𝟏 − 𝟏𝟏 − 𝒑𝒑𝑻𝑻+𝟏𝟏∗ ] Semplifichiamo e ci rimane: 𝑽𝑽𝑽𝑽𝑽𝑽 = 𝑾𝑾𝑻𝑻[𝝁𝝁𝑻𝑻+𝟏𝟏 − 𝒑𝒑𝑻𝑻+𝟏𝟏∗ ] Ora andiamo a studiare la differenza tra il rendimento medio e il quinto percentile. Per fare questa analisi dobbiamo prima fare un ipotesi sulla distribuzione del rendimento, per capire come si relazionano media e percentile. Ricorriamo all’ipotesi più ovvia, ovvero che il rendimento al tempo 𝑇𝑇 + 1 sia distribuito come una normale con media 𝜇𝜇𝑇𝑇+1 e varianza 𝜎𝜎𝑇𝑇+12 : 𝒐𝒐𝒑𝒑𝒐𝒐𝒕𝒕𝒑𝒑𝒊𝒊𝒐𝒐 𝒑𝒑𝑻𝑻+𝟏𝟏∗ ~ 𝑵𝑵(𝝁𝝁𝑻𝑻+𝟏𝟏;𝝈𝝈𝑻𝑻+𝟏𝟏𝟐𝟐 ) La varianza tipicamente è a previsione di un modello di volatilità, che ci permette di dare un input per il calcolo delle misure di rischio. Per formulare l’ipotesi, sfruttiamo una proprietà della distribuzione normale. Noi vogliamo studiare il quinto percentile e sappiamo che il valore numero di questo percentile dipenderà da parametri specifici della normale (se cambiano media e varianza della distribuzione, di conseguenza cambia anche il valore del percentile). È molto più pratico lavorare con una normale standardizzata, che presenta dati più semplici ed omogenei. Ci sono delle tabelle per la normale standardizzata che permettono di calcolare il valore del percentile, senza bisogno di cambiare di volta in volta il valore del percentile in seguito a variazioni dei parametri della distribuzione (media e varianza). Quello che vogliamo fare è stabilire una relazione tra un qualsiasi normale (con una generica media e una generica varianza) e la normale standardizzata che presenta sempre i medesimi parametri e gli stessi percentili. Data una generica normale 𝑵𝑵�𝝁𝝁;𝝈𝝈𝟐𝟐�, come posso scriverla in funzione della normale standardizzata 𝑵𝑵(𝟎𝟎;𝟏𝟏)? Occorre ricordare che, se moltiplichiamo una normale standardizzata per un numero, tale operazione si rifletterà sulla media e sulla varianza (dove la moltiplicazione verrà elevata al quadrato): 𝝈𝝈𝑵𝑵(𝟎𝟎;𝟏𝟏) = 𝑵𝑵(𝟎𝟎;𝝈𝝈𝟐𝟐) 60 Mentre se ad una normale standardizzata sommiamo un numero, tale operazione si rifletterà solo sulla media, con la varianza che rimarrà invariata: 𝝁𝝁 + 𝑵𝑵(𝟎𝟎;𝟏𝟏) = 𝑵𝑵(𝝁𝝁;𝟏𝟏) Quindi, mettendo insieme le due cose, giungiamo alla relazione che lega una qualsiasi normale con una normale standardizzata di media 0 e varianza 1: 𝑵𝑵(𝝁𝝁;𝝈𝝈𝟐𝟐) = 𝝁𝝁 + 𝝈𝝈𝑵𝑵(𝟎𝟎;𝟏𝟏) Ma quindi, essendo nota questa relazione, come possiamo riscrivere il percentile 𝒑𝒑𝑻𝑻+𝟏𝟏∗ ? Sappiamo che, per ipotesi, rT+1∗ è la realizzazione di una normale con media 𝜇𝜇𝑇𝑇+1 e varianza 𝜎𝜎𝑇𝑇+12 : 𝒐𝒐𝒑𝒑𝒐𝒐𝒕𝒕𝒑𝒑𝒊𝒊𝒐𝒐 𝒑𝒑𝑻𝑻+𝟏𝟏∗ ~ 𝑵𝑵(𝝁𝝁𝑻𝑻+𝟏𝟏;𝝈𝝈𝑻𝑻+𝟏𝟏𝟐𝟐 ) Utilizzando la proprietà della normale precedentemente introdotta, riscriviamo il percentile come: 𝒑𝒑𝑻𝑻+𝟏𝟏∗ = 𝝁𝝁𝑻𝑻+𝟏𝟏 + 𝝈𝝈𝑻𝑻+𝟏𝟏𝒛𝒛𝟏𝟏−𝜶𝜶 Dove 𝑧𝑧1−𝛼𝛼 rappresenta lo specifico valore che ci interessa, vale a dire il quinto percentile della normale standardizzata. Tale valore critico della normale prende il nome di z score. Ovviamente, visto che nel nostro esempio consideravamo il quinto percentile, avremo che 𝛼𝛼 = 95%. Per quanto riguarda la normale standardizzata, a livello grafico avremo: 61 Se andiamo a inserire nel grafico il percentile 𝑧𝑧𝛼𝛼 il grafico diventa: E notiamo subito come 𝑧𝑧1−𝛼𝛼 e 𝑧𝑧𝛼𝛼 siano perfettamente simmetrici. Ma quindi, che relazione esiste tra 𝒛𝒛𝟏𝟏−𝜶𝜶 e 𝒛𝒛𝜶𝜶? Sono identici in valore assoluto ma divergono per il segno: 𝒛𝒛𝟏𝟏−𝜶𝜶 = −𝒛𝒛𝜶𝜶 _______________________________________________________________________________________ Ritornando ora al calcolo del VaR, eravamo rimasti alla seguente definizione: 𝑽𝑽𝑽𝑽𝑽𝑽 = 𝑾𝑾𝑻𝑻(𝝁𝝁𝑻𝑻+𝟏𝟏 − 𝒑𝒑𝑻𝑻+𝟏𝟏∗ ) Sostituendo ora all’interno della parentesi il valore di rT+1∗ che abbiamo trovato, otteniamo: 𝑽𝑽𝑽𝑽𝑽𝑽 = 𝑾𝑾𝑻𝑻(𝝁𝝁𝑻𝑻+𝟏𝟏 − 𝝁𝝁𝑻𝑻+𝟏𝟏 − 𝝈𝝈𝑻𝑻+𝟏𝟏𝒛𝒛𝟏𝟏−𝜶𝜶) Semplifichiamo la media e ci rimane: 𝑽𝑽𝑽𝑽𝑽𝑽 = −𝑾𝑾𝑻𝑻𝝈𝝈𝑻𝑻+𝟏𝟏𝒛𝒛𝟏𝟏−𝜶𝜶 Per cambiare il segno, facciamo riferimento alla relazione che lega z1−α e zα: E otteniamo la formula finale per il calcolo del VaR. 𝑽𝑽𝑽𝑽𝑽𝑽 = 𝑾𝑾𝑻𝑻𝝈𝝈𝑻𝑻+𝟏𝟏𝒛𝒛𝜶𝜶 62 Per questione di praticità ci conviene lavorare con la correlazione (misura che fornisce la stessa informazione della covarianza ma che a differenza di quest’ultima oscilla sempre tra -1 e 1 a prescindere dalla scala del fenomeno analizzato). Come passiamo dalla covarianza alla correlazione? Applicando la seguente relazione: 𝑪𝑪𝑪𝑪𝑽𝑽𝑽𝑽(𝑿𝑿,𝒀𝒀) = 𝑪𝑪𝑪𝑪𝑽𝑽(𝑿𝑿,𝒀𝒀) 𝑺𝑺𝑺𝑺(𝑿𝑿)𝑺𝑺𝑺𝑺(𝒀𝒀) Dalla quale ci ricaviamo: 𝑪𝑪𝑪𝑪𝑽𝑽(𝑿𝑿,𝒀𝒀) = 𝑪𝑪𝑪𝑪𝑽𝑽𝑽𝑽(𝑿𝑿,𝒀𝒀) ∗ 𝑺𝑺𝑺𝑺(𝑿𝑿) ∗ 𝑺𝑺𝑺𝑺(𝒀𝒀) Adattando la formula generale al nostro caso specifico e indicando la correlazione tra titolo A e titolo B con la lettera greca 𝜌𝜌𝐴𝐴𝐵𝐵, otteniamo la varianza di portafoglio riscritta come: Il VaR per un portafoglio di 2 titoli viene quindi calcolato come: CALCOLO DEL VaR DI UN PORTAFOGLIO DI 2 TITOLI – ESEMPIO 𝝈𝝈𝑨𝑨 = 𝝈𝝈𝑩𝑩 = 𝟏𝟏𝟎𝟎% = 𝟎𝟎,𝟏𝟏 𝑾𝑾𝟎𝟎 = €𝟏𝟏𝟎𝟎𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎 𝜶𝜶𝑨𝑨 = 𝟗𝟗𝟗𝟗% 𝝆𝝆𝑨𝑨𝑩𝑩 = 𝟎𝟎,𝟐𝟐 1. Considerare un portafoglio investito tutto nel titolo A (quindi 𝒘𝒘𝑨𝑨 = 𝟏𝟏) e calcolare il VaR del portafoglio Per prima cosa dobbiamo calcolare la varianza di portafoglio: 𝝈𝝈𝑷𝑷𝟐𝟐 = 𝟏𝟏 ∗ 𝟎𝟎,𝟏𝟏𝟐𝟐 + 𝟎𝟎 ∗ (𝟏𝟏 − 𝟏𝟏)𝟐𝟐 + 𝟐𝟐 ∗ 𝟏𝟏 ∗ (𝟏𝟏 − 𝟏𝟏) ∗ 𝟎𝟎,𝟐𝟐 ∗ 𝟎𝟎,𝟏𝟏 ∗ 𝟎𝟎,𝟏𝟏 = 𝟎𝟎,𝟎𝟎𝟏𝟏 + 𝟎𝟎 + 𝟎𝟎 = 𝟎𝟎,𝟎𝟎𝟏𝟏 Dalla quale ricaviamo la deviazione standard del portafoglio 𝝈𝝈𝑷𝑷 = �𝝈𝝈𝑷𝑷𝟐𝟐 = �𝟎𝟎,𝟎𝟎𝟏𝟏 = 𝟎𝟎,𝟏𝟏 𝑽𝑽𝑽𝑽𝑽𝑽𝑷𝑷 = 𝑾𝑾𝟎𝟎𝝈𝝈𝑷𝑷𝒛𝒛𝜶𝜶 𝝈𝝈𝑷𝑷𝟐𝟐 = 𝒘𝒘𝑨𝑨 𝟐𝟐𝝈𝝈𝑨𝑨𝟐𝟐 + 𝒘𝒘𝑩𝑩 𝟐𝟐𝝈𝝈𝑩𝑩𝟐𝟐 + 𝟐𝟐𝒘𝒘𝑨𝑨𝒘𝒘𝑩𝑩𝝆𝝆𝑨𝑨𝑩𝑩𝝈𝝈𝑨𝑨𝝈𝝈𝑩𝑩 65 In questo caso si poteva fare a meno del calcolo, perché dal momento che il portafoglio si compone esclusivamente del titolo A, il rischio del portafoglio equivale al rischio del singolo titolo. Ora possiamo calcolare il VaR, che sarà uguale a: 𝑽𝑽𝑽𝑽𝑽𝑽𝑷𝑷 = 𝟏𝟏𝟎𝟎𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎 ∗ 𝟎𝟎,𝟏𝟏 ∗ 𝟏𝟏,𝟔𝟔𝟗𝟗 = €𝟏𝟏𝟔𝟔.𝟗𝟗𝟎𝟎𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎 2. Considerare un portafoglio investito equamente tra A e B (quindi 𝒘𝒘𝑨𝑨 = 𝒘𝒘𝑩𝑩 = 𝟎𝟎,𝟗𝟗) Seguiamo lo stesso procedimento appena visto: 𝝈𝝈𝑷𝑷𝟐𝟐 = 𝟎𝟎,𝟗𝟗𝟐𝟐 ∗ 𝟎𝟎,𝟏𝟏𝟐𝟐 + 𝟎𝟎,𝟗𝟗𝟐𝟐 ∗ 𝟎𝟎,𝟏𝟏𝟐𝟐 + 𝟐𝟐 ∗ 𝟎𝟎,𝟗𝟗 ∗ 𝟎𝟎,𝟗𝟗 ∗ 𝟎𝟎,𝟐𝟐 ∗ 𝟎𝟎,𝟏𝟏 ∗ 𝟎𝟎,𝟏𝟏 = 𝟎𝟎,𝟎𝟎𝟎𝟎𝟔𝟔 𝝈𝝈𝑷𝑷 = �𝟎𝟎,𝟎𝟎𝟎𝟎𝟔𝟔 = 𝟎𝟎,𝟎𝟎𝟎𝟎𝟎𝟎𝟗𝟗 𝑽𝑽𝑽𝑽𝑽𝑽𝑷𝑷 = 𝟏𝟏𝟎𝟎𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎.𝟎𝟎𝟎𝟎𝟎𝟎 ∗ 𝟎𝟎,𝟎𝟎𝟎𝟎𝟎𝟎𝟗𝟗 ∗ 𝟏𝟏,𝟔𝟔𝟗𝟗 = €𝟏𝟏𝟐𝟐.𝟎𝟎𝟖𝟖𝟎𝟎.𝟗𝟗𝟎𝟎𝟎𝟎 Quindi, diversificando in due titoli che presentano bassa correlazione e il medesimo livello di rischio, piuttosto che investire su un unico titolo, abbiamo ottenuto un VaR minore. Se in questo caso avessimo avuto una correlazione pari ad 1, avremmo ottenuto lo stesso risultato in termini di VaR. Questo ci fa capire che con massima correlazione viene meno il beneficio derivante dalla diversificazione dell’investimento. 66 67 Lezione 7 – 03 maggio 2024 VaR con n titoli Oggi ci occupiamo di due estensioni del Value at Risk prima di passare ai modelli vettoriali: la prima estensione è una generalizzazione ad n titoli. Vale sempre la formula generale del VaR relativo sotto l’ipotesi di normalità cioè: 𝑉𝑎𝑅𝑃 = 𝑊𝜎𝑃𝑧𝛼 dove il nostro 𝑉𝑎𝑅𝑃è uguale all’ammontare investito (𝑊) moltiplicato per la standard deviation di portafoglio (𝜎𝑃) per il valore critico rilevante di una Normale standardizzata (𝑧𝛼). - Cosa cambia nel passaggio da 2 ad n titoli? Cambia come si calcola la varianza di portafoglio. Nel caso di n titoli l’idea per il calcolo della varianza è la stessa del caso di 2 titoli: la varianza di portafoglio dipenderà dalle varianze dei singoli titoli, dalle covarianze tra i titoli e dalla quota investita dai diversi titoli (pesi) esattamente come nel caso a 2. In questo caso, però, utilizziamo l’algebra matriciale: 𝑤 = [ 𝑤1 𝑤2 ⋮ 𝑤𝑛 ] ∑ = [ 𝜎1 2 𝜎12 … … … 𝜎21 𝜎2 2 … … ⋮ 𝜎31 𝜎32 𝜎3 2 ⋮ ⋮ ⋮ … … ⋱ ⋮ 𝜎𝑛1 …⁡ … … 𝜎𝑛 2] chiamiamo con: - 𝒘 il vettore colonna che contiene tutti i pesi degli n titoli; - ∑⁡ definiamo la matrice di varianza-covarianza tra tutti i titoli (che implicitamente abbiamo usato anche nel caso a 2) dove lungo la diagonale abbiamo le varianze dei singoli titoli, mentre, fuori dalla diagonale abbiamo le covarianze tra titoli (matrice simmetrica: la covarianza tra il primo e il secondo titolo è uguale alla covarianza tra il secondo e il primo titolo). La cosa importante è che la generalizzazione ad n titoli della formula per la varianza di portafoglio, che abbiamo visto con 2 titoli, è molto semplice. Con n titoli la varianza di portafoglio è una forma quadratica dove il vettore dei pesi trasposto (𝑤′) viene moltiplicato per la matrice di varianza-covarianza (∑) moltiplicata a sua volta per il vettore dei pesi non trasposto (𝑤): 𝜎𝑃 2 = 𝑤′𝛴⁡𝑤 Si tratta della formula generale: se facciamo il calcolo con 2 soli titoli, troviamo la formula che abbiamo visto in precedenza31 . In Matlab vedremo meglio successivamente, dovremo: calcolare la matrice di varianza- covarianza a partire dai dati sui rendimenti; creare un vettore dei pesi che rappresenta le quote che vogliamo investire sui vari titoli; calcolare 𝜎𝑃 2 con la formula generale e a quel punto sarà immediato calcolare il VaR. 31 Rif. pag.64 70 VaR su un generico orizzonte h > 1 La seconda estensione del VaR che consideriamo fa riferimento ad orizzonti maggiori di 1: nella lezione precedente abbiamo fatto riferimento ad un VaR che presupponeva un 𝑡 + 1 (può essere un giorno dopo, un mese dopo, un anno dopo sulla base della frequenza con cui abbiamo stimato il modello: ad esempio, se stimiamo il modello sulla base di dati mensili, il 𝑡 + 1 vuol dire il prossimo mese). Possiamo definire una generalizzazione del VaR su un orizzonte 𝑡 + ℎ sotto alcune ipotesi semplificatrici. Abbiamo visto che per calcolare il VaR dobbiamo conoscere e fare delle operazioni sulla distribuzione dei rendimenti, cosa succede se calcoliamo il valore di un investimento su un orizzonte più lungo? Sappiamo che il rendimento al tempo 𝑡 lo abbiamo definito con un’approssimazione logaritmica (variazione logaritmica del prezzo): 𝑟𝑡 = ln(𝑃𝑡) − ln(𝑃𝑡−1) ≈ 𝑃𝑡 − 𝑃𝑡−1 𝑃𝑡−1 che è pari ad un’approssimazione del tasso di crescita del prezzo. Se prendiamo il prezzo (valore di mercato del nostro investimento) ad un generico 𝑡 + ℎ possiamo scriverlo come: ln 𝑃𝑡+ℎ = ln 𝑃𝑡 + (ln 𝑃𝑡+1 − ln 𝑃𝑡) + (ln 𝑃𝑡+2 − ln 𝑃𝑡+1) + ⋯+ (ln 𝑃𝑡+ℎ − ln 𝑃𝑡+ℎ−1) Svolgendo questo calcolo notiamo che si va ad eliminare tutto e rimarrà alla fine soltanto 𝑃𝑡+ℎ (si tratta di un’identità). Essendo (ln 𝑃𝑡+1 − ln 𝑃𝑡) = 𝑟𝑡+1 , quindi, (ln 𝑃𝑡+ℎ − ln 𝑃𝑡+ℎ−1) = 𝑟𝑡+𝑛 troviamo che per calcolare il valore del nostro investimento ad un orizzonte ℎ , noi dobbiamo avere la somma di tutti i rendimenti da 𝑡 + 1 a 𝑡 + ℎ (non soltanto del 𝑡 + 1 come abbiamo visto nella lezione precedente). Siamo partiti dall’idea che il Value at Risk inizialmente è una misura di rischio relativa al valore di mercato del nostro investimento al nostro orizzonte di riferimento: ciò che ci interessa sapere è la distribuzione del prezzo o del valore di mercato che dipendono dalla somma dei rendimenti che si susseguono nell’orizzonte di riferimento. La varianza di questo titolo (supponiamo sia uno solo) sarà: 𝑉𝑎𝑟𝑖𝑎𝑛𝑧𝑎⁡(𝑟𝑡+1 + 𝑟𝑡+2 + ⋯+ 𝑟𝑡+ℎ) Per calcolare questa varianza si fa l’ipotesi semplificatrice che i rendimenti siano non autocorrelati cioè che ci sia covarianza nulla tra i rendimenti in periodi di tempi diversi. La varianza del titolo, sotto tale ipotesi, sarà semplicemente la somma delle varianze di tutti i periodi fino all’orizzonte dell’investimento: ∑⁡𝑣𝑎𝑟𝑖𝑎𝑛𝑧𝑎(𝑟𝑡+𝑖) ℎ 𝑖=1 Il VaR ad un orizzonte h sarà: 𝑉𝑎𝑅𝑃 = 𝑊𝜎𝑃𝑧𝛼 = 𝑊√∑𝜎𝑡+𝑖 2 ℎ 𝑖=1 𝑧𝛼 𝜎𝑡+1 2 orizzonte h 71 Nei mercati finanziari, molto spesso, occorre semplificare e avere delle formule molto facili da comunicare: il VaR è uno di questi casi. Posto il risultato appena ottenuto, molto spesso troveremo un’ulteriore semplificazione di questa formula cioè sotto l’ipotesi di omoschedasticità dei rendimenti: ∑ ⁡𝜎𝑡+1 ⟶ ℎ 𝑖=1 ⁡𝜎2ℎ Il VaR diventa quindi: 𝑉𝑎𝑅𝑃 = 𝑊𝜎𝑃𝑧𝛼 = 𝑊𝜎√ℎ⁡𝑧𝛼 Questa formula richiede che l’omoschedasticità sia una buona approssimazione. È comodo perché ci consente di passare ai VaR di orizzonti diversi molto rapidamente. Modelli Autoregressivi Vettoriali (VAR) Finora abbiamo visto modelli univariati: un AR, i modelli di volatilità dove c’è una sola variabile che dobbiamo modellare. Nell’AR c’è l’idea di un modello dinamico in cui il valore di oggi una variabile di interesse dipende da quello che è successo alla variabile nei tempi precedenti. Non ci sono, però, interazioni con altre variabili e ciò diventa problematico in un contesto finanziario in cui non possiamo studiare un mercato in isolamento. Abbiamo bisogno di modelli che abbiano dentro una dinamica (ciò che ha effetto in un periodo deve avere effetto anche nei periodi successivi) ma che tengano conto anche delle interazioni tra diverse variabili e/o diversi mercati/aree geografiche. I modelli autoregressivi vettoriali34 consentono di studiare le interazioni o tra diverse variabili economico-finanziarie all’interno di una stessa economia/Paese o le interazioni tra diversi mercati (vedere cosa succede ad una variabile se un’altra variabile del sistema subisce uno shock). Consideriamo il caso più semplice con 2 variabili in serie storia che sono 𝑦1𝑡 e 𝑦2𝑡. L’equazione per 𝑦1𝑡 sarà: 𝑦1𝑡 = 𝑎10 + 𝑎11𝑦1,𝑡−1 + 𝑎12𝑦2,𝑡−1 +⁡𝜀1𝑡 dove: - 𝑎10 è una costante: il pedice 1 indica che si riferisce alla variabile 1, mentre, lo 0 che si tratta di una costante; - il coefficiente 𝑎11 moltiplica il ritardo della variabile 1 (𝑦1,𝑡−1): fino a qui sarebbe un modello AR; - ciò che è nuovo è il coefficiente 𝑎12 che moltiplica l’effetto dell’altra variabile (𝑦2,𝑡−1) sulla variabile 1; - 𝜀1𝑡 è il termine di errore. Scriviamo simmetricamente l’equazione per la variabile 2: 𝑦2𝑡 = 𝑎20 + 𝑎21𝑦1,𝑡−1 + 𝑎22𝑦2,𝑡−1 +⁡𝜀2𝑡 34 Distinguiamo l’acronimo dei modelli autoregressivi vettoriali (in inglese Vector Autoregression da cui VAR) con le lettere maiuscole per non confonderlo con l’acronimo del Value at Risk (VaR). Il termine vettoriale fa rifermento al fatto che si tratta di modelli multivariati dove, quindi, ci sono più variabili dipendenti 72 Abbiamo un sistema di 2 equazioni da stimare congiuntamente dove i parametri da stimare sono i coefficienti 𝑎: cominciamo già da qui a vedere un tipo di interazione dinamica che c’è tra le diverse variabili perché quello che succede alla variabile 𝑦2 al tempo 𝑡 − 1 si ripercuote sul valore odierno della variabile 1; viceversa, se cambia la variabile 1, al tempo successivo cambierà anche 𝑦2. Ogni volta che c’è uno shock 𝜀⁡che colpisce una variabile, questo innesca un effetto domino per cui, ad esempio, pensando ai mercati (Europa e USA) immaginiamo ci sia uno shock negativo oggi in Europa (𝜀 va molto giù): inizialemente non succede nulla, però, rapidamente anche gli USA si aggiustano. Come? Nel senso che il grosso shock negativo porta giù 𝑦1 a parità di tutto il resto, nel tempo successivo quando calcoliamo 𝑦2 sul mercato americano troveremo un 𝑦1,𝑡−1 molto basso perché crollato nel periodo precedente (ciò porterà giù anche il mercato americano); nel periodo dopo questo entrerà nell’equazione numero 1 e manderà ulteriormente giù il mercato europeo. C’è, quindi, un sistema dinamico di aggiustamento per cui lo shock iniziale viene amplificato o dà il via ad un aggiustamento dinamico che poi arriva a convergenza (ad un certo punto si ferma e arriva ad un nuovo livello di equilibrio determinato dall’entità di questo shock). Ciò che ci preme sottolineare è il grado di interazione e la dinamicità di questa interazione. Scriviamo le formule appena viste in forma matriciale, dunque, creiamo un vettore colonna che contiene le nostre variabili di interesse dipendenti 𝑦: [ 𝑦1𝑡 𝑦2𝑡 ] = ⁡ [ 𝑎10 𝑎20 ] + [ 𝑎11 𝑎12 𝑎21 𝑎22 ] × [ 𝑦1,𝑡−1 𝑦2,𝑡−1 ] + [ 𝜀1𝑡 𝜀2𝑡 ] Generalizziamo il caso ad n variabili35: [ 𝑦1𝑡 𝑦2𝑡 ⋮ 𝑦𝑛𝑡 ] = ⁡[ 𝑎11 𝑎12 … 𝑎1𝑛 𝑎21 𝑎22 … ⋮ ⋮ ⋮ ⋱ ⋮ 𝑎𝑛1 … … 𝑎𝑛𝑛 ] × [ 𝑦1,𝑡−1 𝑦2,𝑡−1 ⋮ 𝑦𝑛,𝑡−1 ] + [ 𝜀1𝑡 𝜀2𝑡 ⋮ 𝜀𝑛𝑡 ] Fin qui abbiamo sempre considerato un unico ritardo VAR (1), ma possiamo generalizzare al caso di p ritardi: 𝑦𝑡 = 𝐴1𝑦𝑡−1 + 𝐴2𝑦𝑡−2 + ⋯+⁡𝐴𝑝𝑦𝑡−𝑝 + 𝜀𝑡⁡ Questo modello serve soprattutto per studiare le interrelazioni tra variabili e, soprattutto, come rispondono le altre variabili del sistema quando avviene uno shock ad una variabile. Il caso tipico che gli economisti finanziari studiano è supporre che in un certo periodo temporale non ci siano shock su quasi tutte le variabili e ci sia uno shock solo su una variabile: quest’ultimo, tramite le interrelazioni che ci sono fra tutte le variabili in questo sistema, deve avere delle ripercussioni a cascata su tutte le altre variabili. La domanda, quindi, è: se c’è uno shock su una variabile, come si muovono tutte le altre dinamicamente? I VAR rendono possibile rispondere a questa domanda: utilizzano uno strumento che si chiama funzione di risposta all’impulso (IRF) vale a dire funzioni che mostrano le risposte di tutte le variabili all’impulso cioè allo shock di una variabile. 35 Per semplicità trascuriamo la costante. 𝑦𝑡 𝑦𝑡−1 𝐴1 𝑎 yt (𝑛×1) ⬚ yt−1 (𝑛×1) A1 (𝑛×𝑛) 𝜀𝑡 εt (𝑛×1) VAR (p) Per produrre delle previsioni a partire da un modello con più ritardi, è molto utile e pratico cercare di riscrivere il modello in modo alternativo. In generale, è molto più facile calcolare le previsioni di un VAR(1) piuttosto che di un VAR(p). Dobbiamo quindi trovare un modo per passare dal VAR(p) che abbiamo attualmente ad un più semplice VAR(1), sul quale faremo le nostre previsioni, dalle quali ricaveremo le IRF. Per far ciò, scriviamo il VAR(p) nella sua forma companion, vale a dire riscrivere il VAR(p) come un semplice VAR(1). Partiamo immaginando di avere il seguente vettore: Di dimensioni 𝑁𝑁𝑁𝑁 𝑥𝑥 1. Scriviamo ora il primo ritardo di questo vettore: A questo punto, creiamo una matrice dei coefficienti: 75 • La prima riga rossa è la specificazione del VAR(p) • La colonna in blu, al netto del primo elemento, è una colonna di matrici di 0 • Il blocco centrale in verde rappresenta una matrice diagonale a blocchi, che presenta sulla diagonale tutte matrici identità e tutte matrici di 0 al di fuori della diagonale medesima Facendo questo, di fatto abbiamo riscritto il VAR(p) in forma di VAR(1). La matrice dei coefficienti ha dimensione 𝑁𝑁𝑁𝑁 𝑥𝑥 𝑁𝑁𝑁𝑁. Riscrivendo la relazione che lega queste tre matrici, abbiamo: Ovviamente a destra dell’uguale dobbiamo poi sommare il vettore rappresentativo della componente casuale: Ottenendo quindi: 76 La cui formula è: 𝒀𝒀𝟏𝟏 = 𝑽𝑽𝒀𝒀𝟏𝟏−𝟏𝟏 + 𝑬𝑬𝟏𝟏 Definendo in questo modo queste maxi-matrici di vettori, abbiamo definito il VAR(p) che avevamo inizialmente come un VAR(1). Per quanto riguarda la matrice A, essa non è composta da tutti coefficienti da stimare. Gli unici coefficienti che vanno stimati sono quelli nel blocco rosso in alto, mentre tutto il resto è rappresentato da matrici identità (quindi pari a 1) e matrici di 0 (quindi pari a 0). Una volta scritto il VAR nella sua forma companion, usiamo questo VAR(1) che abbiamo ricavato per fare delle previsioni future. In cocreto andiamo a vedere come realizzare delle previsioni ad un tempo futuro rispetto al tempo t attuale, scrivendo queste previsioni in funzione degli shock che impattano sulle variabili. È proprio la relazione tra shock e previsioni che ci permetterà di calcolare le IRF. Qual è quindi la previsione di 𝑌𝑌𝑡𝑡 al tempo immediatamente successivo, quindi 𝑡𝑡 + 1? Conoscendo 𝑌𝑌𝑡𝑡 e conoscendo la matrice dei coefficienti A, possiamo calcolare la previsione2 futura semplicemente applicando il VAR: 𝒀𝒀𝟏𝟏+𝟏𝟏 = 𝑽𝑽𝒀𝒀𝟏𝟏 + 𝑬𝑬𝟏𝟏+𝟏𝟏 Possiamo ovviamente sviluppare la formula di partenza, sostituendo a 𝑌𝑌𝑡𝑡 la formula che abbiamo trovato in precedenza, ottenendo: 𝒀𝒀𝟏𝟏+𝟏𝟏 = 𝑽𝑽(𝑽𝑽𝒀𝒀𝟏𝟏−𝟏𝟏 + 𝑬𝑬𝟏𝟏) + 𝑬𝑬𝟏𝟏+𝟏𝟏 Sviluppiamo ora il prodotto, scogliendo la parentesi: 𝒀𝒀𝟏𝟏+𝟏𝟏 = 𝑽𝑽𝟏𝟏𝒀𝒀𝟏𝟏−𝟏𝟏 + 𝑽𝑽𝑬𝑬𝟏𝟏 + 𝑬𝑬𝟏𝟏+𝟏𝟏 A questo punto raccogliamo tra parentesi tutti i termini che presentano la E, ottenendo: 𝒀𝒀𝟏𝟏+𝟏𝟏 = 𝑽𝑽𝟏𝟏𝒀𝒀𝟏𝟏−𝟏𝟏 + (𝑬𝑬𝟏𝟏+𝟏𝟏 + 𝑽𝑽𝑬𝑬𝟏𝟏) Abbiamo riscritto il valore futuro di 𝑌𝑌 in funzione del suo valore passato 𝑌𝑌𝑡𝑡−1 e degli errori presenti e futuri (𝐸𝐸𝑡𝑡 e 𝐸𝐸𝑡𝑡+1). A questo punto andiamo “avanti nel tempo”, continuando a sostituire. Scriviamo quindi la formula di 𝑌𝑌𝑡𝑡+2 seguendo la stessa logica che ci ha permesso di definire la formula di 𝑌𝑌𝑡𝑡+1: 𝒀𝒀𝟏𝟏+𝟏𝟏 = 𝑽𝑽𝒀𝒀𝟏𝟏+𝟏𝟏 + 𝑬𝑬𝟏𝟏+𝟏𝟏 2 Tecnicamente, quando si calcola la previsione futura si fa riferimento al valore atteso di 𝑌𝑌𝑡𝑡+1, ma per la spiegazione andiamo a considerare direttamente 𝑌𝑌𝑡𝑡+1 per praticità 77 Quindi, il valore del nostro vettore delle variabili dipendenti all’orizzonte 𝑡𝑡 + ℎ sarà dato da: 𝒚𝒚𝟏𝟏+𝒉𝒉 = 𝑱𝑱𝑽𝑽𝒉𝒉+𝟏𝟏𝒀𝒀𝟏𝟏−𝟏𝟏 + �𝑱𝑱𝑽𝑽𝒊𝒊 𝒉𝒉 𝒊𝒊=𝟎𝟎 𝑬𝑬𝟏𝟏+𝒉𝒉−𝒊𝒊 Ora manca solo un ultimo step. Come già detto, vogliamo vedere la risposta del vettore di n variabili 𝑦𝑦𝑡𝑡+ℎ agli shock avvenuti al tempo t nelle n variabili. Così come abbiamo avuto bisogno di estrarre 𝑦𝑦𝑡𝑡+ℎ partendo da 𝑌𝑌𝑡𝑡+ℎ, dobbiamo fare lo stesso passaggio per trovare il valore di ε (per ora, nella formula appena scritta compare E, non ε). Come facciamo ad estrarre ε da E? Seguiamo un procedimento simile a quello già visto quando siamo passati da 𝑌𝑌𝑡𝑡+ℎ a 𝑦𝑦𝑡𝑡+ℎ. Partiamo dal vettore 𝐸𝐸𝑡𝑡+ℎ−𝑖𝑖, che presenta la seguente struttura: Ovviamente anche in questo caso non siamo interessati al vettore nella sua interezza, ma solamente al primo termine, vale a dire 𝜀𝜀𝑡𝑡+ℎ−𝑖𝑖. Anche in questo caso, per estrarre tale valore dovremo moltiplicare il vettore per una matrice di sostituzione tale per cui sia garantita l’osservanza della regola delle dimensioni che caratterizza i prodotti matriciali. Dal momento che 𝐸𝐸𝑡𝑡+ℎ−𝑖𝑖 ha dimensione 𝑛𝑛𝑁𝑁 𝑥𝑥 1 e che 𝜀𝜀𝑡𝑡+ℎ−𝑖𝑖 ha dimensione 𝑛𝑛 𝑥𝑥 1, la matrice di sostituzione che andrà moltiplicata a 𝜀𝜀𝑡𝑡+ℎ−𝑖𝑖 dovrà necessariamente avere dimensione pari a 𝑛𝑛𝑁𝑁 𝑥𝑥 𝑛𝑛: 𝒏𝒏𝒑𝒑 𝒙𝒙 𝟏𝟏 = 𝒏𝒏𝒑𝒑 𝒙𝒙 𝒏𝒏 𝒏𝒏 𝒙𝒙 𝟏𝟏 Il procedimento è di fatto molto simile a quello già incontrato, con la differenza che come matrice di sostituzione in questo caso non abbiamo J, bensì la sua trasposta: 80 Ottenendo quindi la seguente relazione: 𝑬𝑬𝟏𝟏+𝒉𝒉−𝒊𝒊 = 𝑱𝑱′ 𝜺𝜺𝟏𝟏+𝒉𝒉−𝒊𝒊 A questo punto, sfruttando questo risultato, possiamo ora riscrivere la precedente formula di 𝑦𝑦𝑡𝑡+ℎ, andando a sostituire a 𝐸𝐸𝑡𝑡+ℎ−𝑖𝑖 il suo valore in funzione di 𝜀𝜀𝑡𝑡+ℎ−𝑖𝑖: 𝒚𝒚𝟏𝟏+𝒉𝒉 = 𝑱𝑱𝑽𝑽𝒉𝒉+𝟏𝟏𝒀𝒀𝟏𝟏−𝟏𝟏 + �𝑱𝑱𝑽𝑽𝒊𝒊𝑱𝑱′ 𝜺𝜺𝟏𝟏+𝒉𝒉−𝒊𝒊 𝒉𝒉 𝒊𝒊=𝟎𝟎 Quella in rosso è la formula calcolatoria delle funzioni di risposta all’impulso (IRF), vale a dire quel prodotto che ci indica come il vettore delle variabili del VAR, per ogni variabile, risponde, i periodi dopo, allo shock che si era originariamente formato al tempo t. L’IRF quindi ci indica la risposta unitaria allo shock. La risposta dell’intero sistema verrà data dall’IRF moltiplicata per il valore degli shock. Per comodità, chiamiamo 𝐹𝐹𝑖𝑖 la matrice rappresentativa del prodotto 𝐽𝐽𝐴𝐴𝑖𝑖𝐽𝐽′: 𝑰𝑰𝒊𝒊 = 𝑱𝑱𝑽𝑽𝒊𝒊𝑱𝑱′ Tale matrice avrà dimensione 𝑛𝑛 𝑥𝑥 𝑛𝑛: 𝒏𝒏 𝒙𝒙 𝒏𝒏 = 𝒏𝒏 𝒙𝒙 𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑 𝒙𝒙 𝒏𝒏𝒑𝒑 𝒏𝒏𝒑𝒑 𝒙𝒙 𝒏𝒏 Come si interpreta questa matrice 𝐹𝐹𝑖𝑖? Ciascun elemento della matrice è la risposta della generica variabile j, appartenente al vettore 𝑦𝑦𝑡𝑡, al tempo 𝑡𝑡 + 𝑖𝑖 ad uno shock verificatosi sulla generica variabile k al tempo t, data da l’elemento (𝑗𝑗,𝑘𝑘) della matrice 𝐹𝐹𝑖𝑖, con 𝑗𝑗,𝑘𝑘 = 1,2 …𝑛𝑛 Come già detto, 𝐹𝐹𝑖𝑖 rappresenta la risposta unitaria. In generale, possiamo dire che la risposta di un sistema, per un generico vettore di shock 𝜀𝜀𝑡𝑡, i periodi avanti, sarà data da: 𝑰𝑰𝒊𝒊 ∗ 𝜺𝜺𝟏𝟏 = 𝑱𝑱𝑽𝑽𝒊𝒊𝑱𝑱′𝜺𝜺𝟏𝟏 Dove il prodotto in rosso va a definire le cosiddette IRF in forma ridotta, che rappresentano il nucleo dell’analisi, a prescindere dalla tipologia di shock considerata. _______________________________________________________________________________________ Sappiamo quindi che, dato il vettore di shock 𝜀𝜀𝑡𝑡, il nostro sistema 𝑦𝑦𝑡𝑡+𝑖𝑖 darà una risposta pari a 𝐹𝐹𝑖𝑖𝜀𝜀𝑡𝑡. Tuttavia, all’interno di questo prodotto, troviamo gli shock di tutte le variabili, mentre molto spesso, nelle indagini econometriche, siamo interessati ad isolare lo shock di una specifica variabile, “spegnendo” tutti gli altri shock. 81 Come possiamo isolare l’effetto di uno shock specifico sulla variabile k? Iniziamo prendendo la matrice che ci fornisce le IRF unitarie, quindi 𝐽𝐽𝐴𝐴𝑖𝑖𝐽𝐽′, moltiplicandola per un vettore strutturato come segue: Vale a dire un vettore che presenta tutti shock nulli tranne quello della variabile k di nostro interesse5. Nonostante possa sembrare logico, questo approccio risulta inadeguato Perché è inadeguato? Non possiamo assumere l’esistenza di un unico shock sulla specifica variabile d’interesse, spegnendo tutti gli altri, questo perché normalmente, gli shock di variabili diverse sono correlati fra di loro. All’atto pratico, in un VAR, abbiamo che: 𝒄𝒄𝒄𝒄𝒄𝒄(𝜺𝜺𝒌𝒌𝟏𝟏, 𝜺𝜺𝒋𝒋𝟏𝟏) ≠ 𝟎𝟎 Se poi consideriamo la matrice di varianza e covarianza Σ𝜀𝜀 che caratterizza il VAR: Che in questo specifico caso chiamiamo 𝐸𝐸(𝜀𝜀𝑡𝑡𝜀𝜀′𝑡𝑡). Normalmente, la matrice varianza-covarianza, come abbiamo visto anche nel VaR, non è diagonale. Infatti, i valori al di fuori della diagonale (quindi le covarianze tra le diverse variabili) non sono nulli. 5 In questo specifico caso abbiamo assunto, come variabile k di interesse, la seconda del sistema 82 A questo punto possiamo fare le ipotesi viste in precedenza per quanto riguarda la struttura di 𝑢𝑢𝑡𝑡: 85 Lezione 9 – 17 maggio 2024 Nella lezione precedente abbiamo ricavato le funzioni di risposta all’impulso (IRF) a partire dai modelli VAR, quindi, le funzioni che indicano come il sistema VAR risponde a shock in specifiche variabili. Abbiamo ricavato inizialmente le IRF in forma ridotta cioè le risposte agli shock originali 𝜀 e, in particolare, abbiamo visto che sono date da un’espressione che è la seguente: 𝐹𝑖 = 𝐽𝐴𝑖𝐽′ Queste sono le IRF in forma ridotta unitarie vale a dire per una unità di 𝜀 assunta come shock: questo termine andrà poi moltiplicato per gli shock effettivi. Queste IRF sono già sufficienti a determinare la risposta dinamica rispetto ai nostri shock originali, però, abbiamo visto che, tipicamente, siamo interessati non a vedere la risposta ad un “minestrone” di shock indistinto, ma a selezionare uno shock che ci interessa e a studiare l’impatto di quello shock per capire quella dinamica economica: ad esempio, come una determinata politica monetaria influenzi il PIL o come uno shock dell’inflazione influenzi i consumi delle famiglie. Siamo solitamente interessati ad isolare gli effetti di uno shock cioè a simulare lo shock di una variabile assumendo che gli shock per tutte le altre variabili siano 0. Le IRF in forma ridotta non sono adeguate a questo compito perché gli shock originali sono tipicamente correlati tra variabili, quindi, non è opportuno simulare lo shock su una variabile assumendo che tutti gli altri siano uguali a 0. - Come riusciamo ad isolare l’effetto di uno shock su una variabile specifica? Non consideriamo gli shock originali bensì una loro trasformazione: gli shock strutturali, che hanno matrice di varianza-covarianza diagonale cioè sono incorrelati tra di loro. Questo ci consente di simularne uno solo alla volta e assumere che gli altri siano uguali a 0. Facendo le IRF strutturali, cioè rispetto a tali shock strutturali, abbiamo ottenuto che le IRF che ci consentono di analizzare l’effetto del singolo shock si possono scrivere come: 𝐹𝑖 (𝑐ℎ𝑜𝑙) = 𝐽𝐴𝑖𝐽′𝑃 dove 𝐽 è la matrice di selezione (fatta soltanto di 1 e 0), 𝐴𝑖 matrice companion dei coefficienti del VAR e 𝑃 è la matrice (triangolare inferiore con elementi positivi sulla diagonale principale) tale per cui la matrice di varianza-covarianza degli errori si può scrivere come Σ = 𝑃𝑃′. Non c’è una IRF giusta o sbagliata tra quelle in forma ridotta e quelle strutturali: le prime andrebbero moltiplicate per un vettore di shock per tutte le variabili, quindi, assumendo che tutte siano “shockate” contemporaneamente per cui ci danno comunque una misura della risposta al sistema, ma una risposta ad un vettore di shock e non ad un singolo shock; mentre la seconda formulazione ci consente di stimare il singolo shock. Dobbiamo dimostrare che gli shock strutturali 𝑢𝑡 (che sono una trasformazione degli shock originali) soddisfino effettivamente la proprietà in base alla quale la loro matrice di varianza-covarianza sia diagonale1: 𝑢𝑡 = 𝑃−1𝜀𝑡 → Σ𝑢 𝑑𝑖𝑎𝑔𝑜𝑛𝑎𝑙𝑒 1 Condizione necessaria per isolare il singolo shock rispetto agli altri. la risposta i periodi dopo che avviene lo shock 86 Dimostrazione: Per definizione la matrice di varianza-covarianza di un vettore di shock2 è: Σ𝑢 = 𝐸(𝑢𝑡𝑢𝑡 ′) = 𝐸[𝑃−1𝜀𝑡𝜀𝑡 ′(𝑃−1)′] = Le variabili casuali sono 𝜀𝑡 e 𝜀𝑡 ′, mentre, il resto lo possiamo portare fuori dal valore atteso: = 𝑃−1𝐸(𝜀𝑡𝜀𝑡 ′)(𝑃−1)′ = = 𝑃−1Σ(𝑃−1)′ = 𝑃−1𝑃𝑃′(𝑃−1)′ = 𝐼 Abbiamo dimostrato che la matrice di varianza-covarianza 𝚺𝒖 è una matrice, non soltanto diagonale, ma è una matrice identità (con tutti 1 sulla diagonale e 0 altrove). Non soltanto gli errori sono incorrelati (ciò è dato dalla diagonalità della matrice: tutti gli elementi fuori dalla diagonale sono uguali a 0), ma abbiamo anche che le varianze degli shock strutturali sono uguali ad 1, quindi, la standard deviation è uguale a 1. Fondamentalmente, abbiamo detto che le IRF in forma ridotta unitarie andrebbero moltiplicate per l’ammontare di shock che effettivamente vogliamo simulare; nel caso delle IRF strutturali, le IRF unitarie dovrebbero essere moltiplicate per shock di media entità 𝑢𝑡 che è 1 (standard deviation): è come se moltiplicassimo 𝐹𝑖 (𝑐ℎ𝑜𝑙) per un vettore in cui c’è uno shock uguale ad 1 e tutti gli altri uguali a 0. Le IRF totali sono le IRF unitarie moltiplicate per un vettore di 0 e con lo shock riferito alla variabile 𝑘 di interesse pari ad 1: 𝐽𝐴𝑖𝐽′𝑃 × [ 0 0 ⋮ 𝑢𝑘𝑡 = 1 0 ] In Matlab abbiamo costruito la matrice delle IRF: l’operazione di selezionare una IRF dalla matrice corrisponde, di fatto, a moltiplicare la stessa matrice per il seguente vettore (stiamo andando a selezionare dalla matrice la IRF di interesse che corrisponde allo shock della variabile). Ciò che ci serve è: 1) stimare il VAR; 2) fare la matrice di Cholesky a partire dalla matrice di varianza-covarianza stimata dai residui del VAR. Nonostante la matematica che c’è dietro è molto lunga, una volta trovata la formula finale, l’implementazione sul software è molto semplice. GRETL – IRF File > Apri dati > US_data.xls > Modello > Serie storiche multivariate: VAR - Autoregressione vettoriale Ordine dei ritardi: 4 > Variabili endogene: drgdp ,infl, intrate. 2 Normalmente la covarianza è il valore atteso di una variabile meno la sua media moltiplicato per il valore atteso di una seconda variabile meno la rispettiva media: in questo caso le medie sono pari a 0. Σ 𝐼 𝐼 87 Scomposizione della varianza di previsione Forecast error variance decomposition (FEVD) Per capire il concetto economico torniamo in Gretl e facciamo un ultimo step legato alle IRF. Fino ad ora abbiamo visto IRF puntuali (una sola riga), ma non abbiamo commentato la loro significatività. Grafici > Impulso-risposta (combinati) > Orizzonte di previsione (periodi): 40 trimestri (10 anni) > Includi intervallo di confidenza: 0,90 Otteniamo le IRF inziali contornate da un’area grigia che rappresenta l’intervallo di confidenza al 90%: l’estremo inferiore è il quinto percentile, mentre, l’estremo superiore è il 95-esimo percentile. Ciò ci consente di valutare la significatività statistica di queste IRF. Le IRF sono delle previsioni in presenza di shock, queste bande ci dicono che queste previsioni sono incerte perché gli shock sono casuali (quota di incertezza legata al fatto che il sistema non è deterministico, ma casuale). La scomposizione della varianza è una metodologia, un calcolo abbastanza simile a quello delle IRF (non lo faremo matematicamente) che si fa per determinare quanta parte dell’incertezza di previsione che c’è su una variabile a dipende sugli shock che avvengono su una variabile b. Ad esempio: uno shock dei tassi di interesse peserà molto sull’incertezza che abbiamo sulla previsione del PIL o peserà poco? A questa domanda risponde la scomposizione della varianza. Quando siamo nell’output di stima del modello: Analisi > Scomposizione della varianza di previsione > Orizzonte di previsione (periodi): 40 90 Simulazioni Monte Carlo Le simulazioni Monte Carlo sono definite in modi diversi; il professore utilizza la seguente definizione: algoritmo per simulare scenari di una variabile di interesse tramite campionamento casuale. Facciamo una illustrazione su un modello AR (1): 𝑦𝑡 = 𝛽0 + 𝛽1𝑦𝑡−1 + 𝜀𝑡 con 𝜀𝑡 ~ 𝑁(0, 𝜎2). Stimiamo il modello su un campione per 𝑡 = 1, … , 𝑇, quindi, utilizzando i dati storici (𝑦1, 𝑦2,… , 𝑦𝑇). Da questa regressione otteniamo le stime dei tre parametri: 𝛽0 ,̂ 𝛽1̂ e 𝜎 2̂. Utilizziamo questo modello stimato per simulare tanti scenari futuri (dopo 𝑇) della variabile 𝑦𝑡 (previsioni stocastiche o probabilistiche). • 𝑆 = numero totale di scenari o iterazioni MC (della simulazione Monte Carlo) • In ciascuna iterazione 𝑠 = 1, … , 𝑆 (tipicamente 𝑆 = 1000 per avere dei risultati robusti/attendibili) simuliamo il percorso della variabile 𝑦𝑡 futuro da 𝑇 + 1 a 𝑇 + ℎ (dove ℎ è il nostro orizzonte). - Come funziona questa simulazione? Partiamo dal primo passo in avanti (𝑦 al primo tempo di previsione): 𝑦𝑇+1 (𝑠) = 𝛽0̂ + 𝛽1̂ 𝑦𝑇 + 𝜀𝑇+1 (𝑠) dove l’apice (𝑠) sta ad indicare il percorso della variabile 𝑦 nello specifico scenario 𝑠 che può essere il primo, il secondo fino ad arrivare al millesimo (stiamo considerando 𝑆 = 1000). Al tempo 𝑇 = 2 lo scenario simulato sarà: 𝑦𝑇+2 (𝑠) = 𝛽0̂ + 𝛽1̂𝑦𝑇+1 (𝑠) + 𝜀𝑇+2 (𝑠) e così via fino ad arrivare alla previsione per lo scenario 𝑦𝑇+ℎ (𝑠) : 𝑦𝑇+ℎ (𝑠) = 𝛽0̂ + 𝛽1̂𝑦𝑇+ℎ−1 (𝑠) + 𝜀𝑇+ℎ (𝑠) Ripetiamo questa procedura per ciascuno scenario 𝑠: ad esempio con 𝑆 = 1000, avremo 1000 scenari diversi futuri delle variabili. Li utilizziamo per calcolare tipicamente delle statistiche sintetiche come la media tra i diversi scenari, la standard deviation, i percentili ecc. ultimo dato storico disponibile il termine di errore futuro nello scenario (s) è campionato casualmente da 𝑁(0, 𝜎2̂) dal secondo periodo abbiamo il valore simulato al tempo precedente (non più il dato storico) l’errore simulato è anch’esso campionato casualmente da 𝑁(0,𝜎2̂) e indipendentemente dal primo 91 Le simulazioni Monte Carlo sono particolarmente utili per simulare distribuzioni meno convenzionali, soprattutto quelle più complicate, che non hanno forma analitica (cioè non hanno una formula matematica chiusa) oppure che ne hanno una molto complessa. Teoricamente la varianza di previsione o la distribuzione delle previsioni degli scenari nel caso di una Normale o di una distribuzione semplice si può calcolare matematicamente senza fare una simulazione Monte Carlo. 92
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved