Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

Biologia Molecolare Avanzata/ Riassunto-Appunti-Approfondimenti, Dispense di Biologia Molecolare

Un riassunto/file che contiene gli argomenti trattati al corso, approfondimenti estrapolati da internet e da vari volumi che può aiutarvi a preparare l'esame.

Tipologia: Dispense

2021/2022

In vendita dal 05/11/2022

ELE_pala
ELE_pala 🇮🇹

35 documenti

Anteprima parziale del testo

Scarica Biologia Molecolare Avanzata/ Riassunto-Appunti-Approfondimenti e più Dispense in PDF di Biologia Molecolare solo su Docsity! LEZIONE 1 COMPRENSIONE E DISCUSSIONE DI DATI SPERIMENTALI Come interpretare un lavoro scientifico. La ricerca contemporanea si occupa di studiare i meccanismi molecolari (non tutta la ricerca ma buona parte) alla base di un determinato fenomeno.  Come acquisire e mantenere un metodo scientifico contemporaneo? Il metodo scientifico contemporaneo cambia continuamente e per stare al passo bisogna studiare, leggere, gli articoli pubblicati sulle riviste scientifiche. Oggi è complicato avere risultati attendibili perché ci sono moltissimi giornali e questi spesso pubblicano risultati poco interessanti in quanto i ricercatori, per migliorare il proprio CV e poter avanzare di carriera, pubblicano anche lavori non eccezionali. I giornali vengono classificati sulla base dell’impatto che hanno (impact factor), cioè ad esempio sul numero di articoli che vengono scaricati, citati, etc. I giornali con impact factor maggiore sono quelli maggiormente utilizzati. I tre giornali con impact factor maggiore sono: 1. Nature 2. Cell (cell e i derivati hanno un’ottima introduzione) 3. Science Negli anni è cambiato il modo di scrivere e di rappresentare gli esperimenti o gli studi: si è passati dalle singole rappresentazioni fatte a mano all’insieme di molte illustrazioni e pannelli supplementari per pubblicazione.  Come affrontare una domanda biologica. Innanzitutto, in laboratorio è necessario capire se la domanda biologica è sufficientemente rilevante, questo perché un qualsiasi progetto che si fa richiede tempo e investimenti quindi è necessario concentrarsi su cose di cui si è convinti dell’importanza. 1. Conoscenza estesa della letteratura precedente: non conoscere quello che è stato fatto prima è svantaggioso. Si può quindi ricorrere a PubMed per cercare gli articoli pubblicati sui diversi giornali riguardanti un argomento; 2. Rilevanza della domanda biologica: quello che bisogna chiedersi è se l’idea progettuale che si ha, la domanda biologica, è rilevante per una piccola nicchia di ricercatori, per un campo specifico, oppure contribuisce a rispondere ad una grande challenge contemporanea. L’altra cosa che bisogna chiedersi è quanto attuale è la ricerca che si vuole fare, se si sa già qualcosa e quali sono gli sviluppi dal punto di vista metodologico che si possono fare. Lo svolgimento del progetto: cosa si intende scoprire? Bisogna determinare gli obiettivi e determinare se gli obiettivi sono solo descrittivi o sono obiettivi che mirano a capire un meccanismo. Avere degli obiettivi che fanno capire un meccanismo è preferibile. Ancora prima di scrivere un articolo bisogna scrivere gli Highlights, cioè i punti salienti delle cose che si sono scoperte. È molto utile scrivere dei punti su cose che o si sanno, che permettono quindi di procedere successivamente, o che vengono scoperte. Le riviste di cell chiedono di scrivere 4 punti fondamentali che rendono molto più chiaro il lavoro anche ai ricercatori stessi; 3. Approccio sperimentale: ad esempio AIR fa firmare un documento in cui si dichiara di aver spiegato all’interno del laboratorio le regole di buona pratica scientifica. Rispetto delle regole di buona pratica scientifica finalizzate anche ad evitare il plagio. Ci sono dei software che le riviste utilizzano per verificare che non vi sia falsificazione dei dati. Tutti i dati che vengono prodotti in laboratorio devono essere archiviati anche nella loro struttura originale. Esiste un file che si può scaricare che non è falsificabile o modificabile e quello è la fonte originale dei dati che sono stati generati e deve essere presentato qualora venga richiesto dalla rivista e queste possono richiedere fino anche a 10-20 anni precedenti tutti i dati per verificare se questi sono corretti oppure no. 1 Una cosa importante è la statistica: esiste la possibilità di fare un calcolo a priori della grandezza del campione prima di fare delle misurazioni per ottenere dati statisticamente significativi. Questo si fa con un tipo di calcolo, esiste anche un programma che lo fa, in cui si deve valutare qual è la grandezza del fenomeno che si va a misurare. Quindi la grandezza del campione, cioè quanto è sofisticata l’analisi che si sta andando a fare. Anche la misura della variabilità bisogna tenere in conto perché se si stanno facendo dei saggi su un unico tipo cellulare che è una linea stabilizzata sempre la stessa in laboratorio, si avrà una variabilità sia dovuta alle cellule che possono essere diverse di volta in volta, sia allo sperimentatore. Se invece si fa l’esperimento su 200 individui umani si avrà una variabilità molto maggiore perché ovviamente la genetica è diversa. C’è una grossa differenza tra replicato tecnico e replicato biologico. Se si fa una PCR tre volte sempre dallo stesso campione, si sta facendo un replicato tecnico. Se invece si prendono dei campioni biologici diversi e si ripete l’esperimento diverse volte, allora si sta facendo un replicato biologico, il quale tiene in considerazione sia la variabilità tecnica che biologica. Per cui se si vuole sapere se un risultato che si sta analizzando è vero e non è vero, avrà molto più senso vederlo su replicati biologici. Ci sono delle istruzioni su Nature che devono essere aggiunte ogni volta che si prepara un lavoro, una delle cose che chiedono è la grandezza del campione: come è stata determinata la grandezza del campione da utilizzare e con quali metodi statistici. Un’altra cosa è l’esclusione dei dati: bisogna partire facendo gli esperimenti senza la convinzione di ottenere un determinato risultato o non nella convinzione di voler ottenere il risultato che si vuole. Immaginiamo ad esempio di aver fatto un esperimento 10 volte e 3 volte viene bene proprio come si vuole, si ha un replicato e facendo l’analisi statistica questa dice che è statisticamente significativo. Bisogna però tener conto degli altri 7 esperimenti che sono andati male per evitare un grossolano errore. Per cui Nature in questa lista chiede quali sono i dati esclusi e perché sono stati esclusi e qual era tra i dati esclusi quello irrazionale. Un’altra cosa che chiede è quanti replicati biologici ci sono. Poi la randomizzazione. Infine il Blinding: quando si da un farmaco o un placebo ad una popolazione di pazienti, non si dice al paziente quale somministrazione sta ricevendo perché può essere condizionato psicologicamente. Neanche il medico sa quale delle due somministrazioni sta effettuando. Seguono una serie di parametri statistici. 4. Metodi scientifici Una delle pratiche cruciali è che i ricercatori devono essere in grado di replicare e sviluppare le affermazioni pubblicate da altri autori. Studi sia sull’uomo che sugli animali sono assolutamente sotto una serie di controlli etici. Il controllo etico sull’uomo, paradossalmente, è quasi meno ristretto di quello sugli animali. Ci sono due problemi con le linee cellulari quando si utilizzano le cellule in laboratorio. Ci sono due problemi con le linee cellulari, una è la cross contaminazione tra linee cellulari. Spesso nei lab non c’è una sola linea cellulare che viene messa in coltura, ma ce ne sono di più e per sbaglio può verificarsi per mano di qualcuno la contaminazione di un tipo cellulare con un altro. Per questo quello che adesso si fa molto spesso è autenticare la linea cellulare, la linea cellula o viene comprata nuovamente dalla banca mondiale delle linee cellulari o può essere autenticata con sistemi genetici per vedere che effettivamente sia omogenea. 5. Materiali Per pubblicare un lavoro è indispensabile sapere tutte le cose da cui si è partiti ed è più facile saperlo a priori che costruirlo a posteriori. 2 tradotte. Con il processo di trascrizione l’informazione contenuta nel DNA si trasferisce ad una molecola di pre-mRNA che subisce un processo di maturazione che comporta l’allontanamento degli introni mediante splicing, l’aggiunta di un cap al 5’ e di una coda di polia-A al 3’. La struttura dell’mRNA maturo: (disegna) eucariotico procariotico La ORF è preceduta da una sequenza di inizio della traduzione che è il codone AUG. Ovviamente possono esserci più codoni AUG, ma quello di inizio in prossimità del quale si assembla il complesso di inizio è preceduto nei procarioti dalla sequenza SD e negli eucarioti dalla sequenza kozak (un consenso). In una cellula eucariotica oltre al genoma nucleare lineare c’è il genoma mitocondriale generalmente costituito da una singola molecola di DNA circolare. Il DNA mitocondriale umano è costituito da 16571 bp e contiene 37 geni di cui 13 codificano per proteine impegnate nella via repiratoria, 22 per tRNA e 2 rRNA. Il genoma mitocondriale nelle cellule eucariotiche non contiene introni e non è indipendente completamente dalle informazioni contenute nel genoma mitocondriale; infatti, gran parte dei prodotti che servono ai mitocondri sono di origine nucleare. Nel 2001 è stato completato il sequenziamento del genoma umano, anche se in realtà il sequenziamento del cromosoma 1 è arrivato solo nel 2006. Subito dopo la fine del sequenziamento del genoma, è stato iniziato un progetto, progetto ENCODE, che cerca di capire cosa ci sia nel genoma umano. Genome browser è una banca dati in cui sono contenuti tutti i genomi sequenziati di interesse comune e tutti i geni dei genomi sequenziati. Negli anni le informazioni sui genomi sono state raccolte in genome brower, e le modifiche apportate alle informazioni già esistenti sono state inserite in degli assembly, per cui sul sito ci sono assembly vecchi e assembly più recenti. La distribuzione dei geni lungo il genoma non è omogenea, ci sono infatti regioni chiamate gene desert e regioni chiamate gene rich. Per questo ci sono cromosomi con regioni ricche di geni (come il 22) e cromosomi con regioni prive di geni (come y). Le regioni centromeriche e telomeriche di un cromosoma sono eterocromatiche e non contengono o hanno pochi geni. Per convenzione su genome brower si considera la direzione 5’-3’ del cromosoma, si va dal braccio corto (p) al braccio lungo (q). I geni vengono sempre trascritti in direzione 5’-3’ e la direzione del gene non deve essere confusa con la direzione del cromosoma. Alcuni geni infatti vengono trascritti in direzione 5’-3’, ma vanno in direzione opposta al cromosoma in quanto sul filamento 3’-5’. Ad un gene non corrisponde un solo trascritto e questo non ha nulla a che vedere con lo splicing alternativo in quanto dipende dalla presenza di inizi della trascrizione diversi. Con trascritti alternativi si indicano le diverse isoforme di un gene e le differenze tra queste isoforme possono influenzare l’efficienza di trascrizione, la presenza in un tessuto piuttosto che in un altro in quanto il range di inizio della trascrizione varia da poche basi a molte basi. Un esempio è il gene p63 membro della famiglia p53 che è un oncogene recessivo, ma non funziona come controllo al danno del DNA. Il gene p63 presenta due diversi inizi della trascrizione e quindi sono evidenziabili due isoforme che codificano per due proteine: TAP63 e deltaNP63. Questo secondo prodotto non ha, come TAP63, il dominio di transattivazione per cui ha tutto un altro ruolo e compete con TAP63 per il ciclo cellulare e il danno al 5 DNA. P73 anche appartiene alla stessa famiglia, ma in questo caso ci sono due inizi della trascrizione ma 24 isoforme al 3’. Per splicing alternativo si intende il meccanismo attraverso il quale uno stesso pre-mRNA può subire eventi di splicing differenti che portano alla formazione di diversi mRNA alternativi che a loro volta possono codificare differenti proteine se presentano differenze nella regione codificante. Gli eventi che consentono la generazioni di più trascritti a partire da uno stesso gene sono vari ed inducono: - Esoni facoltativi (salto dell’esone o esone incluso) - Esoni alternativi (la presenza di un esone esclude la presenza di un altro esone) - Ritenzione dell’introne (che rimane nell’RNA maturo) - Siti di splicing alternativi al 3’ (sito accettore) e al 5’ (sito donatore) Il concetto generale è che un gene non fa assolutamente una sola proteina in quanto l’assortimento combinatorio di eventi di splicing può portare alla generazione di un numero incredibilmente grande di trascritti e quindi di proteine che possono essere molto diverse tra loro e addirittura competere. Le diverse isoforme di splicing possono avere specificità a livello di tessuto, di condizione fisiologia o patologica. Alcuni geni si sovrappongono parzialmente o interamente l'uno all'altro condividendo una regione genomica comune, anche in direzione antisenso. 6 LEZIONE 3 NON-CODING RNA 2/3 del DNA genomico è trascritto in RNA, ma solo l’1-4% di questi trascritti corrisponde a mRNA. Tutti gli altri trascritti, compreso tRNA e rRNA, sono definiti ncRNA (non-coding RNA o RNA non codificanti). Quindi i geni che non codificano per proteine codificano per: - Long non-coding RNA - Small non-coding RNA - Pseudogeni E sono oltre il 50% del genoma umano, vengono trascritti e non tradotti, ma svolgono ruoli importanti. Gli RNA non hanno una struttura lineare, ma sono molecole che assumono strutture tridimensionali secondarie e terziarie responsabili delle loro funzioni regolatorie e strutturali. Tra gli RNA che svolgono funzioni strutturali: - tRNA - rRNA - snRNA (small nuclear RNAs) - snoRNA (small nucleolar RNAs) invece, tra gli RNA che svolgono funzioni regolatorie: - miRNA (microRNA) - siRNA (silencing RNA) - LncRNA (long non-coding RNA), più grandi di 200 bp come per esempio XIST (Exist si legge) che è coinvolto nell’inattivazione del cromosoma X. rRNA e tRNA Sono essenziali per il processo di sintesi proteica. Le molecole di rRNA sono trascritte a partire da DNA ribosomale nel nucleolo grazie all’azione dell’RNA pol I, modificate grazie all’azione di small nucleolar RNA e poi associate a proteine ribosomali per formare le subunità dei ribosomi. I ribosomi sono particelle ribonucleoproteiche costituite per circa il 60% da rRNA e per il restante 40% da r-proteine. L’rRNA rappresenta il fattore fisico che consente al tRNA e all’mRNA di incontrarsi. I ribosomi e le rispettive subunità e molecole di rRNA sono indicati sulla base del coefficiente di sedimentazione. Il ribosoma eucariotico è indicato come 80s e le sue subunità sono rispettivamente distinte in 40s (minore) che contiene rRNA 28s, 5s e 5.8s e 60s (maggiore) che contiene l’rRNA 18s. Quando si corre su gel l’RNA le due molecole 28s e 18s si evidenziano perché sono molto abbondanti e si ha un rapporto ottimale quando nella line si ha un’intensità di fluorescenza maggiore per la banda del 28s in quanto 7 osservano a livello cellulare si manifestano per tutti e tre oppure si costruisce un costrutto con un trascritto resistente al siRNA, quindi con delle modifiche degli aa in terza base e quindi il siRNA non riconosce la sequenza e non determina la degradazione del trascritto che si ri-esprime per vedere se l’effetto che si vedeva con il silencing è sparito con la re-espressione della proteina. 2) I PIWI-interaxting RNA sono in grado di reprimere gli elementi trasponibili nella linea germinale. I trasposoni sono definiti elementi mobili e sono regioni di DNA presenti in tutti gli eucarioti che sono in grado di trasporre da una parte all’altra del genoma in maniera autonoma. Sono simili ai virus in quanto sopravvivono allontanandosi e reinserendosi nel genoma. questo aumento da un punto di vista evoluzionistico aumenta la differenziazione tra le specie tuttavia questo fenomeno è contrastato dalle cellule. I trasposoni sono elementi che duplicandosi aumentano la grandezza del genoma tant’è vero che il genoma umano risulta essere costituito per il 41% da regioni trasponibili. Esistono tre famiglie di trasposoni e sono distinti in trasposoni e retrotrasposoni ed alcuni retrotrasposoni possono essere distinti in LINE e SINE, i primi sono autonomi in quanto codificano l’enzima della trascrittasi inversa e contengono un gene per un’endonucleasi che permette il reiserimento mentre i secondi non sono in grado di trasporsi autonomamente e si avvalgono dell’utilizzo dei trasposoni autonomi. Nella linea germinativa i trasposoni sono un problema e per questo i piRNA agiscono come repressori degli elementi trasponibili nella linea germinativa evitando che si possa verificare un eccessivo riarrangiamento del genoma. La biogenesi di questi piRNA è indipendente da DICER e vengono applotati/caricati in un sistema di tipo argonaute (Argo) noto come PIWIs. 3) I miRNA sono piccolo RNA non codificanti che interagiscono in trans con molecole di mRNA bersaglio e sono circa 2600. I miRNA vengono generati da precursori più grandi denominati pri- miRNA e sono trascritti dalla RNA pol II e subiscono i processi di capping, splicing e poliadenilazione e quindi sono molto simili agli mRNA. Sono sottoposti ad ulteriori processi di maturazione sia a livello nucleare, denominato cropping che a livello citoplasmatico, denominato dicing rispettivamente operati dai complessi DROSHA e DICER, entrambi appartenenti alla classe delle RNAsi III. DROSHA rimuove tratti extra di sequenza alle estremità 5’ e 3’ del pri-miRNA e genera una struttura a forcina denominata pre-miRNA che viene traslocata nel citoplasma. DICER forma il miRNA duplex con estremità sporgenti attraverso la rimozione del loop del pre-miRNA. Successivamente il miRNA maturo a doppia elica viene riconosciuto da Ago 1-4 e si unisce a RISC con la proteina Ago e viene selezionato uno dei due filamenti del miRNA duplex complementari all’mRNA. I miRNA maturi sono brevi RNA a singolo filamento che si legano agli mRNA bersaglio per appaiamento di basi per lo più nella regione 3’ UTR. L’appaiamento di basi tra miRNA e mRNA bersaglio può essere più o meno perfetto con diversi risultati sul meccanismo di regolazione: i miRNA che si appaiano in maniera imperfetta nella regione 3’ UTR risultano in un blocco della traduzione dell’mRNA bersaglio, mentre i miRNA che si appaiano in maniera perfetta lo avviano alla degradazione. Quindi l’appaiamento dei miRNA all’mRNA bersaglio comporta una serie di effetti che coinvolgono la stabilità e la traduzione del trascritto. Visto che l’appaiamento è parziale e per lo più alla regione 3’UTR i miRNA hanno centinaia di target e quindi possono generare un effetto su un gran numero di proteine. Esistono diverse famiglie di miRNA come la famiglia miRNA-34 che comprende: miR-34a, miR-34b e miR34c. Il gene che codifica per miR-34a è localizzato sul cromosoma 1, mentre miR34b e miR34c vengono sintetizzati a partire da punti diversi dello stesso gene che è sul cromosoma 11. È stato visto nella cellula umano che miR34a e miR34c sono presenti in gran quantità, mentre miR34b in basse quantità nonostante B e C vengano prodotti a partire dallo stesso gene in quanto subiscono meccanismi di regolazione diversi. I membri della stessa famiglia presentano gli stessi target perché presentano la seed (seme) sequence, regione conservata costituita da 7 nucleotidi essenziale per l’appaiamento con l’mRNA. I membri della stessa famiglia hanno funzioni fisiologiche simili, e i miRNA differiscono per la lunghezza, per la sequenza o per entrambe in quanto vanno incontro a delle modifiche mediate da enzimi, pertanto 10 esistono delle isoforme di miRNA denominate isomiRs P53 induce alcuni membri di questa famiglia che vengono utilizzati da p53 per bloccare il ciclo cellulare attraverso l’attivazione della proteina p21 (Cdkn1a) e ciò consiste in un meccanismo di riparo del danno al DNA. Altri hanno la capacità di inibire la ciclina D e le chinasi CDK4/6 coinvolte nel ciclo cellulare. P63 agisce in maniera contraria a p53, si comporta da dominante negativo e lega come fattore di trascrizione un enhancer di miRNA- 34 inibendolo invece che inducendolo. Famiglie di geni Le duplicazioni del genoma sono frequenti sia per porzioni relativamente piccole del genoma sia per regioni piuttosto ampie del genoma. La duplicazione del genoma provoca la formazione di copie addizionali dell’intero genoma e si verifica a causa della non-disgiunzione durante la meiosi, ciò provoca poliploidia. A seguito della duplicazione quello che si può verificare è: subfunzionalizzazione, ogni paralogo (geni della stessa famiglia derivanti da un gene ancestrale) conserverà un sottoinsieme della funzione ancestrale; neofunzionalizzazione, ossia acquisto di nuove funzioni a causa di mutazioni; degenerazione, ossia perdita/inattivazione di alcuni geni per mutazioni. Quindi a seguito della duplicazione si originano famiglie di geni derivanti da un gene ancestrale e alcune di queste copie vengono perse, alcune inattivate altre possono essere fondamentali per l’evoluzione in quanto possono assumere funzioni diverse. Nel passaggio da invertebrati a vertebrati sono avvenute delle doppie duplicazioni. Un esempio è la famiglia del gene p53 che ha in drosophila un unico componenti, ma in altre specie ha uno o più componenti, fino a passare ai vertebrati in cui ci sono tre geni diversi definiti paraloghi, ossia geni che derivano da un unico gene ancestrale ed hanno funzioni che si sono diversificate. Nel caso dell’esempio, sono geni paraloghi p53, p63 e p73 che presentano funzioni diverse anche se presentano uan struttura simile. P63 nell’uomo si trova sul cromosoma 3 mentre il gene p73 si trova sul cromosoma 1 e alcuni geni che si trovano vicino a p63 sono in prossimità anche di p73, come TPRG che è localizzato in prossimità di p63 (p63 regola il gene TPRG che si esprime sull’epidermide) ed è simile al suo paralogo TPRGL localizzato invece in prossimità di p73. Quindi è possibile affermare che p63 e p73 si sono originati per duplicazione. Un altro esempio di duplicazione dei geni sono i geni HOX: 1 solo cluster in drosophila, mentre 4 cluster nell’uomo a conferma del fatto che nel passaggio da invertebrati a vertebrati è avvenuta una doppia duplicazione. 11 LEZIONE 4 Pseudogeni Gli pseudogeni sono geni che possono essere trascritti, ma non tradotti e per definizione sono definiti copia non funzionale di geni, anche se ad oggi ne sono state individuate delle funzioni. Nel corso dell’evoluzione si sono originati per: - Duplicazione genica, processo che porta alla formazione all’interno di un genoma di due o più copie di uno stesso gene e il meccanismo alla base è il crossing over ineguale che può derivare da errori di appaiamento dei cromosomi omologhi durante la meiosi. Questo evento di duplicazione porta alla formazione di cluster genici, non avviene alcun processamento per cui i geni presentano sequenze esoniche, introniche e promotore. Questi geni possono accumulare delle mutazioni che possono inattivarli generando gli pseudogeni. - Retrotrasposizione, processo che prevede la trascrizione di un gene, il processamento del suo mRNA, la retrotrascrizione e il reinserimento nel genoma. Gli pseudogeni da retrotrasposizione somigliano alla sequenza codificante del gene originale, ma sono privi di introni, il promotore è assente e alcuni presentano la coda di poli-A. Questo evento è mediato da retrotrasposoni. Nel genoma umano c’è un’alta percentuale di elementi ripetuti alcuni dei quali sono distinti in SINE (elementi retrotrasposti corti non autonomi) e LINE (elementi retrotrasposti lunghi autonomi). Le LINE presentano TSD (tandem site duplication), un inizio di trascrizione unico, una 5’ UTR, un numero di ORF che varia a seconda del tipo di LINE, il gene EN che codifica per una endonucleasi, il gene RT che codifica per una trascrittasi e una 3’UTR. Ogni ORF è preceduta da un elemento IRES, elementi che permettono l’inizio della traduzione indipendentemente dal cap. In questo caso si ha un solo inizio della trascrizione e diversi inizi della traduzione, per cui la traduzione non inizia solo dal codone di inizio che è preceduto dalla kozak. La maggior parte di questi trasposoni non è più in grado di muoversi, mentre alcuni prendono parte al processo di retrotrasposizione che prevede che un mRNA di un gene venga spontaneamente retrotrascritto e reinserito nel DNA cromosomico. Questi elementi LINE possono quindi determinare la formazione di pseudogeni processati che non sono espressi in quanto non presentano una regione promotrice, a meno che non vengano inseriti in prossimità di promotore di un altro gene che è bisfunzionale per cui lo pseudogene viene trascritto. Esempio pseudogene: PTEN-P1 Si credeva che gli pseudogeni non avessero alcuna funzione finché Pier Paolo Pandolfi non ha evidenziato funzioni interessanti di uno specifico pseudogene. Alle sue ricerche si aggiunsero quelle di Irene Bozzoni che sottolinearono l’esistenza di funzioni alternative associate agli pseudogeni. Le ricerche di Pandolfi erano incentrate sul cancro, in particolar modo si occupava di una via di segnalazione che è quella di RAS. L’attivazione di RAS attiva la cascata della MAP chinasi (RAF/MEK/ERK) e la cascata PI3K/Akt/mTOR. Sul complesso mTOR convergono diversi stimoli (insulina, oncogeni, la presenza o assenza di amminoacidi, ossigeno, ATP, stress, etc) che inducono la cellula a crescere e proliferare. PTEN è un tumor suppressor gene (una fosfatasi) e ha la funzione di regolare questo pathway tenendo a bada PI3K. Pandolfi si occupava di mutazioni e perdita di funzione di PTEN in vari tumori che portavano ad una iperattivazione del signaling di PI3K. Quindi in un cancro allo stadio inziale PTEN subisce una mutazione in singola copia, per cui un allele viene perso e l’altro rimane attivo, anche se l’espressione si riduce. Questo fornisce un vantaggio proliferativo per cui nella cellula si accentua la proliferazione. Con la progressione del tumore può verificarsi perdita del secondo allele. La cosa importante è che PTEN è un target per i miRNA, alcuni si legano al 3’UTR e ne regolano l’espressione proteica. Quello che si scoprì è che nel genoma, oltre al gene PTEN c’era uno pseudogene che indicarono come PTEN-P1. Su genome brower PTEN-P1 si presenta monoesonico, con un 5’, una CDS mutata e una 3’ abbastanza lunga e non codifica per alcuna proteina. Esso si è originato per retrotrasposizione perché non presenta introni. Nel complesso risulta molto più piccolo del gene PTEN, anche se presenta alcune porzioni conservate in corrispondenza della 3’UTR. Proprio per questo si è ipotizzato che le sequenze conservate in PTEN-P1 legassero miRNA che legavano PTEN. 12 LEZIONE 5 Long non-coding RNA Gli LncRNA sono molecole di RNA con più di 200 nucleotidi e non contengono evidenti ORF quindi non vengono tradotti. Vengono tradotti, come i trascritti codificanti proteine, dalla RNA pol II, possono essere multiesonici, avere il CAP e la coda di poli-A. Gli pseudogeni sono dei long non coding, però viene fatta questa distinzione perché derivano da geni codificanti, sono riconoscibili a livello di sequenza, mentre i long non coding RNA non sono simili a nulla e sono molto diversi tra loro. Possono essere classificati sulla base della loro localizzazione genomica in intergenici, associati a promotori/enhancer, intronici ossia presenti all’interno di un grande introne di un gene. Possono essere poi distinti in bidirezionali, cioè vengono trascritti partendo dallo stesso promotore di un gene coding, ma in direzione opposta e antisenso (natural antisens trascript), ossia regolano il gene coding sul filamento opposto. Svolgono funzioni in cis (es Xist) e in trans (Hotair). Se si osserva la loro espressione a livello tissutale si vede che sono in media meno espressi dei trascritti di geni ì codificano per proteine. Per di più possono essere espressi in maniera tessuto specifica, quindi questo rende ancora più complesso il loro studio. Le sequenze di LncRNA non sono ben conservate rispetto ai coding gene tra le specie, anche se funzionali. Sono poco conservati seppur funzionali perché la ORF di un LncRNA è più flessibile/plastica, è più tollerante alle mutazioni e quindi può evolvere rapidamente. Ciò che sottolinea la loro importanza è il fatto che il promotore è molto conservato, allo stesso livello del coding. Negli eucarioti è presente, parallelo al ciclo dei coding RNA, il ciclo dei long non coding RNA che è più veloce in quanto l’RNA non deve essere tradotto in una proteina e viene velocemente degradato. I long non coding RNA sono effettori più semplici e versatili delle proteine, si associano ad acidi nucleici semplicemente per appaiamento, si associano ad proteine grazie alla struttura secondaria, posso essere localizzati a livello nucleare o citoplasmatico. Possono svolgere importanti ruoli regolativi ed essere coinvolti nella regolazione della trascrizione, del processamento del mRNA, nella modulazione del controllo post-trascrizionale; possono fungere da esche/trappola che legano e sequestrano proteine regolative e fattori di trascrizione impedendo l’interazione con il DNA, possono essere scaffold per macro-complessi, possono reclutare rimodellatori della cromatina (es HOTAIR che partecipa alla regolazione epigenetica dei geni), possono sequestrare i miRNA (ceRNA, LncRNA con funzione di spugna che sequestrano specifici miRNA). Gli lncRNA che fungono come esca di miRNA e li sequestrano dai loro mRNA bersaglio possono essere lineari o circolari. E’ stata identificata, nelle cellule neuronali, una nuova classe di LncRNA, circRNA, che come i ceRNA possono agire da spugne per i miRNA. Questi, essendo circolari, non sono soggetti alla degradazione mediata da esonucleasi in quanto le estremità non sono esposte e quindi sono più stabili. Presentano un appaiamento perfetto con i miRNA e siccome vengono degradati meno facilmente il loro livello di espressione è meggiore rispetto ai LncRNA lineari. Non contengono un cap al 5’ e non sono poliadenilati. Sono generati co-trascrizionalmente alle spese di mRNA lineari canonici: un pre-mRNA può andare incontro a backsplicing, evento che determina la circolarizzazione e avviene in presenza di sequenze Alu che sono elementi ripetuti di tipo SINE e si trovano nelle regioni più trascritte del nucleo. Diversi circRNA possono essere prodotti da un unico gene. Il fenomeno della circolarizzazione e la presenza di circRNA è stato evidenziato in un lavoro mediante Northern blot che ha previsto l’impiego di 4 diversi probes complementari ad alcuni degli esoni dei 7 del gene 7KSCAN1: probe 2 complementare ad un esone, probe 3 complementare all’esone successivo, probe 4 a cavallo tra l’uno e l’altro esone e probe 5 complementare alla coda 3' dell’esone a valle e alla testa 5' dell’esone a monte. Con il processamento dell’RNA, gli introni vengono rimossi e quindi gli esoni si congiungono. L’RNA viene fatto correre su gel e ogni line corrisponde ad una sonda. Con la sonda 2, la sonda 3 e la sonda 4 si evidenziano due bande, una grossa di circa 1.9 kb e un’altra più piccola. Con l’ultima sonda, si evidenzia solo la banda piccola. L’ultima sonda sarebbe stato possibile rilevarla solo in caso di circolarizzazione perché le due porzioni complementari alle estremità dei due esoni si sarebbero ricongiunte. Questo fenomeno quindi esiste e i circRNA sono più frequenti in percentuale nel sistema nervoso (è stato scoperto che esistono anche circRNA mitocondriali). 15 Esempio: gene UCHL1 Sono stati individuati trascritti naturali antisenso (NATs) che sono trascritti dal filamento opposto di un gene codificante (quindi sono sovrapposti) e possono interferire con l’espressione dei trascritti senso complementari. Nei neuroni è espresso il gene UchL1 ed è stato individuato un gene antisenso (AS UchL1, NAT Natural antisense transcript) che era un lnc parzialmente sovrapposto al gene senso. La prima cosa che si pensò è che regolasse l’espressione dell’RNA senso perché se due RNA sono complementari possono formare un double strand che viene processato da Dicer e funge da endo-siRNA. Videro che sia il senso che l’antisenso venivano espressi nei neuroni dopaminergici e mentre il gene senso aveva una localizzazione principalmente citoplasmatica, l’antisenso aveva una localizzazione principalmente nucleare. I primi esperimenti sono stati fatti con il fine di capire se l’antisenso svolgesse una funzione regolativa sul senso, diminuendone le quantità. Utilizzarono quindi cellule MN9D ed espressero l’antisenso, ma ciò che videro fu esattamente il contrario di quanto ipotizzato: aumento del senso. La cosa importante osservata fu inoltre che Uchl1 a livello di proteina era aumentata, mentre a livello di mRNA non cambiava. Questo dimostrò che la funzione dell’antisenso influiva sulla quantità di proteina che si produce e non sulla quantità di RNA. Hanno ripetuto l’esperimento in un altro tipo cellulare, HEK e hanno osservato che all’aumentare dell’antisenso aumenta anche il senso. Quindi la presenza dell’antisenso in qualche modo stabilizza la proteina determinandone una maggiore produzione. Allora fu necessario capire quale fosse la porzione del lnc antisenso importante per la funzione. Il lnc ha 4 esoni e sono distinte due regioni, una al 5’ e una al 3’: la regione delta 3’ comprende l’esone 1 ed è quella che si sovrappone al gene senso, la regione delta 5’ comprende l’esone 3 con le sequenze SINE e Alu e l’esone 4. Ripeterono quindi l’esperimento pensando che entrambe le regioni delta5' e delta3' di AS Uchl1 fossero necessarie per indurre la proteina UCHL1. Videro allora cosa accadeva nelle MN9D se si esprimeva: tutto lnc, solo la porzione delta 3’(l’esone 1) solo la porzione delta5’ (l’esone 3 e l’esone 4). Dal western si osservò espressione della proteina solo in presenza dell’intero Lnc e lieve espressione solo con delta5’. Allora fecero dei costrutti utilizzando varie combinazioni delle sequenze Alu e SINE della regione delta5’ di Lnc. Osservarono espressione della proteina UCHL1 in presenza dell’intero Lnc e laddove il costrutto conteneva SINE. A questo punto si è pensato che SINE fosse importante per la funzione dell’Lnc. Individuarono un altro caso in cui la situazione si ripeteva e anche in questo caso SINE era presente e Lnc faceva aumentare la quantità della proteina codificata dal gene senso. Conferma dell’importanza di SINE è stata ottenuta con un esperimento in cui hanno utilizzato GFP. Hanno quindi costruito un costrutto artificiale antisenso in cui una parte era sovrapponibile al gene senso e una parte conteneva SINE. L’espressione dell’antisenso ha stabilizzato GFP dimostrando che gli lncRNA antisenso naturali e sintetici aumentano i livelli di proteine bersaglio. Con questo hanno dimostrato che un natural antisense transcript ha un effetto sulla traduzione regolando la quantità di proteina bersaglio. 16 LEZIONE 6 IDENTIFICAZIONE E FUNZIONE DEI lncRNA È possibile mediante dei tool bioinformatici che tengono in conto diversi parametri, predire il potenziale codificante di un determinato gene. Sono stati sviluppati dei nuovi tools che permettono di capire la differenza tra coding e long non-coding. Per accelerare l'annotazione lncRNA, il consorzio GENCODE ha sviluppato RNA Capture Long Seq (CLS): combina l'acquisizione mirata dell'RNA con il sequenziamento di terza generazione e questo ha permesso di predire realmente quali sono i geni espressi. Una cosa che è possibile fare è capire se il long non-coding RNA identificato perché ad esempio è differentemente espresso in un tessuto rispetto ad un altro, ha una funzione nucleare o citoplasmatica. Per capire come si fa ad evidenziare la funzione di un lncRNA prendiamo in considerazione il caso del lncRNA TINCR (si pronuncia così come scritto) e vediamo come è stato identificato. I ricercatori volendo identificare i geni che controllano il differenziamento dei cheratinociti, la cui espressione aumenta durante il differenziamento, per prima cosa lo hanno indotto aggiungendo al mezzo di coltura il calcio. Quello che evidenziarono fu un set di geni che comincia ad esprimersi presto nel differenziamento e tra questi geni è stato individuato TINCR, gene la cui espressione è indotta dal differenziamento dell’epidermide 150 volte in più rispetti agli altri geni e viene trascritto in un ncRNA. Prima di chiedersi quale potesse essere la funzione svolta da questo ncRNA durante il differenziamento, cercarono di capire se la sua espressione fosse citoplasmatica o nucleare e per fare questo impiegarono delle sonde rese fluorescenti complementari alla sequenza genica. Quello che videro fu una maggiore espressione di TINCR nel nucleo di cellule non differenziate e poi un aumento di espressione nel citoplasma in cellule al terzo giorno di differenziamento. A questo punto mediante la tecnica di trasfezione delle cellule epiteliali cercarono di evidenziarne la funzione: in alcune trasfettarono un RNA interference di controllo, in altre un RNA interference contro TINCR non coding e in altre un altro RNA interference contro TINCR. Si utilizzano separatamente due silencing diversi contro lo stesso gene per evitare di avere effetti off target, effetti che non c’entrano nulla con il silenziamento del gene target e solo se con entrambi i silencing si ottiene lo stesso effetto si può supporre che sia dovuto al silenziamento del gene di interesse. Quello che videro è che il silenziamento di TINCR porta ad una modifica nella stratificazione dell’epidermide e ad una down regolazione di una serie di marcatori del differenziamento dell’epidermide. Evidenziata l’importanza di questo gene nel differenziamento d’interesse è stato capirne il ruolo. Per capire quale fosse il meccanismo di azione di TINCR cercarono di capire con quale RNA interagisse e fecero una RIA seq (RNA interactome and sequencing). Progettarono quindi 38 sonde di DNA antisenso che legassero tutta la sequenza di TINCR e le resero biotinilate al 3’ per permettere la rivelazione e la cattura del gene mediante l’utilizzo di biglie magnetiche coniugate a streptavidina (proteina di origine batterica che presenta affinità per la biotina). Dopo l’ibridazione è stato fatto un pull-down, purificazione e sequenziamento di TINCR e di tutto ciò che si è legato a TINCR al fine di vedere quali acidi nucleici interagissero con l’lncRNA in questione. L’altro approccio è quello di utilizzare dei microarray per identificare le proteine che interagiscono con TINCR coinvolte nel differenziamento dell’epidermide. Hanno fatto una PMA utilizzando la sequenza genica di TINCR come una sorta di sonda marcata con fluorescenza che fosse in grado di ibridare con gli mRNA spottati sul supporto. Laddove c’è un segnale di fluorescenza, c’è ibridazione e quindi l’individuazione della proteina con la quale TINCR interagisce. Infine, mediante pull-down hanno precipitato TINCR e tutte le proteine con le quali interagisce, le hanno purificate e le hanno sottoposte a spettrometria di massa. Quindi la funzione di un lncRNA viene analizzata mediante 1. RIA-seq: è una tecnica di sequenziamento che utilizza il sequenziamento di nuova generazione (NGS) per rivelare la presenza e la quantità di RNA in un campione biologico in un dato momento, analizzando il trascrittoma cellulare in continua evoluzione. 2. PMA 3. RBP (RNA binding-protein) pulldown: si utilizzano delle sonde marcate che permettono la cattura da parte di biglie magnetiche coniugate a streptavidina del lncRNA. Questa metodica permette l’analisi dell’interazione RNA-proteine in quanto a seguito della precipitazione le proteine associate 17 LEZIONE 7 SEQUENZIAMENTO DEL DNA Terminologia COVARAGE: per assicurarsi dell’attendibilità di una tecnica di sequenziamento di aumenta molto il numero di letture che vengono fatte per ogni specifica porzione di DNA. di solito il covarage è di 30 volte. READ: sono il numero di sequenze prodotte dal sequenziamento. Ciascun frammento che viene identificatp è una read. Sequenziamento di prima generazione Sanger e Gilbert vennero insigniti del premio Nobel per il sequenziamento del DNA in quanto sono stati in grado di inventare due metodi diversi: il metodo di Maxam-Gilber, metodo chimico molto efficienti, ma tossico e per questo motivo non più utilizzato; il metodo Sanger che si utilizza ancora oggi, ma per sequenziare piccole sequenze. Metodo Sanger Nel sequenziamento il DNA viene purificato, frammentato e denaturato. A seguito della denaturazione, un primer disegnato per riconoscere la sequenza specifica del DNA da sequenziare ibrida e fa da innesco per la DNA polimerasi che si lega al 3’OH libero dell’oligo e polimerizza il secondo filamento, utilizzando quello che interessa sequenziare come stampo. Il metodo Sanger è anche definito sequenziamento per terminazione perché oltre ad utilizzare i deossinucleotidi (dNTP) come unità necessarie per la polimerizzazione, impiega dideossinucleotidi (ddNTP) che hanno un H al posto dell’OH in posizione 3’ dello zucchero che determina un blocco delle reazioni di sintesi ed inoltre sono marcati radioattivamente (32P o 35S). Il campione di DNA da sequenziare viene diviso in quattro reazioni separate, ognuna delle quali contiene la DNA polimerasi e tutti e 4 i deossiribonucleotidi (dATP, dCTP, dGTP, dTTP). Ad ognuna di queste reazioni viene poi aggiunto solo uno dei quattro nucleotidi dideossi (ddATP, ddCTP, ddGTP, ddTTP) in concentrazione minori rispetto ai dNTP e poiché l’incorporazione è del tutto casuale la reazione di bloccherà in maniera random determinando dei frammenti di diversa lunghezza. I frammenti generati da queste reazioni vengono poi fatti correre su gel di poliacrilammide-urea che permette la separazione dei vari frammenti con una risoluzione di un nucleotide. Il gel è lungo massimo 500bp e quindi per ogni 500bp bisogna disegnare un oligo complementare al DNA. Ognuna delle 4 reazioni è corsa su pozzetti vicini, le diverse catene polinucleotidiche neosintetizzate migreranno nel gel verso l’anodo in funzione della loro lunghezza e possono essere facilmente localizzate, poiché radioattive, per autoradiografia. Dalla successione di tutte le bande presenti nelle 4 corsie del gel si può risalire alla sequenza del frammento di DNA usato come stampo. Il metodo Sanger è un metodo di sequenziamento manuale, laborioso e per sequenziare il genoma umano è stata elaborata una tecnica che sfruttava sempre questo metodo, ma invece di utilizzare quattro reazioni e dideossinucleotidi (ddNTP) radioattivi, sono stati utilizzati fluorofori con colori diversi e quindi un’unica reazione che viene corsa in un gel capillare. Per leggere la fluorescenza è stato poi utilizzato un detector. Il risultato è un grafico (elettroferogramma) in cui i diversi picchi corrispondono ai vari dNTP incorporati che hanno colori diversi e questo si traduce in una sequenza. Nonostante le modifiche apportate alla procedura comunque riuscivano a sequenziare un massimo di 500bp, con la differenza che invece di farlo manualmente e quindi mediante l’utilizzo del gel di poliacrilammide era tutto automatizzato. Il sequenziamento del genoma umano è stato un lavoro multicentrico e internazionale. 20 Questo metodo di sequenziamento presentava però dei limiti: era possibile avanzare solo di 500bp alla volta e siccome il genoma umano è ricco di sequenze ripetute risultava difficile assemblare le varie porzioni in un’unica sequenza. Per questo motivo il consorzio internazionale ha creato delle genoteche di cloni di DNA: il genoma è stato digerito, clonato in vettori BAC/YAC (vettori che possono contenere rispettivamente sequenze geniche della lunghezza di 150.000 e 500.000) generando una libreria di cloni. Il problema resta comunque il poter avanzare solo di 500bp alla volta, per cui si fa uno screening dei cloni da sequenziare, ogni clone contiene un frammento molto lungo quindi dopo aver letto 500bp e sequenziate, si deve disegnare un altro primer per poter sequenziare altre 500bp. Quindi la strategia prevede un sequenziamento clone by clone, una prima mappatura e poi il sequenziamento di ogni pezzo lungo e la rimappatura. Dopodichè quando ciascuna porzione del genoma è stata sequenziata bisogna assemblare tutti i frammenti sfruttando le porzioni che si sovrappongono. Un gruppo di ricercatori si distacco dal consorzio e finanziati da un ricco cercarono di sequenziare in genoma in parallelo senza porsi il problema sella sovrapposizione. Questa competizione ha accelerato di molto il lavoro di entrambi i gruppi, così che nel 2000 venne sequenziato il genoma umano e negli anni successivi anche quello murino e di ratto. Il lavoro in realtà era incompleto, c’erano molte GAP ossia regioni che non si erano riuscite ad assemblare e per di più per cercare di rendere il lavoro il più rappresentativo possibile fecero una mix di genomi. La nuova recente mappatura – denominata T2T (“da telomero a telomero”, cioè da un’estremità all’altra del cromosoma) – ha praticamente colmato tutte quelle lacune, con la scoperta di 115 nuovi geni. esiste un bio-archive sul quale gli autori pubblicato i lavori prima di un’ufficiale pubblicazione su PubMed. Esistono tecniche di sequenziamento veloci, che permettono di sequenziare piccole porzioni in breve tempo, e tecniche di terza generazione, come Pacific Biosciences, che permette di sequenziare non maniera non precisa grosse porzioni. Questo offre un vantaggio, perché essendo i frammenti più grandi, è più semplice capire le sequenze ripetute come sono organizzate. Questo ha permesso il sequenzialmente personalizzato del genoma per predire eventuali predisposizioni a patologie). I primi due genomi sequenziati dal consorzio pubblico mediante nex generation sequencing (metodologie di seconda generazione) sono stati quello di Craig Venter e quello di Jim watson. I sequenziamenti personalizzati sono complessi e costosi perché per avere una lettura a livello della singola bp per individuare singole mutazioni richiede la lettura del sequenziamento più volte. Medicina personalizzata Le scienze omiche stanno diventando sempre più importanti nella medicina personalizzata. Le scienze omiche sono quelle discipline che utilizzano tecnologie di analisi che consentono la produzione di informazioni (dati), in numero molto elevato e nello stesso intervallo di tempo, utili per la descrizione e l'interpretazione del sistema biologico studiato. Le analisi vengono condotte su ampie popolazioni. L’approccio tradizione prevede di trattare una determinata malattia che ha un determinato fenotipo senza considerare la base genetica della malattia. Utilizzando un dato trattamento possono essere tre gli esiti: nessun effetto, effetto benefico, effetto avverso. L’approccio di medicina di precisione invece consente di classificare meglio i pazienti sulla base delle loro mutazioni e quindi cercare di ottenere un effetto benefico dal trattamento. Ad esempio nel caso del tumore a cellule squamose del polmone nel 30% dei casi c’è l’amplificazione del gene EGFR (epidermal growh factor receptor) e si possono utilizzare degli inibitori dei recettori per ridurre la sua attività, nella restante percentuale dei casi è inutile questo trattamento. E’ importante quindi effettuare un’analisi e nel caso dei tumori si analizzano: - Le mutazioni puntiformi che danno luogo ad un cambio di aa - Inserzioni e delezioni - Variazioni del copy number - Variazioni strutturali come riarrangiamenti cromosomici Delle volte in caso di tumori il trattamento con un farmaco porta inizialmente miglioramenti, ma poi c’è un evoluzione della malattia nel tempo. La cosa opportuna da fare sarebbe trattare il paziente con un doppio farmaco, ma ad oggi questo tipo di intervento comporta una serie di effetti collaterali. Tuttavia, è possibile fare medicina personalizzata, anche se molto costoso. E’ stato iniziato un programma, Molecular tumor 21 board in cui ogni paziente resistente ai trattamenti standard con tumore avanzato viene inserito nel programma e studiato l’avanzamento del tumore. In questo modo si cerca di individuare le mutazioni driver per inserire il paziente in un trial clinico con specifici farmaci. Nex generation sequencing o Massive Parallel sequencing Il concetto che caratterizza il sequenziamento di seconda generazione rispetto alla prima è che l’amplificazione non viene fatta in vivo, ma in vitro per PCR e questo è importante dal punto di vista pratico perché permette una realizzazione del sequenziamento molto più veloce. Il sequenziamento di terza generazione è parallelo ancora a quello di seconda generazione, quindi non l’ha rimpiazzato e le due strategie sono PacBio e Oxford Nanopore. Il sequenziamento di seconda generazione ha la caratteristica di generare dei frammenti più corti del Sanger (25-300bp), ma è vantaggiosa come strategia perché ne genera milioni. Siccome si tratta di un sequenziamento massivo possono essere commessi degli errori ed è per questo che si legge 30 volte (covarage x30), il sequenziamento viene ripetuto 30 volte. E’ meno accurato del Sanger, ma siccome la lettura viene ripetuta così tante volte diventa automaticamente più accurato. Le tecniche di sequenziamento di seconda generazioni generano dei frammenti molto corti per cui sono ideali per piccoli genomi p trascrittomi o per sequenziare genomi già noti. I sequenziamenti di terza generazioni generano sequenze molto più lunghe per questo più utili per sequenziare i genomi. Con il sequenziamento di seconda generazione sono diversi i vantaggi rispetto ai metodi precedenti di sequenziamento: - l’allestimento della libreria avviene in vitro, non c’è trasformazione batterica e neanche la selezione dei cloni da sequenziare; - c’è la possibilità di lavorare su tantissime sequenze contemporaneamente e anche in parallelo; - i supporti sono di piccole dimensioni. Lo svantaggio è il numero di sequenze che è realmente molto elevato rendendo, dal punto di vista bioinformatico, l’assemblaggio del genoma complicato. Le applicazioni sono state varie: sequenziamento di nuovi genomi, risequenziamento dei genomi già sequenziati con lo scopo di individuare mutazioni correlate a varie patologie, sequenziamento metagenomico, ossia sequenziamento di tutta una comunità microbica, epigenomica, trascrittomica. Due sono i passaggi comuni alle tecnologie di seconda generazione: frammentazione degli acidi nucleici a dimensioni appropriate e cattura ed aplificazione dei frammenti tra adattatori con sequenza specifica nota. Gli adattatori servono oltre che per ancorare i frammenti ai diversi supporti, anche come stampo per gli oligo usati nella reazione di sequenziamento. I macchinari utilizzati sono vari, possono essere molto grandi ed in grado di sequenziare più genomi contemporaneamente oppure piccoli ed in grado di, avvalendosi di kit disponibili, sequenziare sequenze specifiche. 22 Oxford nanopore sequenving Il concetto è completamente diverso dagli altri metodi di sequenziamento. È possibile utilizzare delle macchine di dimensioni varie, ma ne esiste una piccolissima che può essere addirittura collegata al cellulare e si chiama Minon. In questo caso il DNA quando passa attraverso la membrana altera il potenziale della membrana in maniera leggibile. Questo sistema è formato da una membrana lipidica in cui è inserita una proteina che permette il passaggio del single strand di DNA e una elicasi. Quindi si tratta di un sistema abbastanza semplice che rileva un cambiamento di corrente elettrica al passaggio dei singoli nucleotidi. Vengono letti 6 nucleotidi alla volta e la macchina riesce ad interpretare il cambiamento di corrente a quale sequenza corrisponde pur compiendo, il sistema, però molti errori in quanto non precisissimo. Questi errori in gran parte possono essere letti a livello computazionale. Esiste un nuovo tipo di nanopore che invece di avere un solo lettore della differenza di campo elettrico all’interno della membrana, ne possiede due e questo permette di correggere più facilmente l’errore. La nanopore sequencing permettere di leggere sia il DNA che l’RNA ed è l’unica tecnica che consente di leggere direttamente l’RNA senza doverlo retrotrascrivere in cDNA. Questo è molto importante perché l’RNA, una volta trascritto va incontro a modifiche post- trascrizionali per cui quando retrotrascritto si perde la capacità di leggere le modifiche, mentre leggendolo direttamente le modifiche restano leggibili. Questa inoltre è una tecnologia non limitata dalla lunghezza del DNA che continua a passare determinando la formazione di read lunghe. Negli ultimi anni è stato molto spesso utilizzato, come metodo, in parallelo al metodo illumina perché siccome accumula molti errori confrontandolo con una tecnica più precisa permetteva il controllo del risultato. TRASCRITTOMICA La trascrittomica è lo studio di tutti i trascritti di una determinata cellula e a differenza della genomica cambia da cellula a cellula nel corpo, in quanto dei geni sono uguali, dei geni sono specifici per un terminato tessuto. Lo studio del trascrittoma comprende il set completo di trascritti di RNA che sono espressi in quella particolare circostanza, in quel particolare tempo e distretto anatomico. Tra io metodi per studiare i trascritti ci sono: 1) Northern Blotting, il concetto chiave è quello di isolare l’RNA da lisati cellulari, correrlo su gel per elettroforesi in agarosio, trasferire il risultato su filtro e crosslinkarlo in modo da bloccarlo su questo. Poi con l’impiego di una sonda andare ad individuare la sequenza di interesse. Questa metodica ci consente di vedere un trascritto e fornisce oltre che un’idea quantitativa anche un’idea della grandezza della molecola. Il northern è stato progressivamente sostituto dakka RT-qPCR. 2) È possibile fare una distinzione tra PCR, RT-PCR e Real Time RT-PCR. Nel primo caso si tratta di una semplice reazione a catena della polimerasi, amplificazione di una sequenza target. Nel secondo caso è prevista una trascrizione inversa che precede l’amplificazione. nel terzo caso si tratta di una tecnica quantitativa che permette di seguire la reazione di amplificazione. La tecnica della PCR (reazione a catena della polimerasi) permette di selezionare e amplificare da una preparazione eterogenea di DNA un particolare tratto di interesse, producendone un grandissimo numero di copie. Si tratta di una replicazione in vitro del frammento di DNA ottenuta mediante l’utilizzo di una DNA polimerasi, deossiribonucleotidi trifosfato e due oligonucleotidi che fungono da inneschi (primer) per la replicazione. La specificità della reazione è data proprio dai primer. Per poter fare una PCR è necessario conoscere la sequenza del tratto di DNA da amplificare per poter costruire degli inneschi specifici che si associno ai due estremi di esso. Un ciclo di PCR consiste di tre passaggi che si ottengono variando la temperatura della miscela di reazione: 1. La denaturazione del DNA viene fatta a 95°C 25 2. L’annealing degli inneschi ai filamenti di DNA denaturato si ha a 40-60°Cm(la temperatura deve essere circa 5°C al di sotto della Tm (temperatura di melting) dei primer 3. La sintesi da parte della polimerasi si ha a 72°C. Il DNA viene purificato, frammentato e denaturato e poi ibridato con gli inneschi che vanno a legarsi ciascuno su un filamento a un estremo della regione da amplificare. Utilizzando i nucleotidi trifosfati che sono aggiunti alla miscela, la DNA polimerasi allunga gli inneschi in direzione 5’->3’. L’enzima che si utilizza è la Taq DNA polimerasi preparata dal batterio thermophilus aquaticus, in quanto è un enzima termostabile, che non si inattiva anche dopo diversi cicli di esposizione alle alte temperature. I fattori limitanti una reazione di PCR sono la quantità di enzima in quanto l’efficienza della taq può ridursi nel tempo; la quantità dei dNTP in quanto possono degradarsi durante i lunghi cicli; la lunghezza del frammento da amplificare (deve essere tra le 4.000-5.000 bp) in quanto più lungo è minore sarà l’efficienza di amplificazione; la lunghezza dei primer che se sono troppo corti possono ibridarsi a sequenza diverse e invece se sono troppo lunghi possono non denaturarsi in tempo. La lunghezza dei primer deve essere compresa tra i 20 e i 30 nucleotidi, devono avere un contenuto in GC intorno al 40-60%, devono avere la stessa lunghezza, devono avere una uguale temperatura di melting (la temperatura di melting è la temperatura alla quale il 50% delle molecole di DNA sono denaturate) compresa tra i 55-65°C la quale dipende dalla lunghezza e dalla sequenza. La coppia GC determina un incremento di 4° della temperatura di ibridazione, mentre la coppia AT un incremento di 2°C per cui la Tm si calcola facendo [4x (G+C) + 2x (A+T)]. Un ciclo di PCR viene ripetuto per 25-30 volte e ad ogni ciclo si ha un raddoppio del materiale di partenza, ma soltanto dal 4° ciclo in poi si inizia ad avere circa il 50% delle molecole rappresentate dal frammento di interesse e ai cicli successivi la percentuale di molecole corrispondenti al frammento desiderato cresce in maniera esponenziale (2n). Dalla PCR ci si aspetta, quindi, una resa teorica che prevede che ad ogni ciclo si abbia il raddoppio del materiale di partenza, ma la resa teorica non viene mai osservata. Raggiunto il plateau, quindi ottenuto un amplificato, si fa un’elettroforesi su gel di agarosio per osservare il risultato e se l’amplificazione è andata a buon fine ci si aspetta un’unica banda.. Quello che si faceva prima era una PCR semiquantitativa, ossia si metteva a confronto la quantità di prodotto sintetizzato durante la PCR con i prodotti generati da reazione di PCR di riferimento fatte a partire da concentrazioni note di DNA inziale. L’intensità della banda di riferimento, se avesse corrisposto all’intensità di un’altra banda su gel avrebbe permesso di risalire alla quantità di DNA. Però nel punto di plateau la resa non corrisponde alla resa teorica perché col procedere dei cicli l’amplificazione aumenta esponenzialmente sino a rallentare a causa dell’esaurimento dei dNTP/inneschi. Per cui le condizioni ottimali della reazione si alterano e il livello massimo raggiunto non corrisponde al numero di molecole di partenza. Quindi la tecnica di PCR è essenzialmente qualitativa, non è in grado di darci una misura della quantità di una sequenza di DNA di interesse in un campione preso in esame e proprio per questo motivo, ad oggi, si utilizza un metodo più preciso che è la qRT-PCR (o real time RT-PCR). Con questa tecnica quantitativa non si analizza il prodotto amplificato alla fine dei cicli, ma si segue l’amplificazione ottenendo un profilo che descrive l’andamento della reazione stessa. È possibile seguire l’amplificazione impiegando nella soluzione intercalanti fluorescenti, come SYBR green che lega in modo non specifico il solco minore del DNA a doppio filamento e l’intensità del segnale è proporzionale alla quantità di DNA presente nella reazione. Seguendo spettroscopicamente la fluorescenza si ottiene una curva che descrive quantitativamente l’andamento dell’amplificazione. Durante i primi cicli la quantità di DNA è ancora bassa da non poter essere apprezzata, ma successivamente la curva inizia a salire con andamento esponenziale, raddoppiando ad ogni ciclo (curva con andamento sigmoidale). Dopo questa fase esponenziale l’aumento di DNA rallenta fino a raggiungere il plateau. Le curve di amplificazione differiscono per il momento in cui iniziano a salire: una sequenza molto rappresentata nella preparazione inziale di DNA comparirà dopo pochi cicli di amplificazione a differenza di una sequenza poco rappresentata. Dalla curva di amplificazione si può ricavare un dato che è il ciclo soglia (Ct). Questo è un indicatore fedele della quantità di DNA iniziale (basso ciclo soglia= alta [DNA iniziale] / alto ciclo soglia= bassa [DNA iniziale]) ed è il punto al di sopra del quale si ha l’aumento esponenziale della quantità di DNA prodotto dalla PCR. La real time PCR permette una 26 quantizzazione assoluta, ossia permette di quantificare un campione le quali quantità iniziali sono sconosciute, e una quantizzazione relativa, ossia permette di quantificare l’espressione di un gene target paragonandolo ad un gene housekeeping. Si parte con l’estrapolazione dell’mRNA di interesse dal campione in esame e dal controllo, lo si retrotrascrive in cDNA e si amplifica. Ottenute le curve di amplificazione si confronta il Ct dell’mRNA di interesse con quello dell’houseekeeping e si calcola il deltaCt sia per il campione che per il controllo. A questo punto ottenuto il deltaCt del campione in esame e il deltaCt del campione di riferimento (il controllo) è possibile calcolare il delta-deltaCt = Ct campione in esame- Ct campione di riferimento, da cui si ricava il rapporto di espressione o abbondanza del gene bersaglio nel campione: il valore che si ottiene è detto fold induction, ed indica quante volte il gene in esame viene indotto. Il metodo diagnostico più preciso utilizzato per il covid è la RT-qPCR. Con questo metodo è possibile rilevare e quantizzare l’acido nucleico (RNA in questo caso) del virus, in quanto vengono impiegati degli oligo specifici che ibridano solo in presenza della sequenza complementare. Di conseguenza se si ha amplificazione l'esito è positivo, al contrario l’esito è negativo. 27 ncRNA che sono classificati in diverse classi. Per evitare che vi siano contaminazioni da DNA genomico si effettua un trattamento con DNAsi, così da preservare la qualità del materiale di partenza. È ovviamente necessario che l'RNA non venga degradato altrimenti la qualità dei dati finali non sarà ottimale per cui prima di fare un RNA-seq si fa una misurazione fluorimetrica della quantità esatta di RNA utilizzando un macchinario che permette una corsa su gel del campione in esame. Il macchinario restituirà una rappresentazione grafica in caso di RNA degradato e un’altra in caso di RNA integro/intatto. Il bioanalizzatore genera il numero di RIN (quantità di acido nucleico intatto) che è un parametro rilevante solo per l’RNA seq e affinchè si possa procedere con l’esperimento deve essere maggiore di 7. Questi passaggi sono importanti per il sequenziamento di terza generazione perché le sequenze sono più lunghe di 300 nucleotidi e quindi l’RNA non deve essere degradato. Quando si vuole sequenziare l’mRNA è necessario liberarsi dell’rRNA perché altamente ripetuto e abbondante e potrebbe andare a limitare le letture proveniente dall’mRNA. Le procedure che si possono eseguire sono due: - utilizzo di probe biotilinati che si appaiano all’rRNA, dopodichè la streptavidina coniugata a delle biglie magnetiche si lega alla biotina e per mezzo di un magnete viene eliminato (Ribosoma RNA depletion); - utilizzo di oligodt che permettono di selezionare il poliA e quindi per mezzo di biglie magnetiche di catturare gli mRNA. Entrambe queste tecniche sono pull-down, in un caso pull-down dell’rRNA nell’altro caso pull-down del poli-A. L’RNA-seq è una tecnica che può avere diverse applicazioni non solo può essere utilizzata per la codifica del trascrittoma, sequenziando l’mRNA messaggero, ma anche per vedere l’espressione di trascritti di mio interesse impiegando un oligo specifico per la sequenza. Vediamo quali sono i passaggi nella preparazione di una libreria RNA-seq: 1. Purifico l’RNA messaggero catturandolo mediante delle biglie magnetiche coniugate a streptavidinia che legano un oligodT biotilinato che riconosce il poly-A ( se si vuole catturare una determinata classi di RNA si utilizza un oligo con sequenza mirata) 2. Effettuo abbondanti lavaggi con un buffer per allontanare l’RNA che non si è legato 3. Frammento l’RNA in frammenti di circa 200bp (questa è una differenza con il sequenziamento di terza generazione in cui non si frammenta e con la tecnica PacBio si fa il cDNA ma con quella Nanopore non si fa) per rendere il campione quanto più omogeneo e rappresentato in maneira quantitativa. 4. Converto l’mRNA in cDNA a doppio filamento utilizzando dei random primer di 6 nucleotidi 5. Adenilo l’estremità 3’ e riparo l’estremità 5’ per poi applicare degli adattatori che permettano il sequenziamento Una volta che si è fatto il sequenziamento ci sono una serie di passaggi bioinformatici che vengono fatti in maniera automatica e comportano l’allontanamento della sequenza degli adattatori per permettere di mappare le sequenze sul genoma. L’allineamento delle read sul genoma lo si fa se si conosce il genoma, in caso contrario si assembla il trascritto de novo. L’allineamento permette di vedere la quantità di reads che ci sono per ogni porzione espressa (esone): per trascritti molto espressi il numero di reads per esone sarà elevato, per trascritti meno espressi il numero di read per esone sarà meno abbondante. In entrambi i casi, sia che il trascritto sia molto espresso che il trascritto sia poco espresso, il numero di read è pressocchè uguale per ogni esone. Quindi si tratta di una misura quantitativa in quanto ci dice quanto un trascritto è espresso in una cellula. In caso di splicing alternativo il numero di sequenze per esoni non è simile. Questo significa che alcuni esoni sono più rappresentati di altri e quindi ci sono siti di splicing alternativi al 3’ e al 5’; Nel caso in cui vi siano isoforme di splicing con la NGS non è possibile ricostruirle/ individuarle e quindi non è possibile vedere quale isoforma è più espressa o meno espressa. Questo è dovuto alle brevi reads che non permettono di dedurre le combinazioni dei siti di splicing. Inoltre retrotrascrivendo l’mRNA in cDNA si perdono le modifiche post-trascrizionali. Questo è un limite del sequenziamento di seconda generazione che può essere superato solo con il sequenziamento di terza generazione. 30 Gli esperimenti di trascrittomica possono essere utilizzati in caso di trattamento farmacologico confrontando cellule trattate con cellule non trattate in caso di ridotta espressione o delezione genica in caso di patologia confrontando il sano con il malato Come per tutti gli esperimenti per avere un dato significativo e riproducibile bisogna avere almeno quattro replicati biologici (ne basterebbero anche tre per avere una buona confidenza statistica). C’è una differenza tra replicato biologico e tecnico: se le cellule di una linea cellulare le divido in diversi piattini e conduco l’esprimenti separatamente si tratta di replicati tecnici; se le cellule le prelevo da tre organismi separati e le tratto si tratta di replicati biologici. I replicati tecnici non sono caratterizzati a bassa variabilità ma scarsa attendibilità perché si parte da un campione biologico. Per questo motivo si preferisce utilizzare replicati biologici. Principal component analysis Al termine dell’esperimento, prima di procedere, si fa un’analisi delle componenti principali (PCA, principal component analysis). Questa consiste in una procedura per la semplificazione dei dati e lo scopo è quello di ridurre la complessità dei dati a due dimensioni principali, quindi trasforma i dati in un nuovo sistema di coordinate in cui gli assi sono in ordine di importanza, l’asse delle ascisse è la prima componente PC1 mentre l’asse delle ordinate è la seconda componente PC2 e ciò permette di clusterizzare i campioni a seconda della loro variazione generale dei trascritti. Analizziamo due casi di PCA plot: 1) Nel caso in cui si fa un esperimento di trascrittomica mettendo a confronto WT e KO i cluster sono nettamente separati se è questa la differenza principale tra i campioni 2) Nel caso in cui si fa un esperimento di trascrittomica mettendo a confronto due condizioni e i campioni non clusterizzano né da un alto né da un altro, vuol dire che la differenza principale non è quella che si sta considerando, ma il sesso. Le variazioni dovute al sesso si evidenziano con PCA solo se sono molti i geni che fluttuano. Se si considerano anche la componente 3 e la componente 4, allora le due condizioni saranno separate tra loto confermando che la differenza del sesso è più rilevante in termini di trascritti. Moltissimi fenomeni biologici dipendono anche dal sesso quindi bisognerebbe analizzare separatamente femmine e maschi. Questa cosa non si fa, semplicemente quello che si fa è escludere i geni che sono tipicamente maschili (presenti sul cromosoma Y) e i geni tipicamente femminili. Quindi questa procedura viene fatta per capire se l’esperimento è andato a buon fine o meno, il software è in grado di analizzare l’interezza dei dati e di trovare le variazioni principali di ciascun dato. I dati vengono poi proiettati in due dimensioni (PC1 e PC2) e questo dirà quanto simili sono i campioni tra loro. 31 LEZIONE 10 Detecting outliners Il modo più semplice per rilevare un valore anomalo è rappresentare graficamente le caratteristiche o un set di dati. La visualizzazione è uno dei modi migliori e più semplici per avere una visione complessiva dei dati. I grafici a dispersione e i box plot sono gli strumenti di visualizzazione preferiti per rilevare i valori anomali. Al termine di un esperimento i risultati per ogni gene sono riportati in una sorta di tabelle xcel. La quantità di trascritto è espressa in TPM (numero di trascritti per milione) per poi calcolare il fold change (FC): differenza tra il valore sperimentale e il valore di controllo, quindi si ha la media dei controlli e la media dei mutanti e si fa il rapporto. È molto importante sapere se il risultato FC è statisticamente significativo. Per fare un calcolo statistico è possibile calcolare il p-value (test di verifica d’ipotesi) cioè se la differenza tra il risultato osservato e quello ipotizzato è casuale o statisticamente significative. Quindi il p-value calcola in un certo senso la probabilità che una risposta sia statisticamente significativa e tanto più basso è il p-value e tanto più probabile sarà che sia significativo il dato. Per l’RNA-Seq si considera un p-value di 0.05 che sarebbe 5%. Per cui si prendono come buoni tutti quei risultati che hanno meno di un 5% di probabilità di essere sbagliati. Il problema però si riscontra per test multipli, ossia un tasso di falsi positivi del 5% è accettabile per l’esecuzione di un solo test, ma diventa inaccettabile se si eseguono migliaia di test sullo stesso set di dati. Quando quindi si fa un’analisi genome-wide migliaia di ipotesi vengono condotte contemporaneamente su dati non indipendenti di conseguenza c’è una maggiore probabilità di falsi positivi per cui si utilizza un’altra metodica che tiene conto del False discovery rate (FDR), meno permissivo del p- value. Si tratta di un algoritmo a step che permette di trovare un compromesso tra l’errore commesso quando si fanno comparazioni multiple e la potenza statistica. Di solito si prende in considerazione un FDR di 0.05, ma se si vuole essere più stringenti 0.01. Se si analizzano due condizioni, ad esempio wt e mutato, sono significativi i risultati se simili tra di loro nel wt e nel mutato. Inoltre nella statistica è importante il calcolo a priori della significatività che da un’informazione di quanti campioni bisogna realmente andare a vedere. Quando si fa un esperimento bisogna prevedere quanto forte sarà un fenotipo. Quando il fenotipo è forte per l’RNA-Seq basterà un ridotto numero di campioni affinchè il dato sia significativo; se il fenotipo non è forte e le variazioni sono molto poche bisogna alzare il numero di campioni per capire se quelle variazioni sono statisticamente significative. Volcano Plot I dati devono poi essere rappresentati ed analizzati. Una maniera in cui è possibile visualizzare i dati è il Volcano Plot che è sostanzialmente uno scatter plot in cui si mette il log2 FC (Fold change) rispetto a -log10 FDR. Si delimitano quindi due aree prima e dopo lo zero: i geni che ricadono tra -1, 0, +1 sono uguali per tutti i campioni invece tutti quelli lontani da 0 cambiano in modo significativo (prima dello zero cambiamento in negativo o down regolato, dopo lo zero cambiamento in positivo o up regolato) e la significatività statistica sarà data dall’asse delle y dove 1 significa nessuna significatività e più si sale più la significatività aumenta. Quindi il vulcano plot ci consente graficamente di rappresentare quali sono i geni che variano. Hierarcghical clustering e heat map Hierarchical clustering è un algoritmo che clusterizza in maniera gerarchica i profili di espressione genica. L'endpoint è un insieme di cluster, in cui ogni cluster è distinto dall'altro e i dati all'interno di ciascun cluster sono sostanzialmente simili tra loro. Le heat map di valori di espressione genica mostrano come le condizioni sperimentali influenzano l’espressione di un gene per un insieme di geni. In verde (o blu) viene 32 LEZIONE 11 Cell hierarchy reconstruction Con questi esperimenti si può predire una ricostruzione gerarchica dei tipi cellulari. Ad esempio nello sviluppo è possibile tracciare una sorta di traiettoria che le cellule potrebbero aver fatto nel tempo da immature a differenziate. Questa cosa la si calcola a livello bioinformatico e si basa sul fatto che l’mRNA quando viene trascritto subisce presto delle modificazioni post trascrizionali e poi viene degradato; quindi come se seguisse una sorta di traiettoria, di conseguenza è come se si potesse predire il destino/la direzione del trascritto e quindi delle cellule. Tutto ciò si base sul concetto dell’RNA velocity che a sua volta si basa sul rapporto tra i trascritti spliced e quelli unspliced e questo rapporto aiuta a capire la traiettoria verso cui vanno le cellule. Infatti l’RNA velocity è in grado di predire il futuro stato trascrizionale delle cellule. Quindi sfruttando l’RNA-Seq è possibile capire come evolve il trascrittoma nel tempo sulla base dell’mRNA spliceato e non spliceato. Spazial transcriptomics Single cell RNA sequencing identifica sottopopolazioni cellulari all’interno di tessuti, ma non cattura la loro distribuzione spaziale e le loro interazioni. La distribuzione spaziale in un dato tessuto dipende anche da alcuni segnali che derivano dalle cellule adiacenti e da segnali paracrini e siccome questi non possono essere rilevati con scRNA, l’idea è quella di fare trascrittomica spaziale risalendo alla posizione precisa delle cellule in un tessuto. Si sono generati dei vetrini che contengo già gli adattatori con il barcode. Su questi vetrini vengono messi i barcode in sezioni congelate (i tessuti possono essere congelati o in paraffina o in oct). Il tessuto in oct può essere tagliato con criostato, mentre il tessuto in paraffina può essere tagliato con microtomo. Una volta posizionato il tessuti sul vetrino si può fare sequenziamento: l’RNA viene rilasciato e catturato dai probe che forniscono informazioni spaziali. In questo caso si tratta di una trascrittomica spaziale e il numero di spot copre un’area. Expansion sequencing L'identificazione della posizione di specifici RNA all'interno di una cellula o di un tessuto è stata limitata dalla tecnologia e dalle capacità di imaging. La microscopia ad espansione ha consentito una migliore visualizzazione di piccole strutture espandendo i tessuti con un sistema a base di polimeri e idrogel. 35 LEZIONE 12 MECCANISMI DI CONTROLLO DELL’ESPRESSIONE GENICA Il primo livello di regolazione dell’espressione di un gene negli eucarioti ha a che fare con la struttura della cromatina. La cromatina è costituita da ripetizioni di nucleosomi che sono costituiti da un core istonico avvolto da DNA. Ogni istone ha una coda N-terminale che svolge un ruolo importante nella modulazione della struttura e del grado di accessibilità della cromatina. Esse possono subire modificazioni post- traduzionali mediate da enzimi che comprendono: metilazione, acetilazione, fosforilazione, ubiquitinazione, sumoilazione. Acetilazione corrisponde sempre ad apertura cromatinica, mentre metilazione può determinare apertura o chiusura a seconda della lisina. Le regioni eterocromatiche sono trascrizionalmente inattive, mentre quelle eucromatiche sono trascrizionalmente attive. Trascrizione basale Parlare di trascrizione significa parlare di espressione genica. Solo una parte dei geni viene trascritta in un dato tempo ed in una data cellula per cui nelle cellule ci sono geni più espressi e geni meno espressi. È un processo che, a differenza della replicazione, interessa solo una parte del genoma. Questo processo consiste nella sintesi di RNA a partire da DNA mediata dall’RNA polimerasi. Mentre i procarioti hanno una sola RNA polimerasi negli eucarioti è possibile distinguerne tre: - L’RNA polimerasi I che trascrive i geni per l’rRNA eccetto quello per il 5s - L’RNA polimerasi II che trascrive i precursori degli mRNA e per small nuclear RNA - L’RNA polimerasi III che trascrive i geni per l’rRNA 5s, per i tRNA e per piccolo RNA. La polimerasi II è caratterizzata da una lunga coda C terminale indicata come CTD, ossia dominio terminale carbossilico. La coda è un sito di forte regolazione in quanto può essere fosforilata perché ha una sequenza ripetuta dove ci sono una serina in 2, una serina in 5 e una in 7. Il processo di trascrizione comprende diverse fasi che sono 1. pre-inizio e inizio 2. posing ed elongazione 3. terminazione. Quando la doppia elica di DNA viene aperta, l’RNA pol utilizza solo uno dei due filamenti come stampo e sintetizza l’RNA in direzione 5’->3’. L’enzima si lega al promotore posto a monte del gene. 1) Gli elementi che regolano la trascrizione sono regolatori in cis: promotori, enhancer (amplificatori), silencer (legano repressori della trascrizione diminuendo i livelli trascrizionali), insulator (blocca il propagare dello stato cromatinico posto tra regioni di eterocromatina e di eucromatina, ma isola anche l’effetto degli enhancer se posto tra enhnacer e promotore). Il promotore basale non è sufficiente a dare una buona trascrizione per questo ci sono altre sequenze regolatorie che sono vicine al promotore che ne definiscono la forza. Il promotore si divide in core promoter e proximal promoter. Il core promoter ricopre la zona intorno al +1, circa 50bp a valle e 50bp a monte del TSS. La TATAbox fa parte del core promoter e infatti dista circa 20-25bp dal sito di inizio della trascrizione, è la sequenza alla quale si lega la TATA binding protein. Nell’uomo la TATA non è presente frequentemente, e in quei promotori che non contengono la TATA (chiamati TATA-less) ci sono altri elementi come DPE situato (downstream promoter element) situato a valle del TSS. Il core promoter è la combinazione minima di sequenze consenso che permette ai fattori generali della trascrizione di legarsi. Questo è quindi necessario, ma non sufficiente in quanto la trascrizione avverrà molto lentamente. Gli elementi prossimali sono ad una certa distanza a monte del core promoter e gli elementi distali (enhancer) possono essere posizionati a grandissima distanza. Sul promotore si assembla il complesso di pre-inizio della trascrizione (PIC) promosso da fattori basali (TFII, trascription factor II). La proteina che lega l’enhancer può promuovere l’assemblaggio del pic 36 reclutando co attivatori che prendono contatto con le proteine che legano il promotore (RNA pol e fattori generici) grazie al mediatore, un complesso proteico che mette in relazione tutte le regioni regolatorie. Gli enhancer quindi, pur essendo molto distanti vengono a trovarsi in prossimità del promotore. Il mediatore è un complesso multiproteicoche si lega a fattori trascrizionali e cofattori trascrizionali e agli elementi prossimali del promotore. Ciascuna proteina del mediatore riesce ad interagire con più fattori specifici. Tutto questo macchinario iniziale viene stabilizzato da una struttura ad anello che si chiama coesina. Il primo fattore a legare il promotore è TFIID che contiene la TATA binding protein (TBP) e diversi TAF (TATA binding protein associated factors). La TBP è una proteina che quando siede sul DNA legando la TATA e piegando il DNA formando un’ansa. Successivamente si legano TFIIA e TFIIB e in particolar modo TFIIB recluta la pol II. L’enzima arriva associato al fattore TFIIF, e si assembla sul promotore. Vengono reclutati altri due fattori che sono TFIIE e TFIIH e quest’ultimo oltre ad avere un’attività elicasica ha anche un’attività chinasica. Il PIC rappresenta il complesso chiuso, ma nel momento in cui arriva il fattore TFIIH si ha l’apertura della bolla di trascrizione oltre alla fosforilazione in serina 5 della CTD dell’enzima che comporta una serie di cambiamenti conformazionali al suo interno che promuovono la formazione del complesso aperto. Quest’apertura rende disponibile lo stampo. Il mediatore si dissocia dal PIC così da rendere possibile l’avanzamento della polimerasi. E’ stato condotto un lavoro in cui è stata descritta la struttura della RNA pol II e del complessi di pre-inizio con una nuova tecnica: Cryo-elettron-Mycroscopy. È una tecnica che si basa sulla microscopia elettronica e prevede un flash-freezing, congelamento velocissimo, di una soluzione di proteine. Successivamente questo campione viene bombardato da elettroni e questo permette di ottenere una serie di immagini che nell’insieme permettono di ricostruire una struttura 3D che poi viene analizzata da dei software. Nel 2021 si è arrivati ad un ingrandimento pari a 1.5 angstrom e ciò ha permesso di ricostruire tutto il complesso di inizio della trascrizione con una maggiore risoluzione. Hanno utilizzato una combinazione di fattori tra cui anche la pol II endogena di maiale e hanno assemblato tutto su un promotore dell’adenovirus. Il limite di questo studio è che non si tratta di una struttura in vivo però a differenza delle altre tecniche precedenti (cristallografia e la spettroscopia NMR che sta per risonanza magnetica nucleare) permette una maggiore risoluzione con un buon ingrandimento. 1) Nella transizione tra la fase di inizio e di allungamento della trascrizione il CTD della RNA pol II viene fosforilato sulla serina 7 e sulla serina 5 e tale fosforilazione è mediata dal fattore TFIIH e CDK7. Questo permette un avanzamento dell’enzima e una successiva fosforilazione in serina 2 durante l’allungamento. Per un momento coesistono le fosforilazioni in serina 5,7 e 2, ma poi il gruppo fosfato sulla serina 5 e sulla serina 7 viene rimosso da una fosfatasi e la CTD, per la fase di terminazione resta fosforilata solo in serina 2. La polimerasi dopo una fase di inizio e dopo aver avanzato di circa 30/50 nucleotidi si ferma perché lega due proteine DSIF e NELF. Quando interviene il fattore di elongazione P-TEFb (fattore di elongazione) associato al complesso ciclinaT1-CDK9 si ha una fosforilazione sia delle due proteine che bloccano l’enzima, sia della serina 2 della CTD e la trascrizione riprende. Il processo di trascrizione non è un processo continuo ma avviene in burst; il promotore alterna casualmente due stati: uno in cui è attivo e avviene la trascrizione e l’altro in cui è spento e non viene prodotto mRNA. La forza della trascrizione dipende dalle sequenze promotrici: la sequenza core-promotore determina la dimensione del burst, ovvero il numero di trascrizioni, il numero di molecole di Pol II per burst, mentre i potenziatori aumentano la frequenza di burst. I fattori trascrizionali che modulano lo stato di condensazione della cromatina all’inizio della trascrizione per permettere al mediatore di interagire con gli enhnacer e il promotore sono detti pionieri. Vengono anche reclutati rimodellatori della cromatina che mantengono stabile lo stato cromatinico. I fattori trascrizionali non agiscono da soli, ma in associazione a co-attivatori o co-repressori (co-fattori che a differenza dei fattori di trascrizione non sono in grado di legare il DNA direttamente) e la capacità di un fattore trascrizionale di legare il DNA è data anche dalla cooperatività tra fattori e cofattori ed è proprio questa combinazione che 37 enhancer nei cheratinociti. L’altra regione, C38 non aveva mostrato alcuna attività enhancer. Allora facendo una cromatin immunoprecipitation su chip videro che entrambe le regioni, CD40 e CD38 legavano p63 e quindi immaginarono che ci fosse un feedback autoregolativo e che P63 agisse su enhnacer che agiscono sul suo promotore. Effettivamente molti fattori trascrizionali si autoregolano. Appurato questo allora generarono dei costrutti con varie combinazioni: solo CD40, solo CD38, insieme. Trasfettarono poi i costrutti in dei cheratinociti primari (p63 è espresso solo nei cheratinociti) e videro che CD40 induceva molto l’espressione mentre C38 no, ma posti insieme si aveva un’espressione circa 140 volte maggiore della luciferasi. Hanno poi fatto un esperimento opposto, hanno costruito dei costrutti in cui hanno inserito la lunga regione enhancer di p63 andando a rimuovere o solo C38 o solo C40. Videro che perdendo CD40 si perdeva totalmente l’attività, ma perdendo CD38 non si perdeva l’attività, ma in cellule differenziate perdo il controllo. Quindi CD40 e CD38 sono una regione enhancer per le cellule proliferanti e non quelle differenziate, ma perdo il controllo se perdo C38 perché è una delle regioni che più legano p63. Nei tessuti, diversi enhancer partecipano alla regolazione di un promotore a seconda di quali fattori di trascrizione saranno presenti in un tessuto o in un altro. I primi studi condotti al fine di identificare gli enhancer si basavano solo sull’allineamento dei genomi, ma in realtà i genomi nel corso dell’evoluzione si evolvono subendo modifiche come inversioni, delezioni, traslocazioni, duplicazioni. Di conseguenza quello che si riusciva a individuare erano solo quelle regioni regolatorie che mantenevano le medesime posizioni nelle diverse specie, ma è stato dimostrato più recentemente che un enhancer non deve rimanere co-lineare da una specie ad un’altra. Siccome l’azione di un enhancer è indipendente dalla distanza, dalla posizione e dall’orientamento esso può trovarsi anche ad elevate distanze dal promotore che regola. L’identificazione di uno degli enhnacer più distali non è avvenuta con mappe funzionali, ma con la conservazione durante l’evoluzione. Si tratta dell’enhancer del gene Sonic Hedgehog. La proteina sonic hedgehog (SHH) è una delle tre proteine della famiglia delle hedgehog; le altre due sono la desert hedgehog (DHH) e la indian hedgehog (IHH). SHH è uno dei ligandi più studiati della via di segnalazione di hedgehog (hedgehog signaling pathway); questa via è fondamentale nella regolazione dell'organogenesi nei vertebrati, per esempio nel differenziamento delle dita e degli arti, ma è importante anche per lo sviluppo di altri distretti. La proteina sonic hedgehog è il migliore esempio di molecola morfogenetica: tale molecola si diffonde producendo un gradiente di concentrazione, e le cellule dell'embrione si sviluppano in tessuti diversi, a seconda della concentrazione locale di SHH. Ma tale molecola è importante anche nell'età adulta: controlla la divisione cellulare delle cellule staminali adulte ed è implicata in alcuni tipi di cancro. Durante lo sviluppo dei tessuti ci sono vari pathway che interagiscono tra di loro. Nel caso del pathway di Sonic, la proteina interagisce con il suo recettore PTCH (“pech) attivandolo. A seguito di questo legame viene liberato da delle vescicole un altro recettore SMOOthened (“Smooten”) anch’esso proteina di membrana con il quale PTCH può interagire. Questa interazione permette l’attivazione di GLI che essendo un fattore trascrizionale entra nel nucleo. Il pathway di sonic si trova sul cilio, una struttura che funge da sensore. L’attivazione costitutiva di questo pathway è l’evento primario che provoca alcuni tumori come medulloblastoma o carcinoma basocellulare della pelle. L’alterazione dell’espressione di Sonic Hedgehog inoltre è causa di polidattilia anche se in alcuni topi e pazienti con polidattilia preassiale (quando il dito o le dita extra spuntano dalla parte del pollice nella mano o dell'alluce nel piede) non si è riscontrata alcune mutazioni di sonic. Infatti è stata individuata una traslocazione reciproca che interessava una porzione del genoma vicino a Sonic. La traslocazione era a 800.000 bp da sonic, su un gene chiamato LMBR1. Visto che si sapeva che questo gene non era coinvolto nello sviluppo degli arti, si è pensato potesse esserci una qualche altra regione regolatoria coinvolta nelle sue più ristrette vicinanze. Quello che inoltre notarono fu la comparsa di polidattilia in un topo transgenico. Questo poteva significare che l’insersione in quella regione poteva aver causato il fenotipo perché provocata un’interruzione tra regione regolatoria e promotore. Allora per prima cosa sono andati a cercare regioni conservate negli introni lunghi di questo gene LMBR1 e hanno individuato un putativo enhancer. Hanno fatto un costrutto mettendolo vicino ad un promotore minimo e il gene per la beta- galattosidasi e quando hanno ottenuto il topo transgenico hanno osservato effettivamente espressione solo nell’arto. Hanno dimostrato che si trattava di un enhancer e siccome interagiva con fattori di trascrizione propri di quella regione, doveva aver a che fare con sonic. Per dimostrarlo hanno fatto un topo knock-out di quella regione e hanno visto che nel topo lo sviluppo degli arti non si verificava. Individuarono mutazioni in 40 questo enhnacer anche in quei pazienti con polidattilia, e sonic wt. Con questo esperimento hanno dimostrato che un enhancer può essere anche distale. Questo caso che abbiamo visto, della mutazione nell’enhancer si Sonic è uno dei pochi casi in cui la mutazione è in una regione di regolazione. Le mutazioni possono cadere nella CDS e nella regione regolatoria, ma quest’ultima è più flessibile e a meno che non muti una base fondamentale è difficile ci siano effetti devastanti. Questo stesso enhancer molto più recentemente sono andati ad osservarlo nei serprenti. Confrontando le vari specie hanno visto che la regione è molto conservata. Nei serpenti, invece, o è mutata o del tutto assente e questo è logico evolutivamente parlando perché i serpenti non hanno gli arti e quindi non hanno bisogno di questo enhancer che regoli Sonic. L’enhancer di Sonic è piuttosto grande e sono evidenziabili 4 regioni molto conservate tra le varie specie, mentre i serpenti perdono completamente alcune regioni o presentano delle delezioni. Hanno quindi generato topi transgenici in cui questo elemento che chiamano ZRS viene utilizzato per promuovere l’espressione di LacZ. Si prende quindi ZRS da tutte le specie e si fa questo costrutto con ZRS, il promotore minimo e il gene LacZ. Quello che hanno visto a livello degli embrioni è che solo nel caso dell’enhancer derivante dai serpenti o si aveva espressione aberrante o si aveva assenza di espressione. Infine fanno fatto un esperimento Knock-in sostituendo l’elemento endogeno ZRS del topo con quello delle altre specie per ottenere una dimostrazione più sofisticata mendiate crispr/cas. L’arto si è formato correttamente sostituendo la porzione endogena con quella dell’uomo, del pesce …eccetto con quella del pitone o del cobra. Il topo con l’elemento ZRS del serpento è stato denominato serpentizzante perché privo di arti. Allora è stato fatto un allineamento della regione ZRS e videro che in tutti i serpenti mancavano 17bp presenti in tutte le altre specie. L’ipotesi era che a questa sequenza si legasse un qualche fattore per cui con sistemi di predizione hanno individuato ETS1. Per confermare tale ipotesi si è ripristinato l’enhnacer nel topo serpentizzante facendo un knock-in e rimettendo solo le 17bp. Quello che si è osservato fu inversione di fenotipo. Con ciò dimostrarono che il binding di ETS1 all’enhnacer di Sonic, posto a 800.000bp, è fondamentale per la funzione del gene e quindi ai fini della formazione degli arti. Nel 2020 è stato pubblicato un altro lavoro in cui è stato dimostrato che ci sono enhancer ancora più distali, infatti ne è stato individuato uno a 1.45 megabasi da un gene espresso nelle creste neuronali che è SOX9. L’enhancer di SOX9 regola il gene e interagisce con il fattore di trascrizione TWIST1. La mutazione di questo enhancer provoca la sindrome di Pierre Robin, una patologia che provoca la dislocazione della mandibola (NON BISOGNA RICORDARE TUTTI I NOMI, MA SOLAMENTE CHE ESISTE UN ENHANCER PIU’ DISTANTE). Quindi gli enhancer sono stati individuati inizialmente mediante la genomica comparativa che ha permesso di individuare le regioni evolutivamente conservate. Ma per individuare le regioni conservate ci sono approcci diversi come le mappe funzionali che possono essere di due tipi: - Mappe funzionali di regioni cromatiniche aperte - Mappe funzionali di regioni ai lati di enhancer o promotori, modificate. (La Chip consentendo l’individuazione di modifiche istoniche ha permesso l’individuazione di regioni di regolazione come gli enhancer che sono affiancate sempre da istoni acetilati che in genome browser appaiono come picchi e queste regioni in cui la cromatina non è compattata sono sensibili alla DNAsi). I modelli murini permettono di vedere fenomeni o studiare meccanismi che altrimenti non sarebbero osservabili in vitro come lo sviluppo embrionale, la fisiologia dei tessuti, le patologie ereditarie, il cancro, e gli elementi regolatori. I toni transgenici sono modelli in cui si ha l’espressione esogena di un gene sotto il controllo di un promotore ubiquitario o tessuto specifico. Sono modelli ottimali per validare le dinamiche degli enhancer. Si costruisce infatti un costrutto in cui oltre al promotore si inserisce la CDS lasciando il primo introne che favorisce la stabilità del messaggero. I topi transgenici si generano per microiniezione del DNA esogeno, reso lineare, nel pronucleo maschile subito dopo la fecondazione (quindi nello zigote). Al momento della fusione dei due pronuclei il DNA esogeno si integra random per cui per ogni topo si avrà 41 un’espressione diversa del gene in quanto può dipendere dal contesto genomico. Per essere certi che l’espressione non sia influenzata dal contesto genomico in cui si inserisce il DNA esogeno, bensì dal promotore o regione regolatoria inserita nel costrutto, nei risultati devono esserci più topi con la stessa espressione. Quindi il procedimento prevede che ci sia una femmina donatrice e che sia super ovulata e fatta accoppiare con un maschio. L’ovulo fecondato con i pronuclei deve essere prelevato e deve essere microiniettato il DNA lineare contenente il transgene all’interno del pronucleo maschile. Gli ovociti microiniettati vengono impiantati in una madre adottiva resa pseudogravida dall’accoppiamento con un maschio vasectomizzato. Viene infine fatto un prelievo degli embrioni, oppure si attende che nasca la progenie per fare le opportune analisi. I topi Knock-in sono modelli in cui si ha la sostituzione o l’inserzione mirata di un gene o di una porzione di gene in un locus specifico in cellule embrionali staminali. I topi Knock-out sono modelli in cui si ha la delezione mirata di un gene o di una porzione di un gene in cellule embrionali staminali. La differenza tra un topo transgenico, un topo knock-in o knock-out consiste proprio nella specificità. Per avere il topo omozigote per la mutazione si fa un incrocio tra due eterozigoti. Le cellule staminali embrionali che vengono prelevate dalla massa interna blastocisti (cellule pluripotenti che sono in grado di differenziare nei tre foglietti embrionali), vengono trasfettate e reinserite in un embrione di topo. Il risultato è un topo chimerico perché si sviluppano sia le cellule proprie dell’embrione, sia le cellule modificate impiantate e siccome proverranno da un ceppo diverso faranno in modo che il topo sia chiazzato, riconoscibile dal fenotipo del mantello. Questo poi deve essere incrociato con un topo wt in modo da poter osservare se anche la linea germinale è stata contaminata dalle cellule ricombinanti. In tal caso si avranno topi con i nuovi geni in eterozigosi. Infine incrociando questi si otterranno topi omozigoti per la mutazione, per il gene deleto. Per fare knock-in/out utilizzati topi maschi perché trasmettono più in maniera efficiente la mutazione. Per fare un knock-out o knout-in si devono clonare delle regioni di omologia lunghe tra le 1000 e le 5000bp inserendole di fianco ad un gene per la resistenza alla neomicina. Siccome la cassetta per la resistenza alla neomicina integrata nel costrutto può interferire con il knock-out/in viene fiancheggiata anch’essa da sequenze loxP riconosciute dalla ricombinasi Flip così da poter poi essere allontanata. Questo può essere fatto in vitro come in vivo, ma in quest’ultimo caso bisognerà incrociare un topo con un altro che esprime la Flip. Si effettua la trasfezione mediante, ad esempio, elettroporazione e per selezionare le cellule che hanno acquisito il materiale esogeno si sfrutta un terreno selettivo. Il 90% delle cellule ha un’inserzione random in quanto la ricombinazione omologa non è così efficiente e quindi bisognerà fare uno screening mediante PCR o Southern per capire se l’inserzione è avvenuta o meno all’altezza del gene. Le cellule che risultano avere l’inserzione nel punto esatto possono essere iniettate in una blastocisti per fare il topo chimerico. Fare un topo knock-out convenzionale significa sottrarre il gene in tutte le cellule per studiare il target gene in un tessuto e si rischia di provocare la morte dell’animale in più se si ha un certo fenotipo diventa anche difficile capire da cosa dipende. Allora si preferisce una metodica condizionale ossia si fa il KO che sia tessuto specifico e regolato temporalmente. Per fare un knock-out condizionale si utilizza la CRE ricombinasi, una proteina piccola che riconosce due siti piccoli di 100 bp che prendono il nome di LoxP che sono riconosciuti come siti di taglio. Si crea quindi un topo in cui si è sostituito per ricombinazione omologa l’esone di interesse con lo stesso esone che ha però ai due lati le sequenze LoxP. Questa sostituzione non comporta alcun effetto fin quando non si incrocia con un topo con il gene CRE posto sotto il controllo di un promotore tessuto specifico. Nel topo derivante CRE ricombinasi sarà espressa e andrà a tagliare in prossimità di quei siti rimuovendo l’esone, generando quindi un transgenico eterozigote per la proteina CRE. È possibile utilizzare una CRE ricombinasi non solo tessuto specifica, ma anche temporalmente attivabile utilizzando una proteina di fusione ossia il recettore dell’estrogeno chiamato CreER. Questa è sensibile ad un analogo dell’estrogeno chiamato Tamoxifene e quando è assente la proteina è inattiva e bloccata nel citoplasma, ma nel momento in cui viene somministrato al topo il recettore si attiva, cambia conformazione ed entra nel nucleo. 42 possibile vedere che i geni associati agli enhancer individuati sono geni associati ad una data funzione perché se quello che si osserva è un arricchimento di questi geni all’interno di una classe funzionale che ha a che fare con il tessuto considerato allora probabilmente gli enhancer individuati in quel tessuto sono vicini a questi geni. In effetti questa cosa è verificata e in questo modo si è dimostrato che individuando gli enhancer si individuato geni associati che sono già associati a un tipo di processo. In alcuni casi, ovviamente, gli enhancer che si identificano hanno geni vicini che non sono associati alla funzione. Per effettuare l’associazione geni-enhancer si può utilizzare un sito, GREAT che predice le funzioni delle regioni regolatorie in maniera non perfetta perché va a cercare le regioni più vicine. Si fa una chip-seq utilizzando un anticorpo specifico contro un fattore di trascrizione. Si prendono i vari picchi ottenuti con Chip-Seq e si caricano su questo sito. Questo software, una volta inserite le opportune informazioni come il tipo cellulare, permette di vedere i geni adiacenti ai siti di interazione che corrispondono ai picchi però è un po' limitato perché mi consente di vedere fino a un massimo di 2 geni prossimali per un massimo di 1000 basi a monte e 1000 basi a valle. Il software, dato il comando fa una predizione dicendomi quali sono i geni associati ai picchi. Quest’analisi è significativa quando l’enhancer è vicino a dei geni che sono regolati dal fattore di trascrizione considerato. Un’altra analisi che si può fare è cercare all’interno della sequenza dell’enhancer un motivo consensus binding site di fattori di trascrizione tessuto specifici. Ciò dimostra ulteriormente che l’enhancer è tessuto specifico. Oltre agli enzimi che modificano gli istoni, ci sono anche quelli con azione opposta. Nel caso dell’acetilazione gli enzimi iston deacetil trasferasi rimuovono il gruppo acetilico dalla lisina 27 dell’istone H3. Esistono diverse classi di enzimi che svolgono tale azione, le più studiate della quali sono HDAC1 e HDAC2 che agiscono come complessi multienzimatici e interagendo con fattori di trascrizione chiudono la cromatina. Una loss of function di HDAC1 è, durante lo sviluppo, letale, mentre di HDAC2 causa la morte per malformazioni cardiache. HDAC1 e HDAC2 partecipano a differenti complessi repressori come NuRD. Metilazione Mentre l’acetilazione è sempre un processo di apertura cromatinica e quindi attivazione trascrizionale, la metilazione a un effetto diverso a seconda del residuo di lisina modificato: - La metilazione della lisina 4 determina apertura cromatinica che è mediata da un complesso che si chiama trithorax, mentre il complesso NuRD media la demetilazione. - La metilazione della lisina 9 determina chiusura definitiva della cromatina. Il segnale H3K9Me3 è associato all’eterocromatina costitutiva e infatti tale modificazione si riscontra nelle regioni centromeriche e telomeriche. - La metilazione della lisina 27 è mediata dal complesso PRC2 della famiglia polycomb e si verifica solo quando non si ha acetilazione del medesimo residuo. Gli istoni possono essere mono, di o tri metilati e tale modifica è mediata da iston metil trasferasi che trasferiscono sul residuo di lisina un gruppo metile ceduto dal cofattore SAM (S-adenosil metionina). Gli enzimi KMT2D e KMT2C sono istone lisina N-metiltrasferasi e spesso nei tumori si riscontrano mutazioni a carico di questi rimodellatori, quasi con una frequenza pari alle mutazioni di p53. Quindi quelli che sono i marcatori istonici da ricordare sono; 1. H3K27Ac marcatore che identifica le regioni enhancer/promotore attivi, infatti in genome browser i due picchi di H3K27Ac fiancheggiano le regioni regolatorie e dal punto di vista biologico significa che gli istoni si sono spostati. 45 2. H3K27Me3 marcatore di promotori/enhancer inattivati, segnale associato a geni silenti nell’eucromatina ed eterocromatina facoltativa. 3. H3K4Me3 marcatore di apertura cromatinica e promotori attivi. LEZIONE 16 COMPLESSI PROTEICI MODIFICATORI DELLA CROMATINA Esistono due famiglie di complessi che agiscono svolgendo funzioni opposte, si tratta di Trithorax e Polycomb. - Trithorax è un complesso di metilasi (SET1 A/B, KMT2D, KMT2C) coinvolto nella metilazione della lisina 4 dell’istone H3, in particolar modo alcune mediano la trimetilazione a livello dei promotori, altre la monometilazione a livello degli enhancer (KMT2D e KMT2C). Quest’ultime facilitano anche il reclutamento di alcuni attivatori come P300/CBP. - Polycomb è una famiglia di complessi repressivi che svolgono però funzioni diverse in quanto PRC2 (Ezh2 è la metilasi) trimetila la lisina 27 sull’istone H3 e questo segnale recluta PRC1 in conseguenza a questa metilazione va a ubiquitinare la lisina 119 sull’istone H2A. Polycomb è coinvolto anche nell’inattivazione del cromosoma X: XIST va ad attivare PRC2 che metila gli istoni H3 sulla lisina 27 lungo tutto uno dei due cromosomi X e questo recluta la PRC1 generando il corpo di Barr. Polycomb e trithorax garantiscono il mantenimento dell'identità cellulare: le modifiche che apportano sono alla base della memoria cellulare epigenetica che mantiene stati di espressione genica repressi o attivi. Il primo gene polycomb fu scoperto in Drosophila melanogaster e prende il nome di una mutazione dei combs (pettini) molto presenti nel maschio in quanto utilizzati per l’accoppiamento. Il primo gene trithorax è stato isolato come regolatore dell'espressione del gene Hox. Gli studi condotti su Drosophila hanno permesso di capire come si regola lo sviluppo dell’assetto anteroposteriore nel corpo degli animali. Tale regolazione è mediata dai geni Hox, ovvero fattori di trascrizione Homeobox transcription factors che hanno un dominio di legame al DNA che l’Homeobox. I geni Hox sono soggetti a regolazione sia spaziale che temporale durante lo sviluppo e ciò che regola la loro attivazione e inattivazione sono proprio i due complessi polycomb e trithorax che agiscono in maniera opposta aprendo e chiudendo la cromatina. In Drosophila c’è un unico locus per i geni Hox suddivisi in due cluster: Antennapedia Complex e Bithorax complex. I geni contenuti in questi due cluster si accendono in sequenza temporale per lo sviluppo dell’asse anteroposteriore e sono infatti organizzati in maniera co-lineare con l’asse del corpo. Nel passaggio da invertebrati a vertebrati è avvenuta una doppia duplicazione genica che ha portato a un raddoppio dei cluster che se nella Drosophila era solo uno, nei mammiferi sono 4. I cluster non contengono tutti i geni perché nel corso dell’evoluzione le mutazioni portano anche a perdita di un gene o inattivazione e in quest’ultimo caso si ha la formazione di pseudogeni. Questi geni Hox non sono importanti solo nella fase di sviluppo, ma anche post sviluppo. Nell’uomo possono manifestarsi patologie legate a mutazioni dei geni Hox. Nell’uomo ci sono 39 geni Hox raggruppati nei 4 cluster Hox A, B, C e D e molti lncRNA tra cui Hotair. Hotair (Hox trascript antisense RNA) agisce in trans in quanto si trova nel locus HoxC e agisce sul locus HoxD. È in grado di formare complessi con metilasi PRC2 (che agisce trimetilando la lisina 27 dell’istone H3 determinando chiusura cromatinica) e demetilasi LSD1 (che agisce demetilando la lisina 4 dell’istone H3 determinando chiusura cromatinica) che coordinano l’inibizione della trascrizione, quindi di fungere da scaffold reclutando complessi che vanno ad agire su HoxD inattivando il locus. E’ stato pubblicato un lavoro in cui si è fatto un knock-out di Hotair. Non conoscendo nello specifico quale fosse la regione importante è stato allontanato tutto, non essendo neanche molto grande (2.1kb) essendo costituito solo da 2 esoni. Eliminando Hotair si sono verificate anomalie a livello scheletrico come difetto a livello del polso con assenza di alcune ossa e transizione della vertebra lombare L6 alla vertebra sacrale S1. Quindi con il knock-out di Hotair osservano malformazioni morfologiche dell'organismo durante lo sviluppo che coinvolgono lo scheletro perché questo lncRNA favorisce il silenziamento del locus HoxD. 46 L’impacchettamento della cromatina impedisce la trascrizione. Per promuovere la trascrizione sono necessarie due eventi: modificazione istoniche e azione di enzimi che rimodellano la cromatina ATP- dipendenti che determinano lo slittamento del nucleosoma/estrusione del nucleosoma. Alla cromatina ancora compattata si legano dei fattori pionieri (come Sox2 espresso nelle cellule staminali embrionali) che sono in grado di legare dall’esterno i nucleosomi e reclutare rimodellatori della cromatina. Il rimodellamento della cromatina espone i siti regolatori e alcuni studi hanno dimostrato che più c’è spacing tra i nucleosomi in una regione che presenta un enhancer o un promotore e più l’espressione genica sarà alta. I complessi rimodellatori della cromatina ATP-dipendenti possono permettere la chiusura o l’apertura della cromatina. Tra i complessi di rimodellamento della cromatina ATP-dipendenti c’è il complesso SWI/SNF in cui sono presenti due ATPasi, Brg1 e BRM, che mediano l’apertura cromatinica eliminando un nucleosoma. Il rimodellamento è un processo dinamico perché recenti studi hanno appurato che il mantenimento della regione aperta è dovuta ad una continua attività del complesso. L’azione di questo complesso associata a quella di una iston acetil transferasi (HAT) comporta apertura cromatinica e attivazione trascrizionale. L’azione invece di deacetilasi (HDAC) e metilasi (HMT) provoca chiusura cromatinica. Questi complessi di rimodellamento ATP-dipendenti sono costituiti da molte proteine diverse e alcune di queste (BAF) sono diverse a seconda dei tessuti, formano complessi diversi anche nella stessa cellule e vanno a legare in maniera tessuto-specifica i fattori di trascrizione pionieri che reclutano il complesso. Le proteine BAF costituiscono il core dei complessi SWI/SNF e a seconda della loro presenza o assenza viene mediata l’apertura o la chiusura di regioni diverse perché si ha l’interazione con diversi fattori di trascrizione. Un altro complesso di rimodellamento della cromatina ATP-dipendente è INO80 e tre diverse proteine di questo complesso legano p63. 47 cellulare tende a prevalere sugli altri. Sono stati trasfettati i quattro fattori di Yamanaka posti sotto il controllo di un promotore inducibile TetO, che può essere indotto dall’aggiunta di doxiciclina (questo lo fanno perché parte dei fibroblasti vengono congelati e all’occorrenza possono essere indotti). Al giorno 0, hanno aggiunto in coltura la doxiciclina che induce l’espressione dei quattro fattori di Yamanaka. Dopo 3 giorni circa hanno aggiunto LIF e un particolare mezzo che stimola l’induzione. Al secondo e quarto giorno hanno fanno il silencing con siRNA per le componenti del complesso NuRD. La fanno per due volte consecutive a dimostrazione del fatto che la modifica non è permanente, ma temporanea in quando l’oligo a RNA viene diluito nel tempo, non rimane nella cellula, di conseguenza il silenziamento dei geni lo si ha per quei pochi giorni che servono ad avere la pluripotenza. La riprogrammazione è stata valutata mediante colorazione rossa al giorno 9. La colorazione rossa è dovuta all’aggiunta di un substrato per una fosfatasi alcalina che le cellule iPS producono e si è visto che il silenziamento di Mbd3 fa diventare molte cellule rosse, ma anche il silenziamento di Gatad2a. Per cui quello che hanno capito è che anche silenziando Gatad2a è possibile indurre il reprogramming ed è possibile ottenere iPS in breve tempo, 9 giorni invece che 2/4 settimane. Dopo di questo sono andati a vedere l’effetto sulla proliferazione e una delle maniere per misurare la proliferazione è somministrare alle cellule bromodesossiuridina che è un analogo della timidina. Al momento della replicazione del DNA questo viene incorporato nella molecola al posto della timidina. Con anticorpi anti-BrdU è possibile poi vedere quante cellule si sono replicate. Quello che vedono è che silenziando Mbd3 solo il 10% delle cellule risultano BrdU positive, mentre sono molte di più con Gatad2a. Questo significa che il silenziamento di Gatad2a non provoca difetti per cui le cellule possono proliferare ed espandersi. Oltre il silenziamento hanno fatto anche un Crispr/Cas perché ad oggi per dimostrare la veridicità dei dati non solo si fa un silencing (knout-down) impiegando più siRNA per gene, ma si fa anche il knock-ou con crispr/cas. In questo caso hanno utilizzato un solo siRNA per ciascun gene e avrebbero potuto esserci effetti off target. Con il Crispr/cas ottengono lo stesso risultato ottenuto con il silencing: facendo il knock-out di Gatad2a al 6 giorno si hanno colonie di iPS. Quindi con questi esperimenti hanno capito che il complesso NuRD impedisce il reprogramming, ma bloccandolo si ha l’induzione delle iPS. MODIFICAZIONE EPIGENETICA Le modifiche epigenetiche comprendono le modifiche a carico degli istoni (delle code N-terminali degli istoni) e le modifiche a carico del DNA. Tra le modifiche a carico del DNA quella più studiata è la metilazione della citosina nel dinucleodite CpG. Quello che si verifica è l’aggiunta di un gruppo metilico sul carbonio 5 della citosina e il donatore di questo gruppo è l’S-adenosil-metionina (SAM). In alcune regioni del genoma è alta la densità con la quale sono presenti questi dinucleotidi e queste regioni sono definite isole CpG. La metilazione del DNA a livello di isole CpG è associata con repressione genica. Tali isole CpG, sono preferenzialmente localizzate al promotore dei molti geni, in particolar modo di geni house-keeping (geni costitutivi quei geni che vengono attivamente trascritti e tradotti a un livello relativamente elevato. Generalmente, essi codificano proteine ed enzimi fondamentali per la vita della cellula, e che pertanto devono essere sempre presenti) Questa metilazione delle isole CpG è una modificazione (repressoria) epigenetica ereditaria cruciale per sviluppo dei mammiferi che coinvolge processi coordinati di metilazione del DNA, demetilazione e mantenimento della citosina metilata. La metilazione delle sequenze CpG è dovuta alle DNA metil trasferasi (DNMT) o metilasi che aggiungono un gruppo metilico in posizione 5 della citosina. Le metilasi si dividono in due categorie: - Metilasi de novo (Dnm3ta e Dnm3tb) che aggiungono gruppi metilici in nuove posizioni - Metilasi di mantenimento (Dnmt1) che riconoscono i siti emimetilati a seguito della duplicazione del DNA e aggiungono un metile alla citosina del filamento non metilato rendendo i siti completamente metilati (ripristinando la condizione di full metilated). 50 La metilazione delle isole CpG determina inattivazione del cromosoma X e inoltre il profilo di metilazione del genoma viene mantenuto uguale durante il susseguirsi dei cicli di replicazione del DNA. Questo fatto è responsabile del fenomeno definito imprinting genetico che risulta nell’espressione della copia genica proveniente da un genitore e non della copia genica proveniente da un altro genitore. Inoltre la metilazione delle isole CpG si verifica anche nelle regioni pericentromeriche, ricche di zone ripetute (satelliti) non espresse; in queste regioni vengono reclutate le metilasi per metilare i siti CpG. Un metodo per analizzare lo stato di metilazione delle CpG direttamente nel DNA estratto dalle cellule di interesse è la mappatura con bisolfito. Si tratta il DNA con bisolfito di sodio che determina la conversione della normale citosina in uracile (deaminazione) mentre la citosina metilata non viene modificata. Dopo il trattamento con il bisolfito il DNA viene amplificato mediante PCR, clonato ed infine sequenziato. Il risultato di questo sequenziamento viene confrontato con la sequenza iniziale. Le citosine metilate e non metilate possono essere facilmente identificate perché dopo il trattamento con bisolfito le citosine metilate sono rimaste citosine, mentre le altre sono diventate timine. 51 LEZIONE 18 Il PROGETTO ENCODE Il progetto ENCODE è iniziato nell’era post genomica, dopo il sequenziamento del genoma umano e murino. L’idea alla base del progetto ENCODE è quella di ottenere un’enciclopedia integrata di elementi funzionali del genoma umano. Il progetto ENCODE è stato fatto anche per il genoma murino, per drosophila e per C.elegans in quanto farlo su altre specie ci consente di avere più informazioni dettagliate da comparare con l’uomo. Lo scopo di questo progetto capire cosa contiene tutto quello che si riteneva essere DNA spazzatura. La prima fase di ENCODE è iniziata quasi subito dopo la fine del sequenziamento del genoma ed è stata molto discussa perché si riteneva potesse essere un progetto molto costoso, per cui si è pensato di partire da una fase pilota ossia una fase che permettesse di capire cosa si potesse ricavare da questo tipo di studi. Per cui ci si è focalizzati solo sull’1% del genoma: ogni ricercatore che partecipava alla fase pilota ha selezionato una regione di suo interesse e poi si è partiti con varie tecnologie per conoscere quante più cose possibili su questo 1%. Nella fase due si è deciso di procedere con il sequenziamento dell’intero genoma. Siccome si aveva focalizzato l’attenzione sulle regioni regolatorie e dato che queste cambiano da un tessuto ad un altro sono stati selezionati 147 tipi cellulari diversi (tra cui cellule primarie, i cheratinociti erano tra queste) e sono stati generati tantissimi set di dati identificando 70.000 promotori e 400.000 enhancer (i numero non gli chiede all’esame!!!). Non è stato fatto ancora nessun tessuto. Negli studi sono stati inclusi anche il genoma murino, di drosophila e di C.elegans. La fase tre e la fase quattro hanno ampliato ulteriormente gli studi implementando nuove tecnologie. L'obiettivo è di trovare tutti gli elementi funzionali presenti nel genoma umano (studiare il trascrittoma, le proteine che legano l’RNA, le modifiche della cromatina, il profilo di metilazione del DNA, l’accessibilità della cromatina ai fattori di trascrizione, le regioni regolatorie). Tutti i dati generati nel corso del progetto vengono distribuiti rapidamente nei database pubblici così che tutte le informazioni sono messe a disposizione dell’intera comunità scientifica. GENCODE (Encyclopedia of genes and gene variants) è un progetto scientifico nella ricerca sul genoma e fa parte del progetto ENCODE. Il consorzio GENCODE è stato inizialmente formato come parte della fase pilota del progetto ENCODE . L'obiettivo del progetto GENCODE è identificare e classificare tutte le caratteristiche dei geni nell'uomo e genomi di topo e il risultato sarà una serie di annotazioni che includono tutti i loci codificanti proteine con varianti trascritte alternativamente (quello che è risultato è che i geni non hanno un solo trascritto, ma in media 6), loci non codificanti (non coding RNA) con evidenza di trascrizione e pseudogeni. Per identificare tutti i trascritti ci sono diverse tecniche, tra cui: L’RNA-seq che è la tecnica più utilizzata al momento. C’è l’RNA-seq che viene fatta per i grandi RNA, è una che viene fatta per i piccoli RNA (small RNA-Seq). Per identificare gli inizi di trascrizione è stata utilizzata una tecnica specifica: CAGE (cap analysis of gene expression. Questa procedura prevede la cattura del cap dell’mRNA che è posizionato al 5’ ed è dato dalla 7- metil guanosina. La 7-metil guanosina presenta un residuo di diolo a cui si lega chimicamente una biotina che consente la cattura con delle biglie magnetiche coniugate a streptavidina. In questo modo si catturano gli RNA interi, in una determinata cellula, che hanno il CAP. Successivamente quei mRNA vengono retrotrascritti in cDNA. L’estremità 5’ delle molecole di cDNA viene catturata/ selezionata da un adattatore mediante il metodo cap-trapper (cacciatore). Questo adattatore ha il sito specifico per un enzima di restrizione che ha un meccanismo d’azione particolare perché riconosce il sito di restrizione, ma taglia a 27 bp a valle da questo. In questo modo taglia all’interno della regione CDS lasciando 27 bp di distanza dal TSS. Viene sintetizzato con dei random primer il secondo filamento di cDNA. A questo punto avviene la digestione del dsDNA e il legame con un secondo adattatore all’estremità 3’. Avviene la PCR per costruire 52 con adattatori di sequenziamento e rende possibile l’inserimento di quest’ultimi in regioni accessibili della cromatina. Quindi scinde e contrassegna il DNA a doppio filamento con adattatori di sequenziamento e i frammenti di DNA contrassegnati vengono purificati, amplificati con PCR e sequenziati utilizzando il sequenziamento di nuova generazione. Questa tecnica è quindi una variante della DHS-seq in quanto impiega Tn5 per individuare le regioni cromatiniche accessibili. Dimostrare interazioni tra regioni distanti L’identificazione degli enhancer non da nessuna informazione su quali geni vengano regolati dagli enhancer stessi in quanto noi sappiamo che possono essere prossimali, distare massimo 1000bp dal TSS oppure distali e quindi distare più di 1000bp dal TSS fino a 1.5Mb come nel caso dell’enhancer del gene SOX9 (nelle creste neuronali). Quindi identificare un’enhancer non da la certezza che questo interagisca con il promotore del gene vicino. L’interazione enhancer-promotore si ha grazie alla formazione di un loop di cromatina mediato dalla presenza di fattori, cofattori e del mediatore che consente alle due regioni di entrare in contatto e di essere fisicamente vicine. Sulla base di questa osservazione ci sono diversi approcci sperimentali che permetto di studiare interazioni tra regioni distanti di DNA che vengono però a trovarsi associate nello spazio 3D, tra cui: a) 3C (Chromosome conformation Capture) b) Hi-C (High throughput Capture) a. Questa tecnica permette di rilevare interazioni tra promotore-enhancer che sono vicini nello spazio pur essendo molto lontani nel genoma e di quantificarle. Le sequenze di DNA che co-localizzano all'interno di una regione del nucleo vengono fissate utilizzando formaldeide. Dopodichè si opera un taglio utilizzando un'endonucleasi di restrizione che ha siti di riconoscimento in prossimità delle due regioni regolatorie generando estremità sticky. Le estremità tagliate del DNA sono unite in condizioni diluite, favorendo la ligazione solo delle sequenze all’interno di un complesso fisso, quindi delle sequenze vicine. Il DNA a questo punto viene purificato e i frammenti legati vengono rilevati mediante PCR con primer noti ed ecco perché questa tecnica richiede la conoscenza preliminare delle regioni interagenti. Il sequenziamento profondo del materiale prodotto da 3C produce anche mappe di interazioni dell'intero genoma b. Questa tecnica permette di rileva in modo completo le interazioni della cromatina a livello del genoma (analisi 3C genome-wide). Il primo step è la lisi cellulare e le interazioni vengono fissate con formaldeide. Si effettua la digestione della cromatina con un enzima di restrizione (Hind II) e le estremità 5’ protruding vengono riempite con un deossiribonucleotidi biotilinato. Si effettua la ligazione in condizioni di elevata diluizione tra le estremità blunt marcate che erano vicine spazialmente. Si effettua l’inversione del cross-linking e purificazione del DNA e le proteine che tengono i frammenti interagenti in stretta vicinanza vengono così rimosse. Si ottiene così una miscela di frammenti marcati e non marcati. Si effettua la rimozione della biotina dalle estremità non legate. Il DNA viene sonicato per ridurne le dimensioni dei frammenti a 200-300 bp. Si effettua un pull-down così che i frammenti che presentano il nucleotide marcato vengono separati dalla restante miscela utilizzando biglie coniugate a streptavidina. Per il sequenziamento del DNA, gli adattatori per Illumina sono legati a entrambe le estremità dei prodotti di legatura, si costruisce una library genomica con amplificazione dei frammenti legati e poi si effettua il successivo sequenziamento. Alla fine, quello che si ottiene è la mappa completa di interazioni che si rilevano in un determinato pool di cellule. In un lavoro, condotto su fibroblasti umani, è stato visto che quattro è il numero medio di elementi distali che possono interagire con un TSS (promotore), così come due è il numero medio di TSS che può interagire con un elemento distale. Probabilmente parte delle interazioni 55 rilevate non sono funzionali e quello che è stato visto è che la maggior parte di queste interazioni avviene in una cellula e non in un’altra. Infatti è stata messa a punto una Hi-C su singola cellula ed è stato visto che ogni singola cellula ha interazioni proprie. Questa tecnica però non ha dato risultati poco soddisfacenti in quanto la media di tutte le interazioni in una singola cellula corrisponde a quello che si vede in una Hi-C su una popolazione cellulare. La principale differenza tra i metodi è la loro portata. Quando si utilizza la PCR per rilevare l'interazione in un esperimento 3C, vengono quantificate le interazioni tra due frammenti specifici in un pool di cellule. Al contrario, Hi-C quantifica le interazioni tra tutte le possibili coppie di frammenti contemporaneamente in un pool di cellule, quindi è una versione della 3C genome-wide (dell’intero genoma). Nonostante tali tecniche di cattura della conformazione cromosomica implementino sempre più la microscopia ad alta risoluzione, comunque non si può dire con assoluta certezza qual è il target di uno specifico enhancer in quanto la conformazione della cromatina è molto dinamica per cui la dinamica di tali interazioni non è stata ancora chiarita. 56 LEZIONE 20 HiChIP-Seq Questa tecnica associa l’identificazione dei punti di contatto (Hi-C) con la ChIP per H3K27Ac che è un marker di enhancer e promotori attivi ed è un’alternativa per identificare contatti tra regioni regolatorie. Questa combinazione di approcci consente di ottenere informazioni relative all’associazione di regioni genomiche distanti megabasi tramite la stessa proteina interattrice. Il primo step è il cross-linking con formaldeide per fissare i contatti tra regioni di DNA e proteine. Successivamente si procede con la lisi nucleare e con la sonificazione per frammentare il DNA. Si effettua una chip (immunoprecipitazione della cromatina) catturando direttamente le interazioni a lungo raggio associate ad una stessa proteina con anticorpi anti H3K27Ac. Una volta immunoprecipitato alle estremità dei frammenti si aggiungono deossiribonucleotidi biotilinati rendendo le estremità blunt, queste legano, si effettua un revers crosslinking per interrompere le interazioni con le proteine, si aggiungono gli adattatori e si procede con la costruzione di una library per mezzo di PCR e poi sequenziamento con Illumina. Un’altra cosa che si può fare è utilizzare anticorpi anti coesina, struttura ad anello che è indispensabile per stabilizzare queste interazioni tra regioni regolatorie. Il protocollo HiChIP è riproducibile e può essere completato in appena due giorni. Inoltre, elimina parte delle interazioni aspecifiche e richiede meno materiale. Adottando questa procedura per cellule embrionali ed utilizzando sia anticorpi anti H3K27Ac che anticorpi anti coesina si è visto che buona parte delle interazioni era la stessa. Nel tempo queste tecniche stanno subendo delle evoluzioni e stanno diventando sempre più raffinate. TERRITORI CROMOSOMIALI, COMPARTIMENTI A e B E TADs Il genoma presenta vari livelli di organizzazione. I cromosomi (100-300Mb) sono il livello di organizzazione massima della cromatina e mentre in mitosi risultano altamente compattati, in interfase hanno una disposizione nucleare non random, si distribuiscono occupando territori discreti, definiti territori cromosomici. All’interno di questi territori si distinguono dei compartimenti di eterocromatina (B) e eucromatina (A). Nei singoli domini A e B è possibile distinguere i domini di associazione topologica (TAD), regioni del genoma grandi tra le 500.000 a 1 milione di bp con frequenza di interazione tra promotore e enhancer molto elevata. I TADs sono insieme di loops di dimensioni inferiori, anse isolate formate dall'interazione che permettono l’interazione tra regioni regolatorie. Gli insulator (o boundery) sono piccole porzioni di DNA che isolano regioni topologiche da altre evitando che una regione genomica controlli regioni vicine (bloccano il propagarsi dello stato cromatinico), ma non solo isolano anche l’azione degli enhancer sui promotori se posti tra i due elementi regolatori. L’insulator lega una proteina CTCF definendo il confine dei TADs. Le regioni regolatorie all’interno di un TAD è molto più probabile che interagiscano tra di loro e non con elementi posti oltre i boundery perché fisicamente separati. Ma se l’insulator è metilato i CTCF non si possono legare e i confini dei TADs si annullano, per cui si può avere attivazione dei geni in regioni della cromatina diverse. I TADs sono stati evidenziati dagli esperimenti di Hi-C. Hic-Map consente di rappresentare l’area tra i due boundery, quindi il TAD, come un triangolo e questo è definito da tutti i possibili contatti ed interazioni tra gli elementi. All’interno di ogni triangolo, quindi di dominio, ci sono dei loops di cromatina che rendono possibile l’interazione tra gli elementi regolatori e che vengono rappresentati come triangolo più piccoli. Per rappresentare la forza delle interazioni e l’attivazione di queste regioni si utilizza una scala di colori che consente di rappresentare la frequenza di contatto tra elementi regolartori (il rosso più scuro significa frequenza di contatto maggiore). I TADs si formano con maggiore frequenza tra siti CTCF "convergenti" (ovvero siti con motivi CTCF di consenso che puntano l'uno verso l'altro) sui quali si legano le proteine CTCF e la regione poi viene stabilizzata dall’anello di coesina. In un lavoro sono stati messi a confronto fibroblasti e cellule staminali embrionali per vedere l’organizzazione dei TADs. Con il knock-down di CTCF si è avuto aumento delle interazioni tra TADs diversi anche se non completa abrogazione dei confini TAD e similmente con il knock- 57 SUPER RESOLUTION MICROSCOPY Tutte le tecniche per l’analisi della conformazione della cromatina permettono di ottenere una media delle interazioni che si hanno in un pool di cellule. Quello che si vorrebbe fare è invece studiare la dinamicità di tali interazioni nelle singole cellule con tecniche di microscopia che permettono di seguire tali movimenti nel tempo. C’è però un limite che è la diffrazione della luce, perché una radiazione luminosa quando colpisce un campione crea la luce riflessa che provoca diffrazione per cui il segnale specifico viene visto più grande di quello che realmente è. Allora è stato messo a punto un sistema che supera questo limite, STED (microscopia a deplezione di emissioni stimolate), una delle tecniche che compongono la microscopia a super risoluzione. Utilizza due laser uno di eccitazione e uno di deplezione e crea immagini a super risoluzione mediante la disattivazione selettiva dei fluorofori, riducendo al minimo l'area di illuminazione nel punto focale e migliorando così la risoluzione ottenibile per un dato sistema. Si tratta di tecnologie che permettono la ricostruzione dell’immagine al computer. La PALM (microscopia di localizzazione fotoattivata) è una microscopia a fluorescenza ad ampio campo per superare il limite di diffrazione per raggiungere risoluzioni tipiche dell'ordine di 20 nm. La PALM prevede di controllare la fluorescenza di singole molecole, mediante brevi stimoli. Poiché le molecole emettono luce una ad una, è possibile separare i fotoni provenienti da ogni emettitore. Per visualizzare le strutture di ordine superiore dei TAD e le loro dinamica nelle cellule di mammiferi vivi è possibile fare a microscopia di localizzazione fotoattivata a cellule vive ossia combinare la microscopia di localizzazione fotoattivata (PALM) e il tracciamento del singolo nucleosoma. Questa combinazione permette di seguire i nucleosomi nel loro movimento. Si utilizza una proteina di fusione H2b-molecola fotoattivabile- mcherry (colore rosso). Quindi quando la proteina di fusione si esprime questa viene incorporata nel genoma per sostituzione dell’istone e non in grandissima quantità e la proteina di fusione acquisisce fluorescenza dopo stimolazione laser UV permettendo di attivare i singoli nucleosomi. Con questa tecnica di illuminazione obliqua è possibile illuminare un'area sottile all'interno di un singolo nucleo e permette di seguire il movimento dei nucleosomi definendo regioni eucromatiche ed eterocromatiche in quanto nelle regioni eterocromatiche si muovono di meno invece nelle regioni eucromatiche di più. E’ stato visto che trattando il campione con un inibitore della iston deacetilasi, tricostatina A, quello che si osserva è un aumento nella velocità di movimento dei nucleosomi, similmente si ottiene un aumento di movimento dei nucleosomi silenziando una componente della coesina RAD21. L’idea allora è quella di combinare la microscopia ad alta risoluzione con single cell Hi-C per poter osservare la conformazione della cromatina e capire quali sono le interazioni in single cell. 60 LEZIONE 22 L’organizzazione del genoma in vari livelli strutturali è stata vista con la FISH (ibridazione in situ fluorescente), tecnica che utilizzando sonde (a RNA o DNA) specifiche, permette di determinare il numero di copie di un dato cromosoma presente all’interno del nucleo o di regioni presenti su specifici cromosomi e l’utilizzo di fluorocromi diversi consente di marcare le sonde specifiche, rendendo possibile la visualizzazione simultanea di bersagli cromosomici differenti nello stesso nucleo. La chromosome paiting (CP) è una tecnica per visualizzare l'intero cromosoma tramite ibridazione in situ fluorescente (FISH) utilizzando sonde di pittura cromosomiche specifiche. Per la distinzione dei vari colori vengono utilizzati microscopi dotati di più laser che permettono di elaborare l’immagine. Quindi questa tecnica consente di seguire la condensazione e de-condensazione dei cromosomi nel tempo e permette di vedere che dopo la mitosi i cromosomi si de-condensano e si distribuiscono in territori nucleari non in maniera casuale, infatti si dispongono in modo da posizionare i compartimenti trascrizionalmente inattivi (B) verso i margini della lamina nucleare e i compartimenti trascrizionalmente attivi (A) verso la zona centrale del nucleo. I compartimenti B, eterocromatici, di ogni territorio cromosomico sono esposti e posizionati nei domini LADs (laminar associated domain) che sono localizzati nella parte periferica del nucleo, e attorno al nucleolo. Inoltre la posizione di regioni specifiche all'interno del territorio cromosomico è correlata all'attività trascrizionale infatti le regioni ricche di geni tendono a localizzarsi alla periferia dei territori cromosomici, quindi ad essere maggiormente esposte (sempre rivolte verso il centro del nucleo) così che il macchinario trascrizionale possa essere condiviso tra geni attivi su cromosomi diversi. Naturalmente tale localizzazione non è la stessa per tutti i tessuti in cui ci sarà la trascrizione di alcuni geni e non di altri e viceversa. Si è visto, mediante diversi studi, che i LADs hanno una bassa densità, sono poco trascritti, contengono una serie di marcatori istonici come H3K9Me e anche H3K27Me3. La lamina nucleare è composta da diverse proteine tra cui proteine che formano filamenti intermedi: lamina A, lamina B e lamina C. Queste proteine sono talmente importanti che una mutazione a loro carico è causa di LAMINOPATIE. Queste sono condizioni estremamente rare che colpiscono bambini e provocano un progressivo invecchiamento di tutti i tessuti con morte precoce. Questo ci dice che il sequestramento del DNA inattivo trascrizionalmente alla periferia del nucleo è un meccanismo cruciale perché laddove non si verifica a causa di eventuali mutazioni nei geni per le proteine della lamina nucleare, provoca gravi conseguenze. Per cui la domanda che ci si è posti è se sono le regioni eterocromatiche a posizionarsi a livello della lamina nucleare o se è il fatto di essere presenti nei LADs e quindi alla periferia nucleare che le rende trascrizionalmente inattive. In un lavoro abbastanza recente si è cercato di capire proprio questo. Sono stati condotti due tipi di esperimenti: 1. Durante il primo esperimento hanno clonato dei promotori presenti nei LAD in plasmidi e hanno ottenuto come risultato 3 classi differenti di promotori: i promotori che erano inattivati a livello endogeno lo erano anche in un contesto plasmidico, invece quelli che erano repressi a livello endogeno erano attivi in un contesto plasmidico. La terza classe era rappresentata dagli escaper, promotori attivi in entrambi i contesti. 2. Durante il secondo esperimento hanno inserito nei LADs promotori normalmente attivi e si è visto che effettivamente i LADs hanno un’influenza repressoria, possono impedire sia l'attività del promotore che l'allungamento della trascrizione. Centinaia di promotori umani diventano attivi quando vengono spostati dalla loro posizione nativa LAD a un contesto neutrale nelle stesse cellule, indicando che i LAD formano un ambiente repressivo. Un altro insieme di promotori all'interno dei LAD è in grado di "sfuggire" alla repressione, sebbene il loro allungamento della trascrizione sia attenuato. Hanno dimostriamo che i promotori di escape sono intrinsecamente meno sensibili alla repressione del LAD. Ciò non è semplicemente spiegato dalla forza del promotore, ma dall'interazione tra la sequenza del promotore e le caratteristiche della cromatina locale. Il livello di organizzazione strutturale inferiore ai compartimenti è rappresentato dai TADs. I TADs abbiamo visto che sono dei domini in cui la frequenza di interazione intra-cromosomiale è alta, ma esistono anche 61 delle interazioni inter-cromosomiali ossia interazioni tra elementi regolatori che si trovano su cromosomi differenti. Nel nucleo è evidente una compartimentalizzazione che non è dovuta alla presenza di organelli, ma si verifica un fenomeno che è definito phase separation (separazione di fase) per cui le proteine si auto- organizzano in goccioline simili a liquidi, agendo come organelli o condensati privi di membrana che concentrano molecole specifiche, escludendone altre. Sono stati condotti diversi studi in merito a questo argomento che hanno dimostrato l’esistenza di una disposizione non randomica dei CT nel nucleo. In particolar modo, Fraser ha condotto un lavoro durante il quale ha studiato Interazione funzionale tra architettura del genoma ed espressione genica. Questi studi sono stati condotti sul tessuto eritroide murino. I geni delle globine trascrizionalmente attivi si associano a centinaia di altri geni co-regolati. Per cui hanno studiato le interazioni intra e inter cromosomiche. Gli studi sono stati condotti utilizzando una immunoFISH che ha permesso di evidenziare diversi RNA nascenti e RNA pol II implicate nel processo di trascrizione. Sono stati osservati due geni: il gene dell’emoglobina A e il gene dell’emoglobina B. La prima cosa che hanno fatto è stato identificare le regioni nucleari in cui è localizzata la RNA pol II, quindi regioni trascrizionalmente attive e poi gli RNA nascenti. I due target sono stati evidenziati per mezzo di fluorocromi di colori diversi. Quello che hanno osservato è che c’è spesso una co-localizzazione tra l’emoglobina B e altri geni, per cui sono co-regolati, vengono trascritti in maniera coordinata pur essendo molto distanti sui cromosomi. Con ciò hanno dimostrato l’esistenza di HUB trascrizionali in cui si organizza l’espressione dei geni che non si trovano sullo stesso cromosoma, ma che vengono in maniera coordinata espressi. Per questo motivo sono andati a quantizzare la frequenza di co- localizzazione e questa è risultata molto bassa. Per cui le interazioni inter-cromosomiali avvengono, ma con una frequenza molto bassa. Per dimostrare che il fenomeno di co-assocazione non era random hanno utilizzato l’emoglobina B umana (HbB) anziché murina generando un transgenico. Il costrutto è stato realizzato utilizzando il vettore YAC che può accogliere un frammento di grosse dimensioni per cui la porzione considerata non era quella sola del gene, ma una porzione più ampia da comprendere anche i suoi enhancer e il suo promotore. Il transgene si inserisce random nel genoma, ma l’influenza del contesto genomico sarà relativa perché lo YAC contiene l’intera porzione genica che interessa il gene HbB. Successivamente per evidenziare la localizzazione del gene è stato utilizzato un probe coniugato ad una molecola flurescente (rossa) e quello che ci si aspettava, data l’ipotesi, è che questo co-localizzasse con il gene dell’HbB murina in quanto presentano una regolazione simile e non vicino al gene HbA. Quello che osservano conferma a pieno l’ipotesi infatti in tutte le linee transgeniche, con una diversa percentuale, c’è co- localizzazione del gene dell’emoglobina B umana e murina. Per cui nonostante l’inserzione è avvenuta random, questo ha dimostrato che i geni co-localizzano nel nucleo facilitando la co-trascrizione. Come tutto questo avvenga non è ancora chiaro, si pensa che la co-localizzazione dei geni sia mediata da non-coding RNA. Oltre ai non coding RNA, molte proteine a lungo considerate componenti del citoscheletro possono effettivamente avere un impatto sulla trascrizione. Tali proteine sono: - Le lamine che interagiscono direttamente con la cromatina e determinano l’organizzazione nucleare. - La miosina nucleare che si associa alle RNA polimerasi I e II - L'actina nucleare si co-purifica con tutte e tre le RNA polimerasi conosciute e con più complessi regolatori epigenetici - I geni simili all'actina si associano a diversi regolatori epigenetici. L'actina e le proteine simili all'actina sono componenti della matrice nucleare e fanno parte dei complessi di rimodellamento. La matrice nucleare o scaffold è costituita in gran parte da lamine e proteine come il fattore di attacco dello scaffold, cioè regioni di attacco scaffold/matrice (S/MAR) che sono elementi del DNA che servono a compartimentalizzare la cromatina in domini strutturali e funzionali. La matrice nucleare è composta non solo da proteine non cromatiniche ma anche da RNA lunghi e ricchi di ripetizioni che svolgono un ruolo strutturale come piattaforma. 62 alla sostituzione di una precisa sequenza con una sequenza differente scelta dall’operatore. Il risultato finale è l’editing genomico, cioè modificazioni del genoma. Le due modalità di riparo sono: a. Non-homologous end-joining (NHEJ), sistema non molto preciso b. Homologous recombination (HR), sistema molto preciso I sistemi di editing genomico ci consentono di introdurre modificazioni genetiche, ma, a differenza di tecnologie già esistenti, non comportano necessariamente l'introduzione di sequenze di DNA in nuove posizioni del genoma; in pratica si interviene direttamente sul gene già presente andando, a seconda dei casi, a introdurre mutazioni o casuali o mirate per ottenere gli effetti desiderati sfruttando i meccanismi naturali di riparazione dei danni del DNA. Tutti i sistemi di editing genomico recenti sfruttano il medesimo meccanismo: guidare un enzima che taglia la doppia elica del DNA in un sito specifico del genoma, e quindi fornire eventualmente alla cellula la sequenza donatrice per riparare il danno ed effettuare la correzione della sequenza. Il sistema CRISPR/Cas9 è però molto più facile da applicare perché richiede solamente di identificare la sequenza dove tagliare e di fornire la guida di RNA all’enzima Cas9. Quindi, la sola variabile è un piccolo frammento di RNA. Negli altri due sistemi (TALEN e Zn-finger) occorre ingegnerizzare in laboratorio intere proteine, senza contare che l’efficienza di editing risulta essere inferiore. CRISPR/Cas9, TALEN e ZFN sono uno strumento importante nel campo dell'editing del genoma. 1) ZFN (Zinc finger nucleases) sono enzimi di restrizione artificiali generati fondendo un dominio di legame al DNA che contengono ripetizioni di dita di zinco con un dominio di scissione del DNA (Il dominio di scissione non specifico dell'endonucleasi di restrizione Fok 1). I domini delle dita di zinco possono essere ingegnerizzati (mediante degli algoritmi) per mirare a specifiche sequenze di DNA desiderate e ciò consente alle nucleasi di mirare a sequenze uniche all'interno di genomi complessi. Sfruttando il meccanismo di riparazione del DNA endogeno, questi possono essere utilizzati per alterare con precisione i genomi degli organismi superiori. 2) TALEN (Transcrip-on ac-vator-like effector nucleases) sono enzimi di restrizione che possono essere ingegnerizzati per tagliare sequenze specifiche di DNA. Sono realizzati fondendo un dominio di legame del DNA dell'effettore TAL con un dominio di scissione del DNA (una nucleasi che taglia i filamenti di DNA). Gli effettori simili ad attivatori di trascrizione (TALE) possono essere progettati per legarsi praticamente a qualsiasi sequenza di DNA desiderata, quindi quando combinati con una nucleasi, il DNA può essere tagliato in posizioni specifiche. Gli effettori TAL sono proteine secrete dai batteri Xanthomonas attraverso il loro sistema di secrezione di tipo III quando infettano le piante. ZFN e TALEN richiedono l'ingegneria di una proteina che riconosca in modo specifico ogni nuovo sito target. 3) Nucleasi CAS nel sistema CRISPR-Cas CRISPR, sono brevi ripetizioni palindrome raggruppate e separate a intervalli rinvenibili in batteri e archea. Queste brevi ripetizioni sono sfruttate dal batterio per riconoscere e distruggere il genoma proveniente da batteriofagi simili a quelli che hanno originato le CRISPR. Le CRISPR costituiscono uno degli elementi di base del sistema CRISPR/Cas, coinvolto nell'immunità acquisita dei procarioti. Il grande vantaggio del CRISPR è che non necessita di una proteina che riconosca il DNA, infatti affinché la nucleasi Cas possa in futuro riconoscere il batteriofago e degradarne gli acidi nucleici, il batterio genera un trascritto di RNA del locus CRISPR (nel quale sono presenti, sottoforma di spacer, porzioni di DNA di un batteriofago simile che ha attaccato precedentemente il batterio). Questo trascritto è denominato CRISPR-RNA, in sigla crRNA. Proprio questa differenza dalle altre procedure ne ha permesso l’applicazione sia nei topi che in cellule di altri organismi. Sono state effettuate diverse analisi bioinformatiche e si è dimostrato che la sequenza di DNA identificata dalla nucleasi Cas nel genoma del batteriofago (indicata come protospacer) non è 65 selezionata in maniera casuale, ma presenta un motivo al 5’ di circa 2-6 pb. Questa sequenza è indicata con la sigla PAM (Motivo adiacente al Protospacer). PAM è il componente genico del virus invadente, ma non è un componente del locus CRISPR del batterio (quindi affianca il protospacer, ma non lo spacer). Se non seguita da nessuna sequenza PAM, infatti, la sequenza di DNA da clivare/modificare non sarà né legata né riconosciuta da Cas. PAM è un bersaglio essenziale che permette di distinguere il DNA-self dei batteri quello non-self. È infatti assente nei genomi batterici e ciò previene che la nucleasi Cas riconosca e distrugga il locus CRISPR. I loci CRISPR sono trascritti e il trascritto primario viene elaborato dalla Cas che è una nucleasi (Cas) generando una libreria di RNA derivati da CRISPR (crRNA) che contengono ciascuno una sequenza complementare a un protospacer presente nel genoma di un batteriofago. I crRNA si associano per appaiamento diretto con i tracrRNA che sono non-coding RNA (generando l’RNA guida) che a loro volta hanno la capacità di legare la Cas. In questo modo si attiva il sistema e il complesso va a tagliare il DNA bersaglio. Una versione semplificata di questo sistema (detta CRISPR/Cas9) è stata modificata per fornire un potentissimo e precisissimo strumento di modificazione genetica che risulta di impiego molto più facile, e al contempo più economico, rispetto alle tecnologie preesistenti. Grazie al sistema CRISPR/Cas9 è stato possibile modificare permanentemente i geni di molteplici organismi. La Cas 9 è una proteina che possiede due domini endonucleasici Ruvc e HNH e tagliano solo a seguito dell’appaiamento tra spacer (presente nel crRNA) e protospacer (presente nel genoma del batteriofago associato ad una PAM). Nel caso della Cas9 la sequenza PAM è di 3 nucleotidi: -NGG. Due componenti devono essere introdotti e/o espressi nelle cellule o in un organismo per eseguire l'editing del genoma: 1. Nucleasi Cas9 2. RNA guida (gRNA): fusione di un crRNA e un tracrRNA fisso 20nt all'estremità 5' del gRNA (corrispondente al protospacer porzione del crRNA) dirigono Cas9 verso un sito di DNA bersaglio specifico. Cas9 può essere facilmente indirizzata contro qualsiasi sequenza genomica cambiando lo spacer da 20 bp dell'RNA guida. Esistono dei tools bioinformatici che permettono di disegnare i guideRNA quanto più specifici possibili per il gene di interesse. I plasmidi CRISPR/CAS ciascuno codificante per la nucleasi Cas9 e per un RNA guida target-specifico di 20 nt designato per una massima efficienza di knockout vengono trasfettati all’interno delle cellule. Questi siti target devono trovarsi immediatamente al 5' di una sequenza PAM che corrisponde alla forma 5'-NGG. Il double strand breack (taglio) viene effettuato a -3 bp dalla sequenza PAM, quindi viene tagliata la sequenza complementare al gRNA, e può generare estremità blunt o estremità sticky. La Cas9 Wildtype con gRNA chimerico ha un'elevata efficienza ma è stato dimostrato avere effetti off target. Si hanno effetti off-target inferiori con la Nickasi Cas9 perché la nickasi Cas9 non ha la capacità di indurre rotture a doppio filamento come fa la Cas9 wt ed è più precisa. La Nickase è una Cas9 mutata che taglia solo su un singolo filamento, per cui riconosce una specifica sequenza, si appaia con lo spacer ed effettua un taglio a single strand, e l’altra fa la stessa cosa appaiandosi ad una sequenza vicina. Il vantaggio è che si hanno due tagli vicini ed utilizzando 20bp da entrambi i lati il taglio sarà molto specifico. Questa procedura potrebbe essere molto comoda, ma rende tutto più complicato perché le nickase devono legarsi nello stesso momento e bisogna avere la stessa efficienza. Oltre alla Cas9 esistono altre varianti naturali e ingegnerizzate del sistema che permettono di riconoscere, oltre alla sequenza NGG, anche altre sequenze ampliando la possibilità di poter modificare anche altre porzioni del DNA. La Cas9 che si utilizza oggi è la SPCas9-HFI. CRISPR-Cas crea tagli a doppio filamento nel DNA, innescando meccanismi di riparazione del DNA: non- homologous end joining e homologous repair. HR è il meccanismo preferito dalla cellula in fase S/G2 perché a seguito della replicazione possono essere accumulati diversi errori che necessitano di essere corretti. Questo meccanismo avviene quando i cromatidi 66 fratelli sono vicini e permette la correzione del DNA solo in presenza di un DNA omologo che funga da templato e a seguito della replicazione il DNA è duplicato quindi si hanno regioni di omologia per cui può avvenire ricombinazione omologa. Se si fornisce un DNA esogeno, contenente una sequenza genica che ci interessa, che abbia delle braccia di omologia è possibile che si effettui il riparo utilizzando questo DNA come modello che andrà a sostituire la sequenza tagliata da Cas9 modificando la sequenza genica. Oppure i ricercatori possono attendere che sia la cellula stessa a riparare il danno; le due ends possono appaiarsi però nella maggior parte dei casi questo porta allo spegnimento della funzione del gene. NHEJ è il modo più frequente per la cellula di riparare il DNA. Il processo NHEJ è avviato dal legame dell'eterodimero KU70/80 ad entrambe le estremità rotte dei filamenti di DNA con conseguente reclutamento di nucleasi, polimerasi e ligasi. CAS9 taglia e continua a tagliare se l’errore viene corretto nel modo giusto e fino a quando PAM non rimane vicino al protospacer. Ma il processo NHEJ può mediare l’indels, ossia una micro-inserzione o delezione di alcune basi. Se si ha l’inserimento o la cancellazione di 3 nucleotidi, un aa viene inserito o cancellato. Quindi il sistema CRISPR/CAS9 funziona, ma non si avrà il 100% delle cellule con la stessa mutazione. Per cui pur essendo un ottimo sistema si preferisce affiancarlo ancora a sistemi di knock-down, così da avere un riscontro. Le strategie per il knock-out di un gene con questo sistema sono: non mettersi proprio all’inizio del gene in quanto si rischierebbe di mandare fuori frame una proteina perché potrebbe esserci a valle una metionina che fa partire la traduzione; per cui ci si mette abbastanza al 5’ della CDS a) Prima possibilità è utilizzare un gRNA che guida la Cas che determina il double strand breack, riparo con NHEJ che media o micro inserzioni o micro delezioni (indel) che in una buona percentuale di casi porta la proteina fuori frame e quindi stop codon a valle e la proteina non si fa. Oppure l’altra possibilità è utilizzare la HR, quindi inserimento di un oligo nucleotide a singolo filamento con uno stop codon intrinseco che funga da templato e che venga inserito per ricombinazione. b) Seconda possibilità utilizzare due gRNA così da determinare il taglio in due punti della stessa regione. In questo modo si rimuove la porzione centrale ai due tagli. È possibile inserire piccoli tag (come Flag) sequenze che permettono di taggare una proteina, e questo los i può fare mediante HR un single strand oligonucleotide contenente un tag cherrye bracci di omologia di 40– 60 bp. E’ possibile inserire tag più grandi o marker fluorescenti (come GST, mCherry o GFP), ma anche siti LoxP se si desidera fare un knock-out condizionale. La nucleasi Cas9 diretta da gRNA può indurre mutazioni indel, sostituzione o inserimento di sequenze specifiche. Invece coppie di nucleasi Cas9 dirette da gRNA possono stimolare grandi delezioni o riarrangiamenti genomici (ad es. Inversioni o traslocazioni). 67
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved