Docsity
Docsity

Prepara i tuoi esami
Prepara i tuoi esami

Studia grazie alle numerose risorse presenti su Docsity


Ottieni i punti per scaricare
Ottieni i punti per scaricare

Guadagna punti aiutando altri studenti oppure acquistali con un piano Premium


Guide e consigli
Guide e consigli

appunti sbobinature video lezioni youtube di linguistica generale, Sbobinature di Linguistica Generale

appunti del corso di linguistica generale magistrale, sbobinatura delle video lezioni di youtube del professor Antonio Romano. università degli studi di torino

Tipologia: Sbobinature

2021/2022

In vendita dal 03/02/2023

alice-e-3
alice-e-3 🇮🇹

5

(1)

1 documento

1 / 133

Toggle sidebar

Spesso scaricati insieme


Documenti correlati


Anteprima parziale del testo

Scarica appunti sbobinature video lezioni youtube di linguistica generale e più Sbobinature in PDF di Linguistica Generale solo su Docsity! Word [NOME DELLA SOCIETÀ] [Indirizzo della società] LINGUISTICA GENERALE 01/10/2020 La linguistica generale rientra in un campo disciplinare molto vasto, siamo all’interno delle scienze del linguaggio nel quale la linguistica generale ha svolto un ruolo determinante sul piano storico e culturale fornendo strumenti, nozioni, idee a molti specialisti che lavorano in campi disciplinari affini. Si tratta di un insieme di conoscenze e di metodi che si sono affinati nel tempo attraverso il modello di diversi linguistici di diverse generazioni e di diverse nazionalità. Si tratta di osservare in modo oggettivo e rigoroso quegli aspetti che presiedono alla formulazione di messaggi linguistici e alla loro comprensione che esulano dallo stretto condizionamento di un campo culturale sociale nazionale. Serve prendere le distanze dalla lingua vista come strumento di comunicazione grafico- visivo; la lingua è primariamente parlata e passa primariamente attraverso il canale orale-uditivo e le sue caratteristiche essenziali sono determinate proprio dai condizionamenti di questo canale. Solo secondariamente, su una lingua, si osservano i riflessi di un uso prolungato attraverso il canale della lingua scritta. È indispensabile tenere separati i fattori che influiscono sull’evoluzione della lingua e sul funzionamento della lingua determinati da distinti canali attraverso cui può passare la comunicazione linguistica. È giusto cominciare da un’esplorazione superficiale della struttura dei messaggi linguistici attraverso quei concetti fondamentali che la linguistica generale ha messo a punto dalla data simbolica del 1916. Ferdinand de Saussure è stato un glottologo che, forte delle sue conoscenze della glottologia dell’800, sposta l’attenzione dalle lingue classiche alle lingue vive, enfatizzando l’importanza di riferirsi alla lingua parlata prima ancora che alla lingua scritta. Le lingue, infatti, indipendentemente dalla presenza di loro eventuali forme scritte, sono studiate come sistemi organizzati di elementi di comunicazione e di regole. La prospettiva è, naturalmente, puramente descrittiva e non prescrittiva: le lingue vengono descritte in base al loro reale funzionamento e non in base ad atteggiamenti puristici. Uno dei capisaldi del Cours de Linguistique Générale di De Saussure è la ben nota contrapposizione tra Langue e Parole. Langue è il sistema linguistico astratto, quello che appartiene a tutta la comunità, che tutti noi condividiamo senza conoscere nei dettagli tutte le sfumature che si trovano ai margini di questo sistema. Parole è un concetto totalmente nuovo (non traducibile con “parola”), significa “atto del parlare”, “turno di parola”, quindi s’intende l’insieme degli atti linguistici individuali attraverso i quali possiamo vedere la lingua, come funziona la lingua. Quindi la lingua è un sistema astratto ma si realizza negli usi individuali con delle forme concrete che noi possiamo ascoltare, leggere, registrare, archiviare; sono atti concreti in cui l’individuo sfrutta la lingua per produrre il suo 4 1. la struttura dei messaggi linguistici André Martinet. Intorno agli anni ‘50 Martinet elabora questo modello analitico noto comunemente come la “doppia articolazione”, anche se è preferibile parlare di “dualità di strutturazione”. Il significante, in tutte le lingue, si può osservare strutturato su due diversi livelli; qualsiasi messaggio noi produciamo sarà sempre possibile smontarlo, analizzarlo in elementi discreti su un primo livello di strutturazione: quei livelli ai quali più facilmente si associa un significato o una funzione grammaticale. Il primo livello di strutturazione è quello in cui noi riconosciamo la presenza di morfemi, cioè di forme a un livello lessicale- morfologico; es. partirò: part- (ci dice cosa sta accadendo/accadrà), -ir- (ci indirizza verso il tempo, futuro), -ò- (ci dice chi parte, chi compie l’azione). Questa parola partirò è formata tra tre segmenti che portano ciascuno un’informazione diversa, dove l’ultimo segmento -ò- contribuisce a rafforzare l’idea del futuro in quanto abbiamo la presenza di un morfo accentogeno finale che completa l’informazione del futuro. Il secondo livello di strutturazione è quello in cui vediamo che i morfemi sono fatti di fonemi. Nel caso di “partirò” possiamo vedere che part- è composto da 4 fonemi (p a r t), che il morfema -ir- è fatto di due fonemi (i r) e che il morfema -o- è monofonematico. L’italiano è una lingua in cui si vedono molto bene i fonemi e meno i morfemi, in inglese i morfemi si vedono benissimo e i fonemi (per via dell’allontanamento della lingua scritta e della lingua parlata) non sono sempre visibili nella forma scritta. 02/10/20 Cosa succede quando questi elementi di primo e secondo livello si combinano e si trovano in successione? Partendo dal primo livello, quello della morfologia, si scoprirebbe che il significante si costruisce mettendo insieme morfemi lessicali e morfemi grammaticali. I morfemi lessicali appartengono a una categoria aperta in continua espansione, in continuo movimento: se ne creano di nuovi e altri, diventando obsoleti, escono dall’uso (es. Part-; toss-; accend-; complet-; ecc.). I morfemi grammaticali, invece, è piuttosto ristretta, non ne creiamo di nuovi quotidianamente, non ci sono morfemi grammaticali che entrano ed escono facilmente dalla lingua; sono morfemi che sono interessati da variazioni diacroniche di maggiore durata, di maggiore estensione temporale (es. -ire; -ere; -are; -o; -es+e; -ibil+e; ecc.). Nel modello di Martinet si analizzano due tipi di relazioni: relazioni sintagmatiche (cioè quelle in presenza: part- e -ire possono stare insieme, si combinano tra loro) e relazioni paradigmatiche (morfemi che sono tra loro incompatibili sull’asse sintagmatico, non si combinano tra loro ma si cambiano: se scelgo uno escludo 7 l’altro, es: part- e toss-). Queste relazioni si trovano anche al secondo livello di strutturazione. Per quanto riguarda il secondo livello di strutturazione i fonemi si legano tra loro sull’asse sintagmatico stabilendo un ordine (es. Con è composto da /k/ + /o/ + /n/ e non da /o/ + /k/ + /n/). Per mostrare le relazioni paradigmatiche basterebbe pensare a cosa succederebbe se al posto del fonema /o/ sostituissimo il fonema /a/. A quel punto la sequenza diventerebbe /k/ + /a/ + /n/ (forma apocopata di cane), scambiando i due fonemi ottengo due parole diverse e questo è un fatto molto importante che permette di esplorare il sistema fonologico delle lingue: per capire quali sono le unità in grado di cambiare i significati, le funzioni delle parole, lavoriamo con questo metodo anche detto prova di commutazione, proviamo a vedere se sostituendo un fonema con un altro cambiano le cose. Se le cose cambiano vuol dire che abbiamo individuato due fonemi che hanno una funzione distintiva, che sono in opposizione fonologica tra loro, che è importante distinguere in una lingua per non dire una cosa per l’altra; /o/ e /a/ in italiano sono due fonemi distinti. Le due parole individuate sostituendo due fonemi vengono chiamate coppia minima. Una coppia minima è una coppia di parole che si ottiene sostituendo in una stessa posizione due fonemi che sono distinti. In italiano ci sono tantissime coppie minime e questo vale anche per le consonanti, come con i fonemi /t/ e /c/ (torta e corta). Ci sono opposizioni più critiche, perché più rare e quindi maggiormente soggette a oscillazioni, ma ce ne sono altre soggette a quella che viene detta neutralizzazione perché in alcune varietà regionali quella data opposizione non è considerata rilevante e quindi viene meno. Questo accade per le vocali italiane di media apertura e e o. Accade di solito che in una lingua alcune opposizioni siano facili da trovare (con la prova di commutazione) perché il numero di contesti in cui due fonemi si oppongono è molto consistente (ad esempio, in italiano e in molte altre lingue, l’opposizione /i/ ⁓ /a/ è molto frequente: spiro-sparo, tira-tara, mino-mano, tinto- tanto, Pilato-palato, ira-ara, cari-cara etc.) Si parla in tal caso di opposizione ad alto rendimento funzionale. A volte invece, si può trovare una certa difficoltà a mostrare la istintività di fonemi che, pur essendo chiaramente distinti in quella lingua, presentano una distribuzione talmente differenziata da rendere meno frequenti le opposizioni. Ciò accade per l’opposizione /ts/ ⁓ / dz/ in italiano: nessun parlante esiterebbe nel riconoscere la presenza del primo nella parola /‘martso/ marzo e del secondo nella parola orzo /‘ɔrdzo/. Tuttavia, quandanche provassimo a commutare in diverse porzioni, avremmo poche probabilità di imbatterci in quell’unica coppia di parole (o, comunque, le uniche due) in cui si 8 presentano in opposizione distintiva: /‘ratstsa/ (insieme di individui) ⁓ /‘radzdza/ (pesce). Si tratta in questi casi di opposizioni a basso rendimento funzionale. Imparare a pronunciare una lingua partendo dallo scritto può essere molto ingannevole, meglio imparare prima a parlarla perché le ortografie sono difettose. Questo vale anche per gli italofoni che imparano l’inglese che usa th per due fonemi distinti (e.g. Thank you vs. There). Quelli che sono due fonemi in una data lingua, in un’altra lingua potrebbero non esserlo. E allora cosa sono? Sono varianti di uno stesso fonema, sono allofoni (suoni altri). Gli allofoni sono suoni diversi che si manifestano in certe posizioni come realizzazione dei fonemi senza cambiare il significato delle parole, sono imprevedibili, dipendono da molti fattori. Invece si possono avere casi interessanti di varianti di un fonema ma che sono prevedibili perché sono varianti combinatorie, cioè i cosiddetti tassofoni. Le varianti libere (allofoni) si trovano in particolar modo nella realizzazione di fonemi di tipo /s/ o /r/, in Italia varia moltissimo la pronuncia della s e della r. ATTENZIONE: la coppia di parole fata e fatta non è propriamente una coppia minima perché cambiano diverse cose. Cambia la struttura fonologica perché nella parola fata ci sono quattro posizioni fonologiche, nella parola fatta ce ne sono cinque. C’è inoltre la questione dell’accento: quando confrontiamo due parole per vedere se costituiscono una coppia minima, le posizioni prominenti alla parola devono essere le stesse, non posso dire che fucile e facile siano una coppia minima, ci sono troppe differenze per un italofono. Quando diciamo facile l’accento cade sulla terzultima sillaba, in fucile l’accento si trova sulla penultima sillaba. 9 Per approfondire l’argomento delle quattro variazioni e per sottolineare le difficoltà della definizione del concetto di norma, si può fare riferimento a questo grafico: Sull’asse delle ascisse abbiamo la diamesia, sull’asse delle ordinate abbiamo la diastratia. Poi abbiamo un asse trasversale che si proietta su un’altra dimensione: la diafasia. Su questi domina una specie di stratificazione in piani dipendente dalla diatopia. Cosa vuol dire l’aumentare della diamesia o della diastratia? Vuol dire andare verso piani alti, verso modelli curati. Ai valori più alti di queste tre coordinate troviamo l’italiano formale aulico, cioè un parlante che faccia ricorso a forme che nella lingua quotidiana hanno cambiato accentazione. All’opposto, tra i valori più bassi di queste variabili, troviamo l’italiano gergale, cioè quando sentiamo dire sclerare o zio rivolto a una persona sconosciuta. Curiosamente, in questo continuum, troviamo anche (spostato verso l’italiano formale aulico) l’italiano tecnico-scientifico. Tuttavia questo non è sempre vero perché l’italiano tecnico-scientifico non è sempre sorvegliato. 12 3. Concetto di norma Soprattutto a partire da Coseriu, la linguistica del Novecento ha cominciato ad abbandonare una visione puristica della lingua e a digerire i progressivi mutamenti linguistici., riflettendo sulle dimensioni di variazione dei sistemi linguistici in sincronia. È così che si è cominciato a distinguere tra normativo (prescritto) e soggettivo, ai quali si oppone il polo del normale (descrittivo/oggettivo). Un atteggiamento normativo porta alla censura di alcuni comportamenti linguistici esclusi dalla definizione di registri elitaristici (alti). Da questi si allontana il parlante meno accorto, che esplori raramente alcuni settori della lingua e della società mei quali si avventura raramente e in situazioni d’imbarazzo psicologico. L’atteggiamento soggettivo appare in diverse forme: l’utente che fa un uso modesto della lingua ed è impacciato nel riconoscere le variazioni di registro tende a fissarsi dei vezzi pseudo-puristici come ad esempio quelli che inducono certi parlanti a pensare che si debbano distinguere obiettivo e obbiettivo o familiare e famigliare; o a sostenere che non si debba dire a me, mi…, mentre poi dicono di questo te ne ho già parlato… e simili, o ancora a ostacolare pubblicamente gli usi innovativi di piuttosto che anche in quei casi in cui sia in gioco la definizione di nuove funzioni linguistiche. Allo stesso modo è soggettiva la norma che perseguono alcuni parlanti (o scriventi) colti, inclini a un uso ‘intenzionale’ o ‘aulico’ della lingua, quando questi si discostano dalla normalità presente nei discorsi (e nei testi) di altri parlanti colti (come diversi parlanti che ancora sfoggiano forme orali del tipo elabóro o valùto). Tra il normativo e il soggettivo, si collocano il normale, la normalità e i giudizi di appropriatezza che ci sforziamo di rendere oggettivi. La questione è centrale quando si faccia riferimento a un uso creativo della lingua, perché l’uso personale si può evidenziare con la scelta e le preferenze verso un piano artistico di produzione linguistica. Se ad esempio oggi tra perso e perduto preferiamo il primo in espressioni di tipo “ho perso il treno”, non è più scontato che in un testo letterario, “ha perduto l’onore, l’innocenza…”, si preferisca il secondo. È necessario distinguere tra i tipi di norma. È chiaro che il parlante ingenuo abbia come unica norma di riferimento quella che gli sembra la norma prescrittiva, cioè quella delle autorità. Molti italofoni credono che l’Accademia della Crusca sia un’autorità prescrittiva, quando in realtà è fatta da autorevoli linguisti con una formazione molto rigorosa e scientifica che non prende facilmente posizione. È quindi un’autorità che dà una risposta che fa riferimento al concetto di normalità e non di norma (spiega le posizioni dei vari autori, come è preferibile comportarsi). Tuttavia ultimamente sono comparse alcune opinioni molto soggettive (quello che si definisce norma soggettiva). 13 3.1. Esistono norma e variazione anche per i dialetti? Le nostre valutazioni su italiano e dialetto sono ancora oggi fortemente condizionare dal riferimento alla dicotomia saussuriana tra Langue e Parole, tra un sistema condiviso e collettivo e un insieme di produzioni individuali, e teniamo conto dei successivi sviluppi di questi concetti che giungono alle definizioni di schema (forma pura), costante, e norma (realizzazione sociale), atto (individuale) e uso (manifestazione materiale), tutti e tre variabili. Partendo da una concezione comune che lingua e dialetto, in generale, non differiscano minimamente sul piano strutturale e funzionale (“funzionano” e “servono” allo stesso modo), in un’architettura variazione si porrebbero entrambi in un edificio di almeno tre piani sui quali si situano il sistema, la norma e l’uso. Molta della dialettologia di questi ultimi anni, assumendo che - appunto, in quanto lingue - i dialetti avessero, alle spalle, un qualche sistema, si è posta l’obiettivo più modesto di descriverne gli usi, dimenticando totalmente la norma. 3.2. Tipi di pronuncia Sulla pronuncia della lingua ci si può fare un’idea chiara anche sul tipo di giudizio che si porta. Luciano Canepari è il linguista che più di tutti ha lavorato su questi aspetti e ha definito delle categorie: moderna, tradizionale, accettabile, tollerata, trascurata, intenzionale, aulica. Se, ad esempio, ci si può orientare verso una pronuncia moderna (la più consigliabile oggi perché meno connotata) nell’esempio di casa con la s sonora, un altro riferimento può restare quello offerto da una tradizionale (la più consigliata fino a qualche anno fa) che conserva casa con la s sorda. Per Canepari è accettabile la pronuncia con [ts] di pranzo (spesso presente in prodotti AV di qualità), rispetto a quella tradizionale (ed etimologica) con [dz]. Risulta tollerata (ma, appunto, meno consigliabile) quella di dèvio rispetto a quella tradizionale di tipo devìo (coerente con le corradicali invio, avvio, svio). Può essere infine trascurata, e quindi da evitare, quella di qualsiasi con la s sonora, di azzardo con la [ts] o di collutorio con /tt/ (che si afferma persino nella grafia!). Al contrario, dall’altra parte della scala, sono altrettanto connotate la pronuncia intenzionale, usata per “fare sfoggio”, quella di leccornia con i accentata, e quella aulica di elabóro, con l’accentazione latina, o di scienza con lo iato. 14 libero e fantasioso di quanto non avvenga per altri prodotti cine-televisivi. Questi due ambiti (inglese e italiano) sono molto simili perché presentano un’attenzione tradizionale nei confronti di questo genere televisivo molto simile. Anche il formato stesso delle trasmissioni delle previsioni del tempo nazionali, BBC e RAI, sono molto simili: un presentatore in sala, in genere è un tecnico e non un annunciatore, che commenta diverse carte geografiche sulle quali sono rappresentati, con una convenzione iconografica, gli eventi meteorologici. Al di là della differente storia delle due emittenti nazionali, BBC e RAI, bisogna anche tenere conto delle specificità linguistiche già citate. Le quattro dimensioni di variazione nei due Paesi in cui operano queste aziende di telecomunicazione sono molto diverse. Il linguaggio è molto diverso, molto più basic, essenziale quello di BBC che parla di clouds e di wind, mentre il lessico corrispondente italiano prevede nuvolosità e ventilazione, raramente sentiamo pronunciare nuvole e vento in una trasmissione delle previsioni del tempo. Oltre a queste differenze terminologiche, che si rivelano sostanziali, possiamo ragionare sulla complessità sintattica e sulle modalità di resa orale di questi testi. Argomento affrontato sotto due punti di vista valutando i tempi a disposizione, la velocità d’eloquio e le conseguenze dell’uso di diverse tecniche mnemoniche, perché l’annunciatore delle previsioni del tempo (che in BBC è un annunciatore professionista, mentre nella RAI è un militare, un meteorologo) usano una costruzione sintattica molto diversa ma soprattutto usano tecniche mnemoniche molto diverse che consentono loro di restare nei tempi (della trasmissione). I dati BBC sono caratterizzati da un modello di lingua piuttosto controllato e da una pronuncia molto standardizzata. I dati RAI risentono, invece, degli orientamenti culturali (e dei modelli comunicativi adottati) dell’azienda radio- televisiva italiana che vanta la maggiore tradizione in questo campo. Per questo motivo, anche i notiziari e le rubriche d’informazione di questa pur prestigiosa emittente non possono ritenersi standard. Dall’analisi delle trascrizioni dei brani, da un punto di vista testuale, è emersa una tendenza alla strutturazione del discorso in maniera fissa. Nel caso delle registrazioni RAI è possibile suddividere il testo in tre macro- sezioni: una prima parte introduttiva contenente una formula di saluto e il nome della rubrica (ad es. “Ben ritrovati con Meteo-Uno”; “Bene, eccoci qua. Una buona giornata da Meteo-Uno”), una seconda che contiene il testo informativo vero e proprio, occupante la maggior parte del tempo complessivo, e la conclusione in cui lo speaker si congeda dal pubblico con ringraziamenti per l’attenzione prestata e, in alcuni casi, il rinvio ad appuntamenti futuri (ad es. “È tutto per il meteo. Grazie per la cortese attenzione e arrivederci”; “Con questo è tutto. Arrivederci ai prossimi appuntamenti”). L’impiego limitato di segnali discorsivi segnala un grado di pianificazione del discorso piuttosto alto, ma assicura una 17 certa informalità: gli speaker non leggono un testo precedentemente composto, ma seguono un testo-guida e si affidano alla lettura del supporto grafico, che viene interpretato al momento. Anche nel caso delle registrazioni BBC, si osserva una produzione ricca d’informazioni utili sulla situazione atmosferica del giorno stesso e di quelli seguenti, ma un tempo minore è dedicato al breve saluto iniziale (ad es. “Hello”; “Hello there”; “Hello again” e a quello finale (ad esempio “Bye for now”). Il grado di pianificazione del discorso è complessivamente alto, come conferma la relativa rarità di riempitivi e di segnali discorsivi. La maggior parte dei testi televisivi propone un periodare molto breve e frammentato. Il genere meteorologico qui analizzato non fa eccezione: vi è la scarsa presenza di periodi complessi. Lo stesso discorso vale anche per i testi BBC dove l’inglese è una lingua che già di per sé predilige le frasi brevi. In questo caso lo speaker si trova a scansionare questo testo con delle pause, con delle interruzioni, delle prese di respiro oppure delle vocali di appoggio, delle sillabe sulle quali insiste particolarmente in determinate posizioni. Quello che notiamo è che questo speaker organizza in unità interpausali (cioè tra due pause), crea delle catene foniche che si estendono in modo disomogeneo e questo lo porta a spezzare, a prendere fiato subito dopo aver introdotto un elemento introduttivo di quella che sarebbe stata una clausola, una proposizione. Invece, questo speaker, in maniera forse un po’ scolastica, rispetta molto di più la sintassi dello scritto. A parte quel “per” molto anomalo ma che corrisponde ad uno stile giornalistico molto diffuso. Le modalità con cui si continua e con cui si creano tensioni e si risolvono nell’enunciazione, è diversa tra inglese e italiano in questo genere mediatico 18 perché i nostri colonnelli sono molto più abituati a scandire gli enunciati creando tutta una serie di continuative, tutte molto prevedibili, concluse da un punto fermo che arriva nel punto giusto. CONCLUSIONI: una maggiore formalità nella proposta linguistica delle previsioni del tempo in italiano risalta non solo dalle scelte lessicali e dalle formule sintattico-testuali, ma anche dalla strutturazione prosodica che procede con ritmi costanti e con il riferimento ricorrente a sequenze intonati piuttosto invariabili, laddove gli annunciatori BBC incalzano con formulazioni più veloci e seriali. Oltre al ricorso a distinte modalità di pausazione ed esitazione, lo stile BBC risulta più diretto, efficace e incalzante, oggettivamente più cadenzato di quello degli annunciatori RAI. Questi ultimi, che ricorrono a soluzioni più formali e ‘sicure’, affettano però maggiormente il loro testo con l’introduzione di esitazioni a effetto (perseguendo una presunta maggiore chiarezza) e il ricorso a tipiche perifrasi del linguaggio giornalistico. 19 sovrasegmentale posseduta dall’input fonologico di questo processore (che corrisponde al ‘modulatore’ di Shannon & Weaver e di Fónagy) è condizionato da una serie di fattori psicologici e fisiologici specifici e risente dei vincoli imposti dall’apparato fono- articolatorio del parlante (e dalle sue interazioni col canale). Questa conversione (dal fonologico al fonetico) avviene, secondo Fónagy, in base a principi naturali codificati in un codice C2 molto più universale del precedente (un codice fonetico). Nell’output finale si possono ancora riconoscere caratteristiche segmentali (foni) e sovrasegmentali (prominenze e intonìe) assoggettate però a una serie di condizionamenti fonetici (oltre che para- ed extra-linguistici). Il messaggio così strutturato transita sul canale (eventualmente mescolandosi con altre sorgenti d’informazione) e giunge al destinatario, il quale disponendo dei codici C2 (che si vorrebbe idealmente universale, possiamo farci un’idea dei suoni prodotti e pronunciati) e C1 (dipendente dalla lingua in cui è prodotto il messaggio, per capire qual è la parola), rigenera una rappresentazione fonologica e da questa risale alle componenti morfologiche (lessicali e grammaticali) e ricostruisce il significato Rd che, nella condizione in cui Rd= Rs (resa possibile dalla condivisione di C e dell’universo linguistico-culturale), rinvia al referente comune. Appare abbastanza evidente a questo punto che i trattamenti relativi a Rd e Rs come pure quelli relativi alle rappresentazioni /…/ (le forme fonologiche), se assumiamo l’ipotesi che le forme di partenza e d’arrivo siano identiche, pertengono alla Langue saussuriana (che può corrispondere al codice condiviso che qui indichiamo con C). Tutte le differenze residue (quelle tra Rd e Rs e quelle introdotte dal ricorso a un codice C2 non condiviso) sono invece imputabili a fattori che pertengono alla Parole. Immaginiamo un esempio d’applicazione di questo schema nel caso in cui lo stesso parlante italofono di cui sopra decida di comunicare al suo interlocutore un’informazione relativa a un tema alimentare con referente reale la “pasta”. Al centro del suo discorso ci sarà quindi il concetto di “pasta”. Il referente “pasta” attiva un’idea mentale di cosa sia questa pasta; questa acquista una consistenza linguistica nel momento in cui si crea una relazione semantica, la pasta viene messa in relazione con altri cibi. Nel momento in cui pensa questo concetto di “pasta”, associa un significante e quindi una sequenza di fonemi. L’output del processo fonologico sarà allora /‘pasta/. Assumiamo però ora per esempio che il nostro parante ipotetico abbia un difetto di pronuncia (sigmatismo) che lo porta ad articolare una /s/ interdentale. In queste condizioni, la sua realizzazione fonetica sarà qualcosa del tipo [‘pa ta]. Questa forma fonetica viaggia sul canale e raggiunge l’orecchio del destinatario, il destinatario la percepisce così com’è, questo perché il codice C2 mi mette in condizione di sentire. Però, perché la comunicazione abbia successo, non posso attardarmi a osservare come il mio interlocutore dice la parola, mi interessa che passi l’informazione. Se io dispongo di un codice C1 che mi dice che in quella posizione la realizzazione di non può 22 essere che la realizzazione del fonema /s/, a quel punto decodifico “pasta”. (Questo suono è un allofono, una variante libera). Questo avviene in virtù dell’esperienza, un parlante nativo madrelingua che disponga del codice C1 e che abbia avuto esperienza, può dedurre che quella che sente, fosse una realizzazione di /s/. Questo avviene soprattutto perché si coglie nel suo insieme la parola [‘pa ta] e quindi il parlante nativo sa che quella parola non può essere altro che /‘pasta/. Ora proviamo a testare la necessità di queste distinzioni facendo ricorso alla comunicazione inter-linguistica che merita ulteriori precisazioni perché quando due parlanti con condividono lo stesso codice C1 nascono delle incomprensioni e delle incertezze nella comunicazione. Mettiamoci nelle condizioni di un ascoltatore che riceva un messaggio in una lingua a lui sconosciuta. È facile capire come, mancando alcune necessarie informazioni strutturali del C1 usato da S (sorgente di informazioni), l’ascoltatore non potrà decodificare il senso del messaggio. Disponendo però di C2 (che, condividendo la definizione di Fónagy, possiamo considerare, almeno in parte, universale) potrà almeno provarci, può cercare di capire che parole dice l’altro perché il C2 è uno strumento che gli fa sentire i suoni e magari anche provare a riprodurli. Ovviamene, se è molto fedele a quello che l’altro articolando, li riprodurrà perfettamente; ma se non può guardare o se il messaggio è interferito, c’è una fonte che sul canale disturba, il destinatario avrà difficoltà perché dovrà ricorrere a una decodifica di tipo bottom-up (deve cercare di afferrare tutti i suoni e capire che fonema sta realizzando l’interlocutore). Vediamo quale sia la necessità di mantenere la distinzione introdotta sia dagli anni ’30 tra fono e fonema, fonetica e fonologia, tra uno studio dei suoni concreti e uno studio dei suoni astratti, mentali, intenzionali. 23 La fonologia si occupa dell’analisi di fonemi del significante, la fonetica si occupa di studiare le caratteristiche sonore, i suoni che realizzano questi fonemi. I fonemi sono scritti tra barre oblique e sono entità astratte, mentre i foni sono scritti tra parentesi quadre e sono entità concrete che possiamo registrare, misurare e quantificare. 24 7. Descrizione del sistema sonoro di una lingua 16/10/20 Si introduce la possibilità di descrivere i suoni di una lingua all’interno di un sistema che chiamiamo fonologico ma che è un sistema non comprende solo fonemi ma anche delle modalità di realizzazione di questi fonemi, dei suoni, delle varianti, modalità di combinazione dei fonemi. Ecco perché quando descriviamo il sistema sonoro di una lingua partiamo generalmente dai fonemi ma poi non possiamo soffermarci solo su un insieme discreto di trentina di elementi. La complessità di una lingua non è in questo numero fittizio; alla base della lingua c’è un sistema molto più complesso che parte da questi pochi elementi ma prevede delle regole combinatorie. In queste regole combinatorie noi scopriamo che compaiono delle varianti nella realizzazione di questi fonemi che chiamiamo varianti combinatorie o tassofoni: suoni che si possono prevedere in base alla loro posizione di occorrenza. Oltre alle varianti combinatorie, in una lingua si possono presentare delle varianti libere (allofoni), cioè delle modalità di realizzazione del fonema che sono dipendenti dalle qualità del parlante; è il parlante che fa sua la lingua e che nel momento in cui produce un messaggio linguistico la mette in atto e produce i suoni come lui ha imparato a fare, con delle modalità che sono tipiche degli atti di Parole, cioè atti individuali. I suoni che concretizzano i fonemi possono quindi essere moto diversi da parlante a parlante; se c’è una comprensione, se c’è una possibilità di codifica del messaggio, questa passa sicuramente attraverso una generale convergenza tra le scelte che fanno i parlanti di una stessa comunità o uno stesso gruppo all’interno di quella comunità. Se ci capiamo vuol dire che usiamo suoni abbastanza simili per realizzare gli stessi fonemi. Dunque per descrivere il sistema sonoro di una lingua partiamo dai fonemi, consideriamo le varianti combinatorie e aggiungiamo le le varianti libere, cioè quelle possibilità che frequentemente troviamo nei gruppi sociali che usano quella lingua. Questi suoni, queste varianti libere, più comunemente si chiamano allofoni, cioè “suoni altri” che realizzano il fonema in un altro modo. Nel sistema sonoro di una lingua troviamo anche dei suoni con uno statuto più innovativo, meno patrimoniale: alcuni suoni non appartengono alla tradizione di quella lingua perché non ce n’è stato bisogno, perché storicamente il sistema si è evoluto creando degli equilibri interni che l’hanno reso autosufficiente. Ecco, però, che in un certo momento, al di là della naturale evoluzione di questo sistema, ci può essere l’introduzione di elementi nuovi, spesso derivanti dal contatto con altre lingue. La presenza di un cospicuo numero di catene segmentali (parole) introdotte partendo dal sistema di un’altra lingua, porta generalmente a una conversione, a un adattamento di quella catena tipica di quell’altra lingua, con una catena di suoni simili presenti nella lingua d’arrivo. Però, a volte, se un suono molto diverso di un’altra lingua viene percepito come diverso, come non trasponibile in un suono già presente nel sistema sonoro d’arrivo, questo sistema si può ingrandire introducendo questo suono straniero e a lungo andare questo 27 suono straniero si può acclimatare e può alterare gli equilibri e le relazioni all’interno del sistema. In italiano, ad esempio, abbiamo il suono [ʒ], suono che abbiamo introdotto inizialmente sentendolo pronunciare dai francesi (garage), ma lo troviamo anche in diversi anglicismi (fusion). Questo suono, poi, l’abbiamo successivamente reintegrato nel sistema come xenofono, cioè come suono preso in prestito dalla lingua straniera. Un sistema sonoro, però, si deve valutare anche in base alle proprietà strutturali, di aggregazione di questi suoni. Un concetto fondamentale per aiutarci a comprendere queste modalità di aggregazione è la sillaba. Però non è solo la sillaba a darci delle indicazioni su come si organizzano i suoni: ci sono anche dei gruppi di suoni (i dittonghi), ci sono dei gruppi di consonanti che in certe posizioni possono legare in maniera più salda o meno salda una sillaba a un’altra sillaba grazie alla posizione che occupano nei costituenti di questa entità fonotattica. È la fonotassi la parte delle discipline fonetiche che si occupa di studiare le modalità di raggruppamento dei suoni nelle catene segmentali e nelle catene foniche. Si fa riferimento a una tabella di simboli che codificano in modo più tecnico i suoni di una lingua senza dover passare attraverso la convenzione ortografica: la Tabella IPA (International Phonetic Association). 28 Si distinguono delle tabelle che raggruppano le consonanti per: 29 1. Alcune parole funzionali monosillabiche —> le preposizioni a, da, su tra, fra, le congiunzioni e, o, ma, se, che, né, e infine ciò, tu, già, più, qui, qua, lì, là. Queste parole non hanno una consonante lunga iniziale, causano un allungamento della consonante iniziale della parola seguente. Esempi: suRF tutto, traRF l’altro, seRF vuoi, piùRF cheRF mai. 2. Forme monosillabiche forti (nomi, aggettivi, verbi) —> dì, re, sci, tè, blu; me, te, sé, chi; è, ho, ha, va, fa, do, dà, etc. Esempi: chiRF vuole, hoRF detto, vaRF bene 3. Alcuni polisillabi parossitoni (non tronchi)—> qualche, come, dove. Esempi: qualcheRF volta, comeRF mai, doveRF vai 4. Tutti i polisillabi ossitoni (tronchi)—> perché, poiché, così, chissà etc. Esempi: caffèRF caldo, cittàRF vecchia, andòRF via etc. Per approfondire il trattamento degli incontri vocalici a fine parola, possiamo iniziare fornendo alcune categorie di tipi di incontro prevedibili: 1. Un tipico trattamento di incontro tra due parole che comportino la concatenazione di una vocale finale con una vocale iniziale della parola seguente, abbiamo la dialefe. La dialefe è il caso in cui le due vocali si mantengono intatte senza subire troppi fenomeni di coarticolazione tra loro. Anzi, a volte, per evitare che ciò avvenga, inseriamo delle consonanti comportando l’estirpazione di iato (ossia aggiungere una consonante per evitare che si debba trattare come iato vocalico). In molti casi della dialefe questa vocale non c’è perché si cerca di evitarla, però, inevitabilmente, si inserisce una consonante tra le due vocali che l’italiano non conosce perché non ha uno statuto fonologico (parliamo del colpo di glottide). Un esempio può essere già Anna te l’avevo detto, la vocale non è continua, perché quando parliamo non diciamo gianna te l’aveva detto ma già Anna te l’aveva detto. Dialefe quindi vuol dire mantenere due posizioni sillabiche, e quindi non ridurre le due vocali a contatto a un unico nucleo vocalico all’interno di un’unica sillaba. 2. Il contrario accade invece nella sinalefe. Due nuclei vocalici distinti di due parole diverse rientrano nella stessa sillaba a formare quello che si chiama un dittongo fonosintattico o sinalefe. Un esempio può essere la frase questo libro è di Anna dove di e Anna vengono pronunciati come se fossero un’unica sillaba. 3. Crasi è una forma di coalescenza molto poco visibile ma molto frequente in italiano. Ridurre le vocali a contatto, un esempio può essere in mezzo a un parco o due euro. 4. Cancellazione. Possiamo avere due tipi di cancellazione: l’elisione dove va via la vocale finale della prima delle due parole (lo + albero = l’albero), oppure l’aferesi dove abbiamo la cancellazione del suono iniziale ( in acqua e in terra = in acqua e ‘n terra) 32 L’intonazione è centrale nell’enunciazione. Nel momento in cui parliamo produciamo enunciati; questi enunciati, oltre ad avere una caratterizzazione segmentale, lessicale e sintattica, ne hanno una fondamentalmente orale che li porta ad essere intonati, cioè porta ad avere una loro struttura gestita da un sistema di controllo ritmico-intonativo, quello che stabilisce i tempi, la cadenza degli accenti e l’intonazione, cioè la modalità con cui si enuncia una data concatenazione di unità linguistiche. L’intonazione è un fenomeno complesso ed è difficile da studiare sul piano teorico e concreto, quello in cui andiamo a misurare i parametri che realizzano questi fenomeni, perché questi parametri interagiscono e creano un sistema multiparametrico nel quale a un’economia di valori che assume uno di questi parametri sopperisce un’economia di compensazione da parte di un altro. Definizione —> l’intonazione è un fenomeno prosodico (sovrasegmentale) mediante il quale le variazioni d’altezza melodica presenti in un enunciato permettono di (de)codificare informazioni grammaticali sulla sua struttura. In genere, tutta la prosodia di un enunciato è affidata a quattro parametri: 1. La durata dei segmenti (probabilmente il più importante di tutti sul piano ritmico e intonativo) 2. L’intensità, cioè l’energia con cui si caratterizza ogni segmento 3. L’altezza melodica 4. Il timbro dei suoni Concatenando dei suoni si hanno quindi delle porzioni all’interno dell’enunciato in cui si presenta una durata maggiore, si ha un rallentamento e quindi un’organizzazione più dilatata dei tempi, e porzioni in cui, invece, si hanno dei segmenti più brevi. Allo stesso modo anche l’energia a disposizione e il tempo complessivo con cui questa energia può essere erogata varia molto e ci pone dei vincoli nella lunghezza degli enunciati e nella loro stessa organizzazione. L’altezza melodica —> all’inizio di un enunciato ho più energia e quindi spontaneamente mi verrà di articolare i suoni con un’altezza complessivamente maggiore che poi va via via declinandosi. L’ultimo parametro è il timbro. Sappiamo che il timbro dei suoni vocalici in italiano è correlato alle posizioni prominenti; quindi, già ci aspettiamo che in alcune posizioni il timbro possa aiutare a farci percepire la presenza di un’unità alle quali dobbiamo associare dei significati o delle funzioni importanti nella decodifica dell’enunciato. Ovviamente, nella realizzazione dell’intonazione di un enunciato abbiamo delle possibilità di scelta, ciascuno di noi articola, concatena, giustappone le unità del suo programma di enunciazione linguistica con una certa libertà di scelta. Questa libertà di scelta si riflette anche sul piano dell’interpretazione e della “melodia che 33 8. L’intonazione suono” quando pronuncio il mio enunciato. Questa melodia, però, resta riconoscibile da parte del mio interlocutore, e quando io sono l’ascoltatore non ho difficoltà a capire cosa sta dicendo il mio interlocutore, perché ci sono comunque dei vincoli strutturali, dei segnali che ci permettono di capire se l’enunciazione è all’inizio, alla fine, se il discorso è stato impostato o preparato ma ancora non si è arrivati al punto chiave, oppure se siamo arrivati alla sua conclusione. Bisogna fare una distinzione tra le lingue perché non tutte le lingue seguono un comportamento universale, ci sono lingue con vincoli maggiori e lingue con una maggiore libertà. L’italiano è una lingua a intonazione e quindi ha una maggiore libertà sulla realizzazione dei movimenti tonali, sulla gestione di questi parametri. Una distinzione importante che fa l’italiano è quello tra le modalità intonative, quindi noi sappiamo, ad esempio, se il parlante sta facendo un’affermazione o sta ponendo una domanda. La modalità intonativa fa sapere al parlante madrelingua se l’altro sta affermando o chiedendo qualcosa. In italiano, a volte, queste distinzioni sono affidate sono all’intonazione, in altre lingue ci può essere l’inversione verbo-soggetto, mentre in italiano è possibile che una stessa sequenza di unità linguistiche, possa essere articolata in modalità diverse: una modalità dichiarativa e una modalità interrogativa. Se io ascolto qualcuno che fa un’affermazione, quindi modalità dichiarativa, acquisisco l’informazione e non dico niente; se invece decodifico nelle intenzioni del mio interlocutore la volontà di avere un’informazione, la sento a parità di unità segmentali e di ordine sintattico. Quindi siamo partiti da queste prime due modalità che definiscono due intonemi della lingua, così come abbiamo visto i fonemi sul piano segmentale, anche qui dobbiamo presupporre l’esistenza di intonemi, cioè di categorie larghe di cui il parlante dispone che gli mettono a disposizione la possibilità di affermare o negare o chiedere. Anche la negazione fa parte di questi giochini: la frase dichiarativa-negativa si contrappone alla frase dichiarativa-assertiva perché c’è una negazione e quindi c’è una marca morfosintattica, ma anche intonativa. Stessa cosa per la interrogativa, in particolare l’interrogativa si/no (cioè quell’interrogativa, che è la più marcata nelle lingue, che permette di caratterizzare maggiormente la lingua, l’area di provenienza del parlante etc.) che chiede solo una conferma o una disconferma di ciò che il parlante ha affermato. Quando l’informazione è già disponibile nella domanda stessa e all’interlocutore non si chiede altro che di confermarla o negarla (come ad esempio in: -Gianni ha preso il giornale? – Sì., oppure – No.) si formulano domande con gli stessi elementi e lo stesso ordine di una frase dichiarativa caratterizzandole fortemente per la presenza di un profilo melodico terminale molto accentuato e molto specifico. Come si distinguono una frase dichiarativa-assertiva da una interrogativa con lo stesso contenuto segmentale? La differenza fondamentale è nella parte finale, difatti nell’interrogativa c’è un ritorno di energia che non c’è nella frase dichiarativa, si sente una maggiore attenzione, una maggiore cura, una voce più 34 2. L’enumerativa chiusa: ci avvisa di quando sta per concludersi, ci dice a che punto siamo della catena. Esempio: Gianni ha preso il giornale, il biglietto del tram, il pane e la focaccia. Si caratterizza per una serie di elementi oscillanti della lista tranne il penultimo, sul quale si presenta nettamente ascendente, e l’ultimo, sul quale assume l’andamento finale assertivo. Questi intonemi rappresentano delle strutture che sappiamo di poter usare, di poter concatenare o incassare uno nell’altro. Ovviamente questo non è l’unico livello di costruzione strutturale perché la lingua si struttura su vari livelli e funziona soprattutto nell’interazione in quanto ci possono essere fattori para- linguistici, extra-linguistici che condizionano tutto lo sviluppo dei nostri enunciati. Questo ci porta ad avere delle sezioni più tematiche e più rematiche dell’enunciato, e ci porta a strutturare soprattutto dal punto di vista informativo quello che diciamo focalizzando alcuni elementi sui quali vogliamo portare l’attenzione del nostro interlocutore. Ci sono varie possibili interazioni tra i livelli, una di queste è legata alla possibilità che abbiamo di focalizzare alcuni elementi: il cosiddetto focus. Attraverso la focalizzazione intonativa, una stessa sequenza sintagmatica può presentare alcune sue parti “messe in evidenza” per rispondere a esigenza linguistiche diverse, di rilievo informativo o contrastivo. Ci sono diversi tipi di focus: una focalizzazione può essere di tipo informativo, cioè calco con la voce su alcune parti dell’enunciato perché voglio che risaltino bene, scandisco meglio, altero la melodia per attirare l’attenzione su quegli elementi. Così, ad esempio, la frase Gianni ha preso il giornale. può rispondere alla domanda Chi ha preso il giornale?; in tal caso, nel parlato, l’elemento linguistico Gianni riceve una particolare enfasi intonativa che lo rende l’elemento saliente della risposta, seguito da un ha preso il giornale assolutamente relegato a elemento di commento. La stessa frase può rispondere però pure alla domanda Cos’ha preso Gianni?; in tal caso la salienza melodica e dinamica dell’enunciato che cerchiamo di trascrivere con la parola Gianni ha preso il giornale potrà spostarsi tutta su il giornale. Ma una focalizzazione che impariamo a fare da bambini è una focalizzazione contrastiva, cioè poter mettere in risalto la differenza tra quello che io sto segnalando e quello che decido di marcare. Ad esempio, una domanda come Gianni ha preso il giornale? può corrispondere tanto a un enunciato come Gianni ha preso il giornale? (il sottolineato è usato qui per segnalare l’elemento focalizzato), quanto a un enunciato come Gianni ha preso il giornale?. Nel primo caso si chiede se è proprio Gianni ad aver preso il giornale, mentre nel secondo caso si chiese se è proprio il giornale (e non ad esempio il libro o altro) ciò che Gianni ha preso. 37 9. Trascrizione fonetica 22/10/20 Per trascrizione fonetica intendiamo la trascrizione dei suoni del parlato, che può essere una sfida importante se consideriamo la varietà di possibilità articolatorie che si presentano nelle lingue del mondo. Il linguaggio umano è sorprendentemente variabile dal punto di vista dell’articolazione dei suoni che lo contraddistinguono nelle diverse comunità di parlanti, e la scrittura si presenta spesso come uno strumento inadeguato per rendere conto di questa complessità. La scrittura è stata sicuramente un’invenzione e una scoperta determinante ai fini del progresso dell’umanità, l’aver capito che un messaggio linguistico orale potesse essere discretizzabile, cioè suddivisibile in segmenti, e che questi segmenti potessero essere associati a una forma grafica, a un simbolo grafico è all’origine di un grande progresso culturale ma anche economico e sociale. Per trascrizione fonetica, però, intendiamo una trascrizione del parlato che fa ricorso a un sistema di scrittura con caratteri speciali, caratteri definiti apposta per poter descrivere questa varietà di suoni che sconfina dal ristretto ambito di comunicazione all’interno di una stessa lingua. E già all’interno della stessa lingua sappiamo che possiamo incontrare varietà di lingua sorprendentemente diverse al punto da necessitare l’introduzione di simboli speciali laddove un sistema di scrittura alfabetico già sofisticato si è definito solo per descrivere una di queste varietà. La scelta del sistema di trascrizione dipende da molti fattori tra cui: Il grado di dettaglio che si vuole esprimere tramite la trascrizione La fonte del materiale da trascrivere La conoscenza che si ha della lingua in cui è formulato il messaggio da trascrivere Il livello di astrazione che deve avere la trascrizione Distinguiamo, quindi, una trascrizione fonemica (o fonematica, o fonologica, tra barre oblique) quando, conoscendo il sistema fonologico della lingua, ci limitiamo a fornire una rappresentazione astratta della forma che può assumere un determinato morfema, una determinata parola, indipendentemente da chi la sta pronunciando in quel momento e dalle modalità con cui sta articolando i suoni. Ad esempio, nella parola mano un parlante può nasalizzare più o meno la vocale accentata in un modo che dipende dalle sue attitudini o che può dipendere dallo stato di salute (raffreddore), ma se noi interessa costruire qual è la rappresentazione fonologica di quella parola nel caso generale, non staremo a guardare questo fenomeno fonetico della nasalizzazione della vocale. Quindi una trascrizione fonemica può essere utile per studiare il sistema, per dare una rappresentazione astratta della lingua, ma ci porta a dover trascurare tutta una serie di aspetti che si possono osservare, invece, nelle realizzazioni fonetiche (tra parentesi quadre), negli atti di Parole dei parlanti nativi. Quindi trascrizione 38 fonetica, sistematica, significa tenere conto di questi fenomeni che possiamo prevedere, che possiamo essere sicuri che in un parlato sorvegliato, neutro, di un parlante senza particolari connotazioni regionali o personali, si possano verificare, osservare anche in atti di Parola. Esiste una trascrizione fonetica impressionistica che ci può portare a osservare questi fenomeni quando ci sono e quando non ci sono, quindi tenere conto di varianti individuali che non rispettano le attese. Oggi si fa spesso una trascrizione fonetica assistita perché l’uso degli strumenti tecnologici, la facilità con cui uno studioso può disporre di strumenti di analisi acustica, fa sì che molto spesso la valutazione sulla qualità del singolo suono venga effettuata con la possibilità di riascoltare ma anche di vedere una rappresentazione analitica di questi suoni. 39 La fonetica acustica si è affermata sin dalla seconda metà dell’800 come una materia eminentemente interdisciplinare. Molti studenti di discipline diverse si sono avvicinati a questo argomento e hanno fatto la scoperta di altri colleghi di altra formazione che vi erano arrivati da altre direzioni. L’Italia ha avuto dei pionieri in questo settore in studiosi che si sono avvicinati all’uso degli strumenti con motivazioni diverse e per questo le prime descrizioni sono risultate piuttosto eterogene: parliamo, ad esempio, di padre Agostino Gemelli che nel ’34 pubblica uno studio elettro-acustico del parlato; evidentemente italiani all’estero come Giulio Panconcelli-Calzia avevano avuto l’opportunità di servirsi di strumentazioni molto sofisticate; oppure studiosi americani formatisi nella scuola dei pionieri di questo settore avevano cominciato a studiare l’italiano attraverso un approccio sperimentale. Non era propriamente fonetica acustica, era una fonetica acustica che usava gli strumenti per effettuare dei rilievi. Si tratta in questo caso di uno studio sperimentale che fa ricorso a strumenti che rilevano variabili articolatorie, fisiche ma non espressamente acustiche. Un progressivo avvicinamento alla fonetica acustica si ha negli anni ’60 e tra i pionieri ricordiamo sicuramente gli studiosi fisici dell’istituto elettrotecnico Galileo Ferraris di Torino, istituto presso il quale si forma Franco Ferrero che possiamo considerare un vero e proprio pioniere che fonderà poi l’istituto di fonetica di Padova, nel quale incontrerà colleghi di formazione diversa, e nel quale avrà l’opportunità di formare generazioni di fonetisti in grado di svolgere un’analisi acustica con gli strumenti che progressivamente si sono affermati. Altri studiosi italiani vanno all’estero a formarsi ma poi, tornati in Italia, cominciano a costruire i loro piccoli laboratori nelle diverse realtà universitarie. A Torino abbiamo il fondatore del laboratorio di fonetica sperimentale Arturo Genre. La prima fonetica acustica si affermò negli anni ’50 grazie agli studi di Fant, un fisico svedese che ha l’opportunità di collaborare con fonologi e con linguisti del calibro di Jackobson. Fonetica acustica = analisi del parlato. L’approccio della fonetica acustica tiene conto delle risonanze del suono prodotto dalle pliche vocali all’interno del condotto vocale e delle cavità nasali che si producono dietro lo stimolo di questa sorgente oscillatoria che è data dalle pliche vocali nella laringe. Queste cavità risuonano come una cassa di risonanza di uno strumento musicale; l’unica differenza è che questa cassa di risonanza è in parte modificabile: il condotto vocale consente di variare la configurazione di questo ambiente di risonanza e le risonanze sono diverse perché le onde stazionarie che si stabiliscono in questo ambiente acustico variano in funzione delle sue dimensioni e della sua forma. È in questo momento che comincia a vedere la luce la teoria sorgente-filtro che vede nel prodotto finale dell’articolazione dei suoni, una interazione tra una parte di generazione del suono oscillatorio (o nel caso dei rumori, il rumore creato in una costrizione situata all’interno del condotto vocale) e il condotto vocale e le cavità di risonanza nasali come un filtro che irraggia 42 11. Il parlato e la sua rappresentazione – fonetica acustica verso l’esterno solo una parte delle componenti armoniche prodotte dalla voce o delle perturbazioni create dal rumore. Si riprendono le teorizzazioni sulle risonanze dei tubi acustici, già proposte nella seconda metà dell’800, per adattarle allo studio delle risonanze acustiche che avvengono nel condotto vocale approssimato a un tubo acustico. È questo che va sotto il nome di teoria della perturbazione. D’altro canto, sempre in questi lavori pionieristici, troviamo una sezione importante dedicata all’analisi spettrale, cioè all’analisi del segnale acustico attraverso uno strumento fondamentale (la trasformata di Fourier), quindi l’analisi in componenti primarie dei suoni su un piano acustico. 11.1. La teoria sorgente-filtro La teoria sorgente-filtro è una teoria che dice che il parlato si può analizzare come risultato del prodotto di due tipi di attività: produzione della voce con le corde vocali (sorgente della produzione linguistica, attività fonatoria), ciò che riusciamo a fare con gli organi articolatori (lingua, labbra, velo palatino, chiamata articolazione dei suoni: filtro). Cioè noi usiamo questo apparato superiore per filtrare il suono prodotto dalle corde vocali per fare in modo che nascano dei timbri diversi, dei suoni con qualità diverse. Quindi il parlato è un gioco di attivazione-disattivazione dell’attività della laringe e questa si chiama attività fonatoria. Quella che compiamo con le cavità superiori è un’attività articolatoria (l’attività del filtro). La teoria sorgente-filtro cerca di descrivere le caratteristiche del suono finale in uscita irraggiato all’esterno del nostro sistema fono-articolatorio sulla base delle caratteristiche che ha il segnale glottico (il segnale prodotto dalle corde vocali), che ha alcune caratteristiche fisiche misurabili e quantificabili, e l’effetto che le cavità superiori esercitano sulla qualità di questo suono; questo effetto è un effetto filtrante, è come un equalizzatore che ci permette di aumentare alcune componenti e abbassarne o attenuarne altre. 43 Teoria sorgente-filtro F1 F2 F3 F1 F2 F3 * * F1 F2 F3 F1 F2 F3 * F1 F2 F3 F1 F2 F3 Sorgente (= laringe o fonte di rumore)-filtro Filtro spettri risultanti (= cavità di risonanza + irraggiamento) Fonetica acustica Possiamo vedere, in questo schema, i suoni in uscita analizzati in base alle loro componenti (in questo caso si tratta di una i) come risultato della combinazione degli effetti di un’onda sonora molto particolare (che viene prodotta all’interno della laringe) con caratteristiche di pendenza spettrale, con caratteristiche di dosaggio delle componenti di energia progressivamente scalata. Quindi noi abbiamo questo stimolo all’interno della nostra laringe, che avrebbe un suono poco definito, poco colorato, e la colorazione del suono viene invece dato dalle cavità. Schema 1 è l’effetto filtrante del condotto vocale quando noi pronunciamo un suono di tipo i. Si vede l’equalizzazione che noi esercitiamo: facciamo in modo che le componenti in bassa frequenza (in prossimità dell’asse delle ordinate) siano potenziate, così pure alcune componenti in alta frequenza. In tutta la regione intermedia, quella tra la bassa e l’altra frequenza, si ha invece un effetto di smorzamento delle componenti, questo per via della forma che assume il condotto vocale con la lingua che si solleva nella regione anteriore e lascia un’ampia cavità nella regione posteriore. Schema 2 quello che accade, invece, ad un suono di tipo a che si articola con la lingua abbassata e la radice che è un po’ schiacciata verso la faringe, è una risonanza di tipo completamente diverso che porta a valorizzare le componenti di media frequenza e attenua quelle di alta frequenza e in buona misura anche quelle di bassissima frequenza (quelle che invece nella i erano state enfatizzate). Schema 3 l’effetto filtrante nel caso della u è tale da far amplificare le componenti di bassa frequenza, molto meno quelle di media frequenza, e 44 Noi studiamo le prime quattro risonanze più importanti: quella che chiamiamo la prima formante che è la risonanza più grave che riusciamo a fare, ed è quella legata al fatto che si può stabilire una risonanza con un nodo in corrispondenza della laringe e un ventre in corrispondenza delle labbra, e le altre le vedremo successivamente che presentano un numero di nodi progressivamente più grande all’interno del condotto vocale. La teoria della risonanza - Perturbation Theory Si possono prevedere gli effetti su queste onde stazionarie di una diversa configurazione del tubo, quindi un’articolazione che va a modificare la sua uniformità. Noi immaginiamo, di solito, il condotto vocale come un tubo rettificato, rettilineo e immaginiamo anche una sezione uniforma. Una sezione uniforme si può avere pronunciando un suon di tipo ǝ (shwa), noi lo sappiamo perché vediamo proprio tutte le onde stazionarie in base a quello che il modello ci consente di prevedere. L’equivalente del condotto vocale con tubo acustico fa vedere perché le componenti acustiche di un timbro di tipo i e di tipo a si spostino in funzione dei movimenti e della posizione in cui avviene il movimento all’interno del condotto vocale. 47 (da Giannini & Pettorino 1992) F 1 F 2 F 3 F 1 F 2 F 3 F 1 F 2 F 3 11.3. Teoria di Fourier Il teorema di Fourier dice che qualsiasi fenomeno ciclico periodico si può scomporre in una somma di movimenti ciclici di movimenti semplici. Se il suono che noi ascoltiamo è complesso, presenta un timbro articolato, è perché ci sono delle componenti. Se la voce, quindi lo stimolo, la sorgente è un suono complesso (abbiamo visto che presentava tante componenti armoniche, ciascuna con un’energia diversa) è già quello un suono che presenta una sua struttura, una sua composizione armonica. Quindi le componenti elementari che noi studiamo in un suono periodico sono quelle che si chiamano armoniche, che sono sinusoidi, oscillazioni regolari descrivibili attraverso una frequenza e un’ampiezza. Analisi del segnale acustico – analisi spettrale: Teorema di Fourier (XVIII sec.) Nella prima immagine, ad esempio, notiamo che c’è una forma d’onda che si ripete due volte, ci sono due cicli, due periodi fondamentali di un suono complesso. L’importante è che sia una periodicità, se si ripete la stessa forma d’onda con le stesse caratteristiche nel tempo noi possiamo scomporla, possiamo ricorrere a delle componenti primarie per rappresentarle. Il teorema di Fourier dice che queste componenti primarie hanno due caratteristiche importanti: La componente più lenta, quella a frequenza più bassa (componente fondamentale), presenta la stessa periodicità della forma d’onda che stiamo analizzando. 48 Qualunque suono periodico infinitamente lungo può essere decomposto in una serie di componenti sinusoidali. La freq. di ciascuna componente è un multiplo della freq. fondamentale, cioè della frequenza della sua componente più grave (coincidente con la freq. di periodicità del suono di partenza). Tutte le altre componenti hanno una frequenza multipla. Quindi dove la prima componente (quella fondamentale) ha un solo ciclo, nello stesso tempo la seconda componente ha due cicli e la terza componente ha tre cicli. Queste sono le armoniche, le componenti armoniche si chiamano così proprio perché presentano una frequenza multipla rispetto a quella della frequenza fondamentale. E questo vale per qualsiasi fenomeno ciclico purché sia periodico. Quello che rende i suoni con la stessa frequenza fondamentale diversi tra loro è il colore, cioè il dosaggio dell’ampiezza delle componenti. Analisi del segnale acustico: suoni periodici e aperiodici nota di chitarra classica a 440 Hz (22 cicli) rumore di televisore non sintonizzato A sinistra abbiamo il suono di una nota di una chitarra classica, 440 Hz, quindi 22 cicli in soli 50 millesimi di secondo. Analizzando questi 22 cicli (che hanno ampiezza diversa e quindi il suono è pseudo-periodico) e svolgendo la decomposizione acustica dello spettro di Fourier di questo suono, otteniamo un grafico che presenta un tentativo di stima di ciascuna delle componenti armoniche presenti nel suono. Le componenti armoniche sono queste righe, picchi più evidenti all’interno di un insieme di oscillazioni più aleatorie. Il suono di questo strumento è caratterizzato per avere tutte queste armoniche ma presenta anche un’ampiezza distinta. La terza armonica è meno potente delle prime due e della quarta. Ovviamente la tendenza ad avere meno energia sulle alte frequenze è tipica di molti suoni perché è molto difficile far muovere velocemente, in modo regolare, in modo periodico, qualcosa, quindi ci aspettiamo che molti suoni assumano un andamento periodico più regolare a frequenze più basse. Quello che succede, invece, analizzando con lo stesso dispositivo un rumore, cioè un suono che non ha nessuna periodicità, è l’assenza totale di componenti 49 armoniche e quindi più definite nelle modalità di caratterizzazione dell’inviluppo, quindi di misurazione delle posizioni in cui si trovano le formanti che definiscono il timbro del suono. Lavorare su voci femminili portava a trovare misure di formanti, configurazioni di formanti molto più variabili perché lo spettro è meno definito. Peggio ancora le voci infantili (terza fila), non ha per niente un numero di armoniche sufficienti per dare una buona definizione del timbro della vocale che il bambino sta articolando. La soluzione è venuta proprio grazie al digitale, grazie a un ribaltamento delle modalità di misurazione dei timbri. La soluzione è venuta intorno agli anni ’70, in particolare nel 1976 grazie a un manuale che ha spiegato come funziona, come si applica e come si può eseguire un’analisi basata sull’LPC (Codifica Lineare Predittiva). Proprio grazie a questo sistema riusciamo a estrarre, non lo spettro armonico ma, direttamente una stima della configurazione articolatoria. L’LPC lavora di più sul filtro, estrae la curva di equalizzazione del condotto vocale. È una stima anche questa ma ci permette di vedere il posto in cui si localizzano le formanti, e quindi le onde stazionarie che risuonano in quel condotto vocale in modo del tutto indipendente dalle caratteristiche della voce del parlante. 11.4. Analogico e digitale 23/10/10 (non dovrebbe chiederlo) Un segnale analogico l’abbiamo già incontrato quando abbiamo introdotto il teorema di Fourier e abbiamo visto che il parlato (almeno nelle porzioni in cui si caratterizza per essere un fenomeno periodico), si presenta con delle forme d’onda, quindi con delle perturbazioni che si propagano nelle molecole d’aria intorno alla sorgente; questo era un segnale continuo detto anche analogico. 52 Le oscillazioni di un suono di tipo vocalico potevano sembrare come queste rappresentate nell’oscillogramma (diagramma nel quale si traccia la posizione che occupa un determinato rilevatore di movimento) che ha sull’asse delle ascisse il tempo che scorre in ms e un’ampiezza istantanea che è una variabile che rende conto dello scostamento di una molecola d’aria (o una variabile elettrica) rispetto a una posizione media (che è quella che rappresentiamo con lo 0 con l’asse delle ascisse). Quindi un suono vocalico si caratterizza per una ripetizione ciclica di una stessa forma d’onda elementare. In questo vediamo una forma d’onda elementare di durata 10 ms, questo è un periodo fondamentale e il suono vocalico si caratterizzerà per la ripetizione del periodo fondamentale per un certo numero di volte che varia a seconda della voce, infatti ci sono più cicli in una voce femminile o infantile. Se il periodo fondamentale dura 10 ms noi possiamo chiaramente immaginare cosa succede in un secondo: un secondo sono 1000 ms e quindi basterà fare 1000:10 = 100, cioè un periodo fondamentale con queste caratteristiche si ripete 100 volte al secondo, quindi abbiamo a che fare con un suono con una frequenza fondamentale di 100 Hz, 100 cicli al secondo. Abbiamo visto che il teorema di Fourier dice che una forma d’onda che si ripeta ciclicamente a una frequenza di 100 Hz presenterà tra le sue componenti una sinusoide, una componente fondamentale (che chiamiamo armonica fondamentale) a 100 Hz. Ma tutti gli altri movimenti presenti all’interno dell’onda, che sono più veloci di 100 Hz, saranno comunque legati a componenti con caratteristiche di ampiezza diversa, ma con frequenza multipla della frequenza fondamentale: questo suono decomposto secondo il teorema di Fourier può essere descritto da tre componenti (quelle nel grafico in basso) chiamate spettro di Fourier, una decomposizione armonica. In questo suono ci sono tre componenti: le prime tre armoniche la frequenza fondamentale (f0), la prima armonica (f1) e la seconda armonica (f2). C’è comunque un’altra variabile: l’ampiezza di ciascuna di queste componenti, e vediamo che c’è una componente più forte e altre due più deboli (f1 è la più debole); queste tre componenti le rappresentiamo su una scala di intensità che fa riferimento al decibel (dB). Quindi passiamo da una rappresentazione nel tempo a una rappresentazione in frequenza: il teorema di Fourier permette di rappresentare le componenti di un suono su un grafico che presenta nelle ascisse la frequenza e nelle ordinate un’intensità, e poi attraverso delle righe abbiamo una rappresentazione delle caratteristiche di quel suono, in senso ideale nel caso in cui quel suono sia un suono analogico cioè continuo e periodico; la prima componente è a 100 Hz, la seconda a 200 Hz e la terza a 300 Hz. 53 Cos’è successo quando siamo passati dall’analogico al digitale? Quel segnale continuo studiato attraverso gli strumenti analogici, cambia completamente aspetto e diventa un segnale digitale. Cioè quella forma d’onda la ritroviamo costituita non più da una variazione continua della variabile, ma con una variazione discreta, a salti, cioè la forma d’onda è stata campionata. Abbiamo preso non più tutti i punti che costituiscono l’evoluzione temporale dell’ampiezza (cosiddetta) istantanea, ma abbiamo preso dei campioni e ne abbiamo preso una quantità variabile, dipende da quella si chiama frequenza di campionamento. In questo caso il segnale è stato discretizzato, campionato, a 2 kHz, cioè sono stati presi 2000 campioni al secondo. Questo equivale a dire che in 10 ms noi prendiamo 20 campioni. La forma d’onda viene quindi descritta da una sequenza di punti che hanno una posizione nel tempo e un’ampiezza che, a sua volta, viene rappresentata, oggi, in una scala di ampiezza quantizzata. In questo modo si ricorre alla DFT (Trasformata di Fourier Discreta). La DFT ci permette comunque di ottenere un grafico come quello di prima, in cui abbiamo sull’asse delle ascisse la frequenza e sull’asse delle ordinate l’intensità; l’intensità però è diversa perché è rappresentata sulla base di variabili digitali, l’altra differenza fondamentale è che nel momento in cui operiamo un campionamento si presentano, nello spettro, delle repliche e la posizione di queste repliche dipende dalla frequenza di campionamento: cioè se noi campioniamo a 2 kHz, prendiamo 2000 campioni al secondo, ci ritroviamo ad avere una raffigurazione speculare a 1000 Hz, cioè la metà della frequenza di campionamento. Solitamente quando si lavora nel campo del trattamento del segnale vocale la frequenza di campionamento è 16000 e, tradizionalmente, si raffigurano gli spettri da 0 a 8000, cioè si fa in modo che lo spettro sia leggibile fino a 8000 perdendo, quindi, tutte le frequenze intorno a 10000, 11000 o 12000 che 54 F3 F2 F1 Misura di formanti (F1, F2 e F3) F3 F2 F1 condotto vocale, passiamo a una rappresentazione bidimensionale spettrografica con il tempo sulle ascisse (quindi la successione di eventi sonori che si verifica mentre parliamo), sull’asse delle ordinate la frequenza (quindi la caratterizzazione timbrica acustica di questi suoni in base alla loro composizione) e il grado di annerimento in una scala di grigi che ci dice quanta energia effettivamente sia localizzata in queste posizioni e quali siano queste posizioni, che sono quelle che appunto definiscono il timbro. Ovviamente notiamo anche delle posizioni di assenza di energia: dove vediamo delle macchie bianche vuol dire che in quella fase o in quella data porzione di spettro non c’è energia, quindi la maggior parte dell’energia si concentra alle basse frequenze. Analisi spettrale: misura di timbri vocalici con PRAAT Questa rappresentazione spettrografica noi oggi la vediamo ricorrente in associazione ad altre curve che si sono aggiunte progressivamente e che hanno arricchito l’analisi strumentale che si fa oggi sul piano acustico del parlato e ci hanno consentito anche di associare delle annotazioni, delle etichette. Questa, ad esempio, è una tipica finestra del sowtware PRAAT che permette di fare numerosissime misurazioni acustiche e altre valutazioni sperimentali sul parlato e che, essendo gratuito, si è diffuso particolarmente. In questa finestra tipica osserviamo un oscillogramma, che è quello che ci fa vedere il segnale vocale un po’ più addensato rispetto a come l’abbiamo visto finora noi vediamo essenzialmente delle oscillazioni molto dense, delle fasi di oscillazione più deboli che riguardano suoni sonori ma non necessariamente vocalici (che sono quelli che hanno maggiore energia), e fasi di assenza di suono o comunque presenza di solo rumore di fondo. L’oscillogramma ha tutta la sua utilità, ma ne ha molta di più lo spettrogramma (secondo grafico) che è quello su scala di grigi. Su questo grafico abbiamo la possibilità di sovrapporre altre misurazioni, altre stime, come per esempio quelle tracciate in rosso che rappresenta il tracciato formantico, cioè una possibilità che abbiamo grazie agli strumenti di individuare automaticamente la regione di massima concentrazione 57 dell’energia per i suoni che abbiano una sonorità e quindi una struttura armonica che possa essere messa in rilievo dall’effetto filtrante del condotto vocale. Quelle rosse sono quindi le formanti, cioè le frequenze di risonanza delle onde stazionarie che vengono alterate nel corso della produzione del parlato. Normalmente la scala di rappresentazione va da 0 a 8000 Hz e, da 0 a 8000 ci aspettiamo di trovare 8 formanti ce ne aspettiamo 8 perché abbiamo visto che per ragioni legate alle risonanze acustiche che si possono stabilire in un tubo chiuso da un lato e aperto da un altro, ci sono delle onde stazionarie con frequenza pari a circa 500, 1500, 2500, 3500, 4500 e così via ogni mille Hz, e quindi da 0 a 8000 ce ne aspettiamo 8. Ovviamente quelle più in alto saranno molto irregolari perché nel parlante sono soggette a una minore stabilità, a un minore controllo, perché più è alta la frequenza e più è probabile che un’interferenza o un movimento minimo all’interno del condotto vocale causi dei disturbi, delle variazioni. Quelle molto più stabili sono le prime formanti che abbiamo detto essere quelle utili per descrivere la caratteristica timbrica dei suoni. In particolare sono le prime 3 formanti (F1, F2, F3) che ci permettono di classificare tutti i suoni vocalici. Queste formanti si spostano perché al variare della configurazione articolatoria il condotto vocale si modifica e le risonanze si spostano, aumentano o diminuiscono. Oltre al tracciato formantico, che ci agevola la misurazione delle formanti, abbiamo anche altri grafici che si possono sovrapporre e che ci possono dare altre indicazioni: la curva blu rappresenta la curva della frequenza fondamentale, cioè il parlante nel pronunciare la parola aiuto non sta mantenendo la voce su una stessa nota musicale, altrimenti avremmo una produzione monotonica; invece normalmente facciamo variare la frequenza fondamentale e questo causa un’alterazione di tutta la struttura armonica, ma ci dà anche la percezione di un’altezza melodica variabile. 58 Misura di F2 in diversi punti e con diversi metodi 11.6. Formanti di suoni vocalici (importante) Analisi spettrale: misure manuali con PRAAT Vediamo cosa succede nel momento in cui ci dovessimo porre a misurare le caratteristiche del suono u della parola aiuto. Ovviamente questa vocale presenterà una fase di transizione iniziale che segnala la provenienza dal suono precedente e una transizione finale che segnala l’impostazione del suono successivo. Solo in una fase di stazionarietà, una fase centrale, noi avremo un timbro veramente stabile, o meglio, sperabilmente stabile se infatti andiamo a eseguire delle misurazioni in diversi punti ci troviamo di fronte a delle misure che ci fanno rilevare valori piuttosto diversi. Se ci mettiamo in una delle prime sezioni di stabilità del suono u e proviamo a misurare il valore della seconda formante (F2), cliccando, ci compare un valore di tipo 878,6 Hz all’istante 362 (ms). Ma se io riclicco una seconda volta nello stesso punto, per la sensibilità della finestra di visualizzazione, io rischio di cliccare solo pochi decimi di millimetro più in alto o più in basso e ottengo un’altra misura (926,5 Hz), cioè nello stesso punto ottengo dei valori così diversi, questo perché lo spettrogramma è piccolo rispetto allo schermo che posso sfruttare; l’ideale sarebbe avere una rappresentazione spettrografica senza annotazioni, senza altri grafici, e possibilmente che sfrutti l’intera finestra di un display di dimensioni notevoli per avere una maggiore affidabilità della misura, perché altrimenti il tipo di errore che commettiamo è di 50 Hz. L’altra cosa che osserviamo è che, osservando la curva rossa, il tracciato formantico sembra aumentare leggermente infatti se clicco all’istante 382 (ms) ottengo un valore di F2 decisamente più alto. 59 t1 = 362 ms F2=878,6 Hz oppure F2=926,5 Hz ? t2 = 382 ms F2=974,3 Hz t3 = 402 ms F2=974,3 Hz! F3 è un buon correlato della presenza di labializzazione o retroflessione della lingua. 11.7. Segmentazione spettrogrammi 12/11/20 Dopo aver visto come sia possibile categorizzare tutte le realizzazioni di suoni vocalici, avevamo introdotto il problema del movimento delle formanti nel corso della produzione di una vocale. Questo movimento è legato alla coarticolazione: cioè al passaggio da un suono precedente a un suono successivo e al fatto che, quando questo avviene, si ha un’anticipazione del suono seguente nello stesso movimento che gli organi articolatori mobili compiono per avviarsi a creare la configurazione necessaria per generare il timbro acustico del suono seguente, o comunque creare l’assetto articolatorio tale da permettere la produzione del suono seguente. Abbiamo visto quindi delle transizioni: tra un suono e l’altro si hanno delle transizioni; all’interno di un suono vocalico noi distinguiamo dei movimenti di formanti che dipendono dalla posizione che queste formanti occupavano nel suono seguente e dal tempo che ci mettono a raggiungere il bersaglio. Il bersaglio articolatorio, generalmente, è raggiunto in una porzione centrale del segmento all’interno del quale noi cerchiamo di delimitare l’esistenza di quel determinato suono: si ha una fase di impostazione del suono, poi una fase di stabilità e poi una fase di decadimento nella quale si anticipano le caratteristiche del suono seguente; quindi si avvia la transizione, la formante si muove per raggiungere la posizione in cui risuona il condotto vocale durante la produzione del suono seguente. Osservando lo spettrogramma (anche dello stesso parlato di laboratorio che è un parlato molto controllato) si osservano delle fasi che non sempre è facile attribuire a un suono o all’altro. Per avere una guida essenziale sulla segmentazione di uno spettrogramma, sul sito del laboratorio di fonetica sperimentale Arturo Genre, è possibile trovare delle indicazioni pratiche. 62 Riferimento generale per l’italiano: Giannini A. & Pettorino M. (1992). La fonetica sperimentale. Napoli, Ed. Scientifiche Italiane. Analisi spettrografica segmenti e transizioni Eccoci di fronte a una tipica rappresentazione spettrografica che si può ottenere in una finestra di analisi del software PRAAT, nella quale osserviamo l’oscillogramma in alto e lo spettrogramma in basso. Questo è lo spettrogramma della parola «stazione» pronunciata da un attore. Si distinguono le varie fasi che caratterizzano i distinti suoni che noi percepiamo in questa parola; in particolare cominciamo con l’osservare le caratteristiche del suono costrittivo iniziale, una costrittiva alveodentale sorda, che occupa la metà superiore dello spettrogramma (gli annerimenti si situano esattamente nella metà superiore) cioè 4000 Hz anzi, in modo particolarmente accentuato, a partire da 5000 Hz. Da 5000 a 8000 notiamo la maggiore concentrazione di energia dispersa in un rumore che non ha caratteristiche armoniche. Questo suono di tipo «s» (grafico sopra) ha una fase veloce di innesco, una tenuta abbastanza stabile e una fase abbastanza netta di decadimento perché occorre passare all’articolazione dell’occlusiva seguente, che è un’occlusiva alveodentale sorda che presuppone, quindi, una fase di tenuta di silenzio, di assenza totale di suono, solo che qui (grafico sotto), effettivamente, non si nota una traccia completamente bianca che corrisponde a questo silenzio; abbiamo, quindi, una fase in cui un rumore di frizione minimo residuo persiste, nonostante sia debolissimo e abbia una concentrazione ancora più stretta rispetto a quella del suono precedente. A questa fase di riduzione netta dell’energia, segue una fase di esplosione, uno scoppio che caratterizza il rilascio dell’occlusione, è quella che si chiama una barra d’esplosione che dura all’incirca 5-10 millisecondi. Immediatamente dopo l’esplosione parte la vibrazione delle corde vocali e abbiamo qui una vocale di tipo «a», la vocale si riconosce subito dalle righe verticali che rappresentano i singoli cicli di vibrazione delle corde vocali e da una struttura formantica che stabilisce le caratteristiche del timbro. Alcune formanti sono più evidenti, altre sono più deboli, altre ancora risultano molto attenuate e addirittura non visibili nello spettrogramma. In questo caso, da 0 a 8000, vediamo bene cinque formanti: 3 abbastanza forti sotto i 4000 Hz (che è la posizione dove si situano, solitamente, le componenti energetiche più 63 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⓪ ⑩ importanti di un suono vocalico). Di queste tre formanti la terza formante non la osserveremo perché non definisce un tratto pertinente nel vocalismo dell’italiano, mentre invece la prima e la seconda formante offrono la possibilità di individuare la caratteristica timbrica del suono. In questo caso, diversamente da quello che ci saremmo aspettati (cioè due formanti molto vicine in media banda, cioè intorno ai 1000 Hz), abbiamo una leggera divaricazione tra le due formanti: in particolare la prima risulta essere leggermente più bassa del previsto, e la seconda leggermente più alta. Questo è dovuto, in buona sostanza, al fatto che lo speaker, quando pronuncia questa «a» in questa posizione, la palatalizza leggermente. La vocale è comunque ben delimitabile dal momento in cui vibrano le corde vocali al momento in cui cessano perché il suono seguente è di nuovo una consonante sorda; una consonante sorda che, tra l’altro, chiude la sillaba precedente e questo spiega anche il motivo per cui la vocale risulta essere così breve e contenuta: noi diciamo che questa vocale è in sillaba chiusa, in inglese si parla di sillaba checked (cioè controllata) c’è una consonante che blocca quella vocale, la fa terminare piuttosto bruscamente. Questa consonante è affricata (cioè semi-occlusiva), inizia con una fase occlusiva piuttosto lunga che comincia a degradarsi nel momento in cui cominciamo a comparire delle alte frequenze, dei rumori che segnalano come, progressivamente, stia avvenendo un rilascio della fase occlusiva; durante questo rilascio avviene la comparsa di una frizione dal colorito molto variabile che si concretizza in una fase in cui troviamo di nuovo una distribuzione di energia che ricorda il rumore che avevamo descritto nel caso del suono costrittivo alveodentale iniziale. Questo ci mostra bene come l’affricata «z» dell’italiano sia costituita da una fase di tenuta (occlusione) e da una fase di rilascio non segnata particolarmente da un’esplosione, ma da un progressivo rilascio che si caratterizza per una dinamica; questo fa sì che noi dobbiamo parlare, in questo caso, di una fase di rilascio, di una fase costrittiva, e non possiamo intendere questa nostra semi-occlusiva dentale come la successione di due distinti suoni: si tratta di due fasi di un unico suono che ha una tenuta iniziale e un rilascio progressivo con rumore di frizione. Tuttavia, il movimento che vediamo innescato e che si concretizza, in quest’ultima fase, con l’apparizione di alcune tracce in frequenza relativamente più bassa, è dovuta al fatto che sta avvenendo la co- articolazione col suono successivo che, nel caso di questa parola, è un approssimante palatale. Quindi noi qui abbiamo una fase in cui inizia a formarsi una formante che si muove verso il basso; una formante che resta un po’ stabile all’inizio ma che si muove piuttosto bruscamente; un’altra formante ancora che rappresenta, tipicamente, la seconda formante di una «i» ma qui è molto debole e diventa più energetica nel momento in cui si ha questo passaggio, una transizione tra un suono di tipo approssimante palatale e una vocale medio-alta «o». Questa è la vocale «o» che ha una sua fase di stabilità e poi una fase in cui si manifestano transizioni che segnalano l’impostazione dell’articolazione del suono seguente che è una consonante nasale. Noi ci aspettiamo che la prima formante sia più bassa e la seconda e la terza non è più sicuro che siano la seconda e la terza perché 64 Eccoci, dunque, a osservare la qualità delle transizioni tra suoni di tipo occlusivo e vocali seguenti. Ovviamente la maggiore difficoltà sta nella necessità di valutare le proprietà acustiche e quindi risalire alle ragioni articolatorie che ci permettono di caratterizzare il suono nel caso di consonanti occlusive sorde (che non hanno nessuna struttura formantica). Ma partiamo, invece, da quelle sonore che presupponiamo siano articolate nella stessa posizione delle controparti sorde. Cominciamo a riflettere sulla natura delle fasi di coarticolazione tra consonanti sonore e vocali. Abbiamo qui, ad esempio, le possibili combinazioni tra un suono occlusivo bilabiale sonoro di tipo «b» con le vocali «a», «i», «u». Osservando la struttura formantica della vocale «a» noi riconosciamo le due formanti (la prima e la seconda) disposte in banda media attorno a 1000 Hz e osserviamo come, nella transizione tra il suono seguente si ha una perdita progressiva di energia ed eventualmente anche un arresto delle corde vocali nella fase immediatamente precedente l’esplosione; in corrispondenza dell’esplosione osserviamo delle veloci transizioni delle formanti che si dispongono per definire la struttura timbrica di un suono di tipo «a». Essendo la lingua svincolata dall’articolazione labiale dell’articolazione precedente, è probabile che il parlante abbia già predisposto la lingua nella configurazione necessaria per articolare il suono «a». Tuttavia, al momento dell’esplosione si ha comunque un movimento legato al movimento delle labbra che si allontanano e questa è la causa di questo movimento di aumento di tutte le formanti che si osserva in questa fase. Questo è quanto noi osserviamo sui dati di laboratorio a conferma di quanto teorizzato, sin dagli anni ’50, da autori che hanno lavorato inizialmente su lingue molto conosciute come l’inglese, il francese, lo spagnolo e il tedesco. Ma nel corso di questi 70 anni noi sappiamo che molti laboratori di fonetica hanno verificato e approfondito queste ricerche su lingue molto diverse. Quindi le caratteristiche di movimento delle formanti tra un suono occlusivo e la vocale seguente, ma anche tra la vocale e il suono occlusivo seguente, sono state studiate attraverso strumenti via via più sofisticati mostrando caratteristiche distinte da quelle schematizzate in questa breve valutazione di un numero limitato di combinazioni. Vediamo ora come questo abbia portato a una teoria detta teoria dei loci. Il locus 67 acustico è il correlato acustico del luogo d’articolazione sul piano della produzione del suono. I loci acustici sono stati studiati per diverse consonanti (e quindi non solo le occlusive, ma anche anche le costrittive e le affricate) in combinazioni diverse con diversi timbri vocalici, ma anche distinguendo le caratteristiche che questi movimenti hanno passando da consonante a vocale (quindi transizioni di tipo c-v), oppure da vocale a consonante (quindi transizioni v-c). Per alcune lingue si è osservato che ci possono essere variazioni significative portando alla descrizione di un quadro che si è progressivamente complessificato. 11.8.1. Teoria dei loci In questa diapositiva vediamo riassunte le rappresentazioni grafiche sulle quali si basa la riflessione avviata nel ’52 da questa equipe di studiosi che ha riflettuto sulle caratteristiche acustiche delle transizioni, definendo alcune regolarità che si presentavano nei dati dell’inglese americano; regolarità che poi noi abbiamo ritrovato in altre lingue, tra cui l’italiano. Se osserviamo le formanti di un suono di tipo «i» nel momento in cui questo suono si è inserito tra due suoni adiacenti di tipo occlusivo bilabiale sonoro, noteremo che la prima formante si muove molto poco al passaggio da questi suoni alla «i», mentre le formanti più alti (la seconda, la terza e la quarta) presenteranno un movimento di tipo ascendente nel passaggio dalla consonante alla vocale e discendente dalla vocale alla consonante. In arancione troviamo quindi la seconda 68 formante di una «i» compresa tra due bilabiali. Se osserviamo una «a» nello stesso contesto, noteremo che già la prima formante si muove, presenta dei movimenti di tipo ascendente o discendente a seconda di quale delle due transizioni osserviamo. Questo accade anche per la seconda formante, che qui è rappresentata in blu, e che, trovandosi molto più in basso rispetto a quella di una «i» presenta ancora degli andamenti di tipo ascendente/discendente. Se guardiamo le formanti di un suono «u» compreso tra due consonanti bilabiali, noteremo degli scostamenti ma, grossomodo, trattandosi di un suono in cui le prime due formanti sono molto basse, gli scostamenti che registriamo sono deboli o spesso molto variabili. In verde sono rappresentati i valori stilizzati di questa formante perché, in questo momento, eseguiremo la determinazione del locus acustico di una consonante bilabiale esattamente con lo stesso metodo seguito da questi studiosi negli anni ’50. Il metodo consisteva nel prelevare, tracciandoli su carta millimetrata, i movimenti di queste tre curve F2 di «i», F2 di «a» e F2 di «u» nello stesso contesto consonantico; riportando su uno stesso grafico (in basso a sinistra) la seconda formante di «i», la seconda formante di «a» e la seconda formante di «u», si nota che i movimenti, nel passaggio dalla consonante alla vocale e dalla vocale alla consonante, seguono delle direzioni prolungando le quali, si ottiene un’intersezione, un punto di intersezione. Il punto di intersezione definisce il locus della consonante che si trova subito prima di queste tre vocali. Il locus acustico di «b» si pone attorno a 650 Hz, tanto nella fase di coarticolazione tra la consonante e la vocale, quanto in quella di coarticolazione tra la vocale e la consonante. Ora lo rifacciamo per le altre due consonanti che sono, rispettivamente: l’alveodentale «d» e la velare «g». Nelle coarticolazioni tra «d» e «i» lo scostamento della seconda formante è trascurabile, in questo caso un minimo movimento era osservabile per cui è stato tracciato un grafico con queste deviazioni formantiche. Nel caso di «a», trovandosi il locus più alto rispetto alla seconda formante di «a», la transizione della formante dalla consonante alla vocale era discendente, e dall vocale alla consonante è ascendente. Nel caso di «u» la differenza sta anche nella prima formante ed è importante sottolineare che esiste un locus della prima e della terza, ma la teoria dei loci si è soffermata soltanto sui locus della seconda formante che questi autori hanno definito hub, perché è lo snodo che permette, in maniera sistematica, di caratterizzare le consonanti. Queste consonanti, che abbiamo detto essere povere di energia armonica e quindi presentano una struttura formantica non serve facilmente riconoscibile e leggibile. Il metodo per caratterizzare la struttura acustica di questi suoni e la loro natura articolatoria, è quello di guardare le transizioni formantiche e, in particolare, il locus della seconda formante. Prendendo questi movimenti e riportandoli su uno stesso grafico si ottiene un grafico (in baso al centro) che ci permette di ottenere il locus tracciando delle linnee che fanno proseguire le deviazioni formantiche verso un luogo immaginario 69 Le occlusive: loci in CV Art. bilabiali 700 Hz Art. alveolari 1800 Hz Art. velari convergenze distinte per voc. ant. vs. post., procheile vs. aprocheile 2600-3000 vs. 700-1000 Hz (cfr. Giannini & Pettorino, 1992) Loci medi: Analisi spettrale: misura di caratteristiche consonantiche Loci medi [Hz] intersezione equazione L2 (bilabiale) 672 568 L2 (alveo-dentale) 1706 1862 L2 (velare) 2521 2491 L2 (postalveolare) 1850 2018 L2 (palatale) 2150 2156 Disponendo i valori ottenuti con il metodo dell’intersezione e con il metodo dell’equazione in una tabella come questa, abbiamo potuto procedere a un confronto tra i risultati delle misurazioni o della determinazione empirica di L2 attraverso i due metodi. Lo abbiamo fatto per le stesse consonanti viste precedentemente (bilabiali, alveo-dentali e velari), ma anche per altre consonanti. Riassunto teoria dei loci Si basa sull’osservazione dei movimenti che le formanti hanno al passaggio dalla consonante alla vocale. Questi movimenti sono fondamentali per permetterci di riconoscere qual è la consonante precedente perché le caratteristiche acustiche della consonante spesso non sono sufficienti per darci indici tali da permetterci di riconoscere che consonante sia. Noi sentiamo questa consonante soprattutto perché questa consonante ha degli effetti sulla vocale seguente; le vocali servono come supporto per fare sentire le consonanti perché le consonanti occlusive sorde sono povere di informazioni acustiche e l’unico metodo, quello più affidabile, che abbiamo per sentire se la consonante precedente o seguente è una bilabiale, alveolare, velare (e così via) è proprio valutando le variazioni delle formanti sulle vocali. La teoria dei loci cerca di capire quale può essere l’indice, come può fare il cervello umano a metterci in condizioni di capire quale suono ci sia prima o dopo una vocale. Se la consonante è una bilabiale, per esempio, le formanti nel passare dalla «b» alla «i» aumentano tutte e, viceversa, passando dalla «i» alla «b» diminuiscono tutte. Succede la stessa cosa anche con le vocali «a» a «u» anche se in modo molto più attenuato e quindi con poco movimento. La seconda formante si è rivelata folto più importante e significativa: cioè noi sentiamo la consonante per 72 cambiamento di timbro che la vocale subisce soprattutto a causa della seconda formante. Se sovrapponiamo tutti questi grafici del movimento della seconda formante, arriviamo al grafico in basso. Quello che hanno osservato i ricercatori è che prolungando il movimento della formante, si giunge a un’intersezione, cioè un punto che loro hanno chiamato locus. Ecco perché teoria dei loci, perché questo locus è un valore che in qualche modo dice che consonante c’è prima; è come se questo locus acustico fosse un correlato del luogo d’articolazione (nel caso della bilabiale il luogo d’articolazione sono le labbra). Il locus L2 della bilabiale («b» o «p») è un locus che ha valore all’incirca 650 Hz. Tutto questo a che serve? Ci serve a capire, appunto, che nella percezione noi ci affidiamo a questi indici. Noi sappiamo che il luogo d’articolazione è bilabiale, alveolare o velare proprio perché le formanti hanno delle deviazioni che vanno in quella direzione. questo è il cosiddetto “metodo manuale” della teoria dei loci che consiste proprio nel tracciare su carta, proiettare e intersecare. Tuttavia esiste anche un metodo automatico basato su una formula: si misurano i valori, si mettono nella formula e viene fuori un terzo valore che ci dice qual è il locus questa si chiama tecnica dell’equazione dei loci (nei video è stato preciso, ma a lui interessa sapere come funziona esattamente, l’importante è sapere che esiste una cosa che si chiama “teoria del loci”, che è utile ai fine della comprensione della percezione dei suoni linguistici, e che può essere applicata attraverso diverse tecniche: una più tradizionale che non si usa più ma che fa capire come funziona; e una più automatica che si fa con un foglio excel in cui uno inserisce i dati e gli viene il valore che stabilisce l’indice del luogo d’articolazione delle consonanti). 11.9. Spettri di suoni costrittivi e momenti spettrali 13/11/20 Per concludere questa parte di fonetica acustica, rimane da aggiungere solo qualche precisazione riguardo lo studio dei suoni costrittivi, quelle che comunemente si chiamano consonanti fricative. Abbiamo già visto che le consonanti fricative sono dei rumori ottenuti attraverso una sorgente di rumore che localizziamo in qualche punto all’interno del condotto vocale, e abbiamo anche distinto le costrittive sorde da quelle sonore, mettendo bene in evidenza come nel caso delle sonore sia presente una barra di sonorità legata alla vibrazione delle corde vocali che danno una struttura armonica per quanto spesso poco visibile. Ma, naturalmente, per ogni suono costrittivo sonoro che riusciamo a pronunciare, ce ne sarà uno corrispondente sordo; e per conoscere le caratteristiche del rumore di questi suoni è più interessante guardare il suono sordo perché non ha il disturbo della componente armonica, quindi lascia apparire unicamente la componente di rumore. Ci sono diversi studi sull’argomento sin dai primi del 900, ma la materia inizia a prendere una consistenza scientifica soprattutto negli anni ’60 e ’70 e soprattutto nell’ambito di quelle lingue che presentano una maggiore variazione di suoni costrittivi, cioè un uso funzionale di più suoni costrittivi; tra queste lingue troviamo l’inglese, il 73 polacco e soprattutto lo svedese. Qui propone una sequenza di sette suoni costrittivi che un parlante colto svedese è in grado di distinguere. Oltre all’oscillogramma vediamo riportati degli spettrogrammi che rappresentano, per ciascuno di questi suoni, l’estensione della distribuzione del rumore che va ben oltre i 20.000 Hz. Ovviamente sappiamo che al di là dei 12.000 Hz noi tutta questa concentrazione di rumore non possiamo sentirla perché abbiamo delle limitazioni fisiologiche. Oltre a questo, notiamo come, effettivamente, nel caso di queste sette costrittive dello svedese ci siano non solo distribuzioni di rumore in regioni diverse con aggiunte, sottrazioni, aree di impoverimento della struttura spettrale, ma notiamo anche un aspetto interessante: c’è una dinamica, cioè molti di questi suoni presentano una variazione nel corso della loro produzione. Ad esempio, nel secondo spettrogramma nella prima parte presenta un’energia più debole, poi si vede nettamente il punto in cui aumenta e nello stesso tempo si vede una transizione, quindi ciò significa che sta avvenendo qualche movimento all’interno del condotto vocale. Insomma, si tratta di suoni che hanno una loro dinamica, che si osservano molto bene sullo spettrogramma, ma che sin dai primi studi si descrivono prevalentemente guardando lo spettro (e quindi la struttura spettrale) nella posizione di massima stabilità. Nel caso dello svedese sono attestati cinque fonemi costrittivi sordi e quasi altrettanti sonori; tuttavia, qui ne vediamo sette perché esistono degli xenofoni, ossia dei suoni che il parlante colto di questa lingua è in grado di distinguere e magari anche impiegare in prestiti da lingue straniere in cui sente che questi suoni esistono. Diversamente da come accade culturalmente in altri posti, impara a riprodurre quei suoni di lingua straniera. Abbiamo visto che anche in italiano esistono degli xenofoni, ma non tanti come in svedese. Abbiamo, nel primo spettrogramma, una labiodentale sorda che si spinge molto alle alte frequenze, ma complessivamente presenta uno spettro piuttosto piatto 74 Grazie a questi parametri è possibile definire delle aree di esistenza per ciascuno dei suoni costrittivi che quel parlante è in grado di distinguere. Questo che vediamo nell’immagine è uno studio condotto sull’inglese, una lingua ricca di suoni costrittivi. Quindi queste dispersioni rendono conto della capacità di caratterizzare distintamente in produzione questi suoni dei riflessi acustici di questa caratterizzazione. Ovviamente se il suono ha una sua efficacia funziona, è un fonema, sarà chiaramente distinto; altri studi cercano di indagare anche le varianti combinatorie o le varianti regionali. 77 ts s S tS ts s S tS Negli ultimi 20 anni si sono affermati dei metodi particolarmente efficaci che hanno permesso di lavorare su un certo numeri di parametri che si sono rivelati particolarmente affidabili quando vogliamo descrivere lo spettro di un suono costrittivo. Si fa riferimento oggi a un elenco di “momenti” ritenuti più significativi della caratterizzazione spettrale: 1. Centro di gravità dello spettro, cioè una valutazione del posto in cui si concentra maggiormente l’energia mediamente. 2. Deviazione standard la dispersione intorno alla media 3. Asimmetria dello spettro più l’energia in uno spettro è distribuita in maniera asimmetrica, più questo terzo momento aumenterà 4. Curtosi l’appiattimento dello spettro 5. Numero di passaggi dello 0 se dominano le componenti più lente, il numero di attraversamenti dello 0 sarà più alto. I suoni con presenza di sonorità presentano sicuramente un numero di passaggi per lo 0 inferiore a quello di suoni sordi. 78 Analisi spettrale Le costrittive: momenti spettrali De Sio & Romano (2003), Sorianello (2003, 2004), Giraud et alii (in prep.) Sp1 (TO), ts dentale, s alveolare, tS sovrapposta a S e s (delabializzazione) Sp3 (LE), ts dentale, s alveodentale, tS sovrapposta a S (labializzate) “Momenti” ritenuti più significativi: 1. centro di gravità dello spettro (CoG), 2. deviazione standard (sd), 3. asimmetria (skew) e 4. curtosi (kur) della distribuzione dei valori 5. numero di passaggi per lo zero (zc). 19/11/20 Abbiamo visto come l’analisi di fonetica sperimentale poggi, in buona parte, su un’analisi che fa ricorso a degli strumenti; questi strumenti, nel caso della fonetica acustica, possono essere molto diversi ma, generalmente, ci si avvale da poco più di 70 anni di un grafico che abbiamo chiamato spettrogramma e che alcuni chiamano sonagramma. Ovviamente lo spettrogramma che noi otteniamo oggi è uno spettrogramma ottenuto con un software, con un programma eseguibile che sfrutta delle informazioni codificate numericamente, quindi dei file in cui il suono è digitalizzato. Altri sistemi usati in passato lavoravano su segnali analogici e questo permetteva di ottenere altre misure, altre stime e osservare altre variabili. Lo spettrogramma, oggi, è lo strumento più importante per l’analisi del parlato e, ovviamente, si può ottenere con vari software commercializzati; tuttavia, si è diffuso universalmente il software PRAAT. Ovviamente anche con questo software possiamo ottenere spettrogrammi con caratteristiche diverse, quindi ottenere quelli che un tempo si chiamavano spettrogrammi a banda stretta e spettrogrammi a banda larga. • A banda stretta spettrogrammi ottenuti attraverso banchi di filtri con un intervallo di analisi molto stretto; • A banda larga banchi di filtri con intervalli più larghi. Come vedremo avere un filtro a banda stretta ci permette di isolare le armoniche, avere un filtro a banda larga, invece, confonde le armoniche e mette in evidenza le formanti. Oggi questo passa attraverso la lunghezza della finestra d’analisi di PRAAT, quindi lavorando nel digitale si ottiene una rappresentazione spettrografica simile a quella a banda stretta allungando la finestra di analisi temporale, mentre si ottiene un’analisi simile a quella a banda larga con finestre di analisi più strette. La differenza si osserva direttamente nel grafico. Lo spettrogramma che vediamo qui è uno spettrogramma a banda larga e presenta delle formanti facilmente visibili che sono indicate sulla destra. Le più importanti sono quelle in basso, quelle meno importanti (e, in questo caso, anche quelle più confuse) sono quelle più in alto. Si tratta delle formanti di una vocale di tipo i. Lo spettro a banda larga mostra bene le formanti e cerca di 79 12. Riepilogo spettri e spettrogrammi presenta nel momento in cui le corde vocali vengono attivate improvvisamente, quindi è legato al meccanismo di innesco della vibrazione delle corde vocali, è un piccolo salto che in un paio di finestre di analisi ha presentato dei cicli più veloci e più irregolari. Questo fenomeno è appunto un fenomeno di micro-melodia di nessun interesse linguistico, non si tratta di un’irregolarità della voce o di una patologia. Allo stesso modo, nella parte finale vediamo un numero maggiore di cicli (10 cicli) in cui le corde vocali rallentano progressivamente anche questo è un fatto, sicuramente non micro-melodico, è un fatto ben presente e visibile; ma l’intensità dell’articolazione in quest’ultima frase di produzione del suono, si vede essere progressivamente ridotta, questo fa sì che si possa stimare che in questa porzione dello spettro la i stia perdendo le sue qualità e che l’energia del parlante si stia affievolendo perché il parlante ha raggiunto il suo scopo, ha pronunciato la vocale i col tono ascendente e qui, nella fase finale, lascia andare l’energia residua e questo porta a un indebolimento della tensione della laringe che fa rallentare progressivamente le corde vocali nell’ambito di alcuni cicli che sicuramente non sono funzionali, e di cui difficilmente un ascoltatore può rendersi conto, se non con l’uso dello strumento e con la possibilità di ascoltare singole porzioni o lavorare sui volumi per sentire l’effetto di questo movimento. Quindi, in sostanza, quello che dobbiamo sapere quando analizziamo una curva di questo tipo è che anche in un caso in cui non ci siano errori di misura la curva ci dà informazioni che possono essere poco rilevanti o addirittura non rilevanti sul piano linguistico. In questo caso abbiamo chiesto al software si raffigurare, sovrapposta allo spettrogramma, la curva dell’intensità, che vediamo tracciata in giallo. Sappiamo che l’intensità ha una certa importanza, già nel corso di questa vocale osserviamo un’intensità crescente nella prima parte e poi una seconda parte più stabile; ovviamente il decadimento del suono poi fa sì che questa crolli su valori che saranno quelli del rumore di fondo nel momento in cui il parlante ha smesso totalmente di produrre suoni. Cliccando sulla curva, sulla scala raffigurata a destra, osserviamo i valori di energia; ovviamente si tratta di valori di energia relativi, cioè questi valori valgono nel punto di presa del suono: 80 dB è un valore molto elevato per 82 una voce umana; se noi la ascoltiamo all’interno di un ambiente di una stanza non percepiamo 80 dB perché c’è uno spazio all’interno del quale questo suono si diffonde e la sua energia decresce rapidamente. Però, disponendo di un microfono in prossimità della bocca della persona, si può rilevare effettivamente un valore così alto. Anche in questo caso più che ricorrere al valore assoluto e quindi dire che il suono i prodotto da questo parlante era un suono a 80 dB, o comunque ha raggiunto 80 dB nella fase finale, la cosa più interessante da dire è che questo suono ha presentato una variazione di 4, 5, 6 dB nel corso della sua realizzazione, quindi fare ricorso a valori differenziali. Questo grafico rappresenta il tracciato formantico. Per ottenere un buon tracciato formatico con questo software, rappresentando lo spettro tra 0 e 8000 bisogna chiedere di estrarre 8 formanti, quindi bisogna impostare l’algoritmo di rilevamento automatico dei picchi indicando quanti sono i picchi da rilevare. In questo caso, però, imponendo 8 si induce in errore software perché due formanti sono molto vicine (nella parte superiore) e il software si sbaglia e ne traccia 2 al posto di 4 (nella parte finale) e poi non sa dove andare a cercare la settima e l’ottava; come conseguenza compaiono questi errori di stima che danneggiano anche il rilevamento di formanti più sicure e più chiare. In molti casi sul singolo suono è possibile che sia necessario ricorrere, addirittura, a un numero maggiore di formanti; non sono sufficienti 8 tra 0 e 8000 per esempio nel caso in cui il parlante nasalizzi la nasalità introduce delle formanti di nasalità, formanti addizionali e questo deve essere rilevato con l’aumento del numero di picchi da cercare. 83 Delle sezioni spettrali ne abbiamo fatto uso per i suoni costrittivi ma anche teorizzando sulla struttura acustica delle vocali nella teoria sorgente-filtro. Questo (immagina a sinistra) è un tipico spettro ottenuto su una finestra larga, e quindi è uno spettro in cui emergono chiaramente le armoniche. L’altro (immagine a destra) è uno spettro in cui la finestra d’analisi è molto più stretta, scompaiono le armoniche e compaiono delle formanti di cui possiamo anche misurare più facilmente la lunghezza di banda, ed è questa la misurazione che facciamo scegliendo di rappresentare uno spettro a banda larga. 12.1. Lettura degli spettrogrammi La problematica di segmentazione di uno spettrogramma non deriva solo dalla continuità con cui si passa da un suono all’altro, ma dipende proprio dal fatto che gli organi articolatori mobili che devono essere sincronizzati sono tanti, i muscoli che attiviamo nella produzione di un determinato suono sono a volte in concorrenza, e i tempi di movimento degli organi comandati da questi muscoli possono non essere sincronizzati allo stesso modo. Questo può dare delle caratteristiche individuali, ma definisce anche differenze interlinguistiche significative come abbiamo visto nel caso del v-o-t. Per giustificare alcune difficoltà di segmentazione che osserviamo su uno spettrogramma si può ragionare sulle modalità con cui alcuni organi raggiungano delle posizioni oltre una certa soglia tale da generare la percezione, quindi l’effetto acustico, per cui inizia a manifestarsi quel dato suono con tempi molto diversi da quelli che ci aspetteremmo. Ovviamente a ogni indice acustico corrisponde un evento articolatorio e varie codifiche sono state proposte per associare a un indice spettrografico una categoria articolatoria o, meglio ancora, una categoria fonologica. 84 In una lingua isosillabica dovremmo avere uno schema in cui le sillabe forti tendono a somigliarsi tra loro in durata, presentando durate leggermente superiori a quelle delle sillabe deboli, che tra loro presentano una certa uniformità di trattamento. In una lingua isoaccentuale, invece, si dovrebbe assistere a una certa uniformità delle distanze inter-accentuali con conseguente parificazione dei piedi metrici. Questo, però, comporta sillabe forti estremamente dilatate e sillabe deboli talvolta estremamente compresse. Se una lingua è isoaccentuale, la durata degli intervalli inter-accentuali dovrebbe mantenersi costante, mentre in una lingua isosillabica la durata degli intervalli inter- accentuali dipende dal numero di sillabe comprese in questo intervallo. In pratica è come se avessimo di fronte una formula che ci definisce l’intervallo inter-accentuale come una funzione del numero di sillabe, soltanto che questo numero di sillabe incide in modo considerevole soltanto nel caso di lingue isosillabiche che quindi hanno un coefficiente b con un certo valore non nullo. Al contrario, nelle lingue isoaccentuali dovremmo avere una misura della durata 87 dell’intervallo inter-accentuale non condizionato da n, quindi durata dell’intervallo inter- accentuale costante. La verità è che, nella maggior parte dei casi, ci troviamo esattamente a metà, infatti le misurazioni svolte su campioni di varie lingue (presunte di un tipo o dell’altro) seppur generalmente validi nell’approssimarle a un modello o all’altro, falliscono nel rendere conto delle attese degli specialisti. Questo ci fa pensare che ci siano diversi livelli di organizzazione ritmica (come è stato dimostrato sin dagli anni ’80 da Farnetani), in altri laboratori è stato messo in evidenza come sia necessario introdurre altri parametri di caratterizzazione, tenuto conto che si può avere un maggiore controllo sulla durata della sillaba o degli intervalli inter-accentuali oppure sottoporre solo uno dei due a forme di compensazione e quindi compressione delle sillabe negli intervalli, oppure compressione dei segmenti all’interno della sillaba. A partire dai primi anni 2000 si sono affermati dei modelli di analisi del ritmo del parlato basati su “tecniche ritmiche”, cioè misure della variabilità delle durate degli intervalli vocalici e consonantici. Uno di questi modelli è conosciuto per aver proposto il cosiddetto “metodo dei Delta”, che si basa su indicatori che permettono di fare alcune predizioni sul tipo ritmico al quale ricondurre un dato campione di parlato legate all’osservazione di alcune regolarità nelle proporzioni tra durate di segmenti vocalici e consonantici e nelle misure degli intervalli da questi definiti. Anche se nuovi indicatori sono stati introdotti a seguito di ulteriori sviluppi e rivisitazioni di queste metriche (per tenere conto, ad esempio, della velocità d’eloquio o della frammentazione del parlato in unità enunciative) il metodo dei Delta di rivela sufficientemente valido per discriminare questi tipi di lingue a condizione di lavorare su campioni molto controllati (quindi parlato di laboratorio). 88 Questo è un grafico in cui nelle ordinate abbiamo la deviazione consonantica, mentre sull’asse delle ascisse abbiamo la deviazione vocalica. Con queste due misure si può ottenere una caratterizzazione ritmica strumentale del tipo al quale ricondurre il campione osservato. La variabilità riscontrata su campioni della stessa lingua suggerisce però una sensibilità di queste metriche a particolari modalità di organizzazione temporale del parlato idiolettale e, come mostrato in altri lavori del gruppo di ricerca LFSAG e da altri ricercatori che hanno usato Correlatore, dipendono molto da valutazioni che richiedono delicate assunzioni sui piani fonetico e fonologico (come ad esempio il numero di intervalli da conteggiare nel caso di dittonghi, iati e altri casi di vocali in contatto, come pure il numero di posizioni da assegnare a consonanti doppie o geminate). Inoltre, pur mantenendo il riferimento alle metriche ma distinguendo piani diversi dell’organizzazione temporale, si è affermato un metodo in grado di unificare la valutazione delle minori o maggiori tendenze al controllo o alla compensazione che si possono presentare a vari livelli (questo è il cosiddetto metodo degli indicatori CCIs = Control vs Compensation Indexes). In questi approcci alla materia si rivaluta l’importanza dell’oscillatore mandibolare che lascia emergere una cornice sillabico (frame) nelle prime fasi dell’acquisizione linguistica. D’altra parte le occorrenze degli impulsi vocalici sono legate a un oscillatore accentuale che stabilisce alternanze forte/debole ed è dall’accoppiamento di questi due oscillatori (sillabico vs. accentuale) che si definisce il ritmo di un enunciato. In quest’ottica è possibile predire ciò che si verifica nelle metriche, e quindi nelle valutazioni acustiche del ritmo del parlato, quando si osserva una riduzione vocalica. In particolare si valuta il salto che comporta l’assunzione di una vocale cancellata (che conduce alla creazione di nuovi cluster e ridefinisce in tal modo la variazione di durata degli intervalli) nel passaggio da un modello ritmico di tipo isosillabico con vocali ridotte, a un modello isoaccentuale con relativo abbassamento di ΔV, ma improvviso aumento della variazione consonantica. 89 Rappresentazioni come quelle di Fig. 8 sono il risultato dell’applicazione di una metodologia di astrazione proposta nell’ambito del progetto internazionale AMPER e che ha trovato una sua sistematizzazione finale in Romano et alii (2014). La sua applicazione a un importante corpus di dati di italiano torinese ha mostrato le possibili variazioni intonative nell’italiano di questa comunità urbana e ha permesso di dettagliare un insieme di realizzazioni più conservative che mostrano, per frasi simili a quella descritta nelle Figg. 7 e 8, una distinta caratterizzazione rispetto a una pronuncia neutra, non solo del tipico CTM delle domande, ma anche di altre sezioni delle curve (v. Fig. 9). 92 Per illustrare ulteriormente queste metodologie, ne mostriamo infine un’applicazione a schemi intonativi più complessi legati alle realizzazioni di elenchi e serie di parole, sintagmi o clausole. Dettagliamo in particolare gli schemi generali astratti che possiamo osservare nel caso di una costruzione enumerativa aperta (es. in Fig. 10a) e di quattro distinti tipi di enumerativa chiusa: 1) con elementi dichiarativi senza distinzione della(e) penultima(e) (v. Fig. 10b); 2) con elementi dichiarativi seriali con penultima(e) e ultima (v. Fig. 10c); 3) con elementi continuativi senza distinzione della(e) penultima(e) (v. Fig. 10d); 4) con elementi continuativi con penultima(e) e ultima (v. Fig. 10e). Questi esempi, descritti sulla base di una raccolta di realizzazioni reperite nel parlato radiofonico, non escludono altre soluzioni che prevedono ad es. raggruppamenti interni a due, tre etc. in funzione del numero di elementi della lista e l’interazione di questi pattern con quelli definiti sintatticamente (un’enumerativa può trovarsi in posizione dichiarativa, continuativa, interrogativa... terminale o non terminale etc. e può includere ulteriori liste o altre costruzioni interne). Altre fonti di variazioni sono date da diverse possibilità di focalizzazione e di organizzazione informativa, ma gli schemi individuati restano molto variabili anche in funzione di variabili espressive (emotive e attitudinali). 93 Siamo quindi di fronte a una materia complessa ma perfettamente dominabile, a condizione di raccogliere dati, analizzarli e confrontarli. La regolarità di questi schemi è infatti spesso sommersa “nell’oceano vago e inafferrabile delle realizzazioni individuali”. Se, tuttavia, riusciamo a decodificare il senso del messaggio nei milioni di atti comunicativi a cui assistiamo (e che compiamo) ogni giorno, evidentemente disponiamo di un sistema in grado di rilevare (e produrre) questi movimenti melodici locali e di collegarli tra loro per ricavare (e imprimere) la struttura complessiva del messaggio e le intenzioni comunicative del nostro interlocutore (esprimendo più o meno inconsapevolmente anche le nostre). 94 informazioni sulla postura, sulla posizione in cui si trova l’individuo. La loro disposizione su tre distinti piani e i movimenti della linfa che contengono danno informazioni al cervello sulla posizione e sul movimento del corpo, in particolare della testa. Dalla parte del sacculo si sviluppa una chiocciola, una spirale ericoidale che chiamiamo coclea che, al suo interno, presenta una struttura complessa ma che è collegata, attraverso il nervo acustico, al cervello. All’ingresso della coclea, attraverso il sacculo, troviamo anche quella che si chiama la finestra rotonda che è un’altra specie di membrana in grado di vibrare indipendentemente dalla catena degli ossicini; quindi nell’orecchio medio esiste una specie di timpano secondario che, in alcuni casi, nel momento in cui fosse interrotta la comunicazione meccanica garantita dal timpano, dalla catena degli ossicini e dalla finestra ovale, può fungere da sistema uditivo secondario. Alla parte opposta rispetto a questo ingresso di questa spirale cava, troviamo l’elicotrema, cioè la sommità estrema in corrispondenza della quale, la linfa che percorre questo tubicino a forma di spirale, trova un punto di inversione, di ritorno verso il sacculo. Più interessanti sono quelle che si verificano all’interno della coclea, cioè all’interno di questo tubicino a spirale. Se guardiamo questa spirale e com’è costituita da diverse spire, possiamo pensare di guardare cosa c’è all’interno di una sezione di una di queste spire e vedremo come, per tutta la lunghezza della coclea, esistano delle connessioni tra queste sezioni e il nervo acustico. Per tutta la sua lunghezza la coclea è separata internamente da una membrana detta membrana basilare che la divide in una porzione in cui si va verso l’elicotrema attraverso una rampa detta “timpanica” e poi, con l’inversione che si verifica in corrispondenza dell’elicotrema, si può vedere la linfa tornare attraverso una rampa detta rampa vestibolare. Ma c’è un’ulteriore membrana che restringe ulteriormente questa rampa e che crea un altro canale che è, appunto, il canale cocleare. Il canale cocleare al suo interno prevede altre membrane, come la membrana tectoria, che individua, assieme alla membrana basilare, il cosiddetto organo di Corti. L’organo di Corti è la parte più interessante dell’orecchio interno. Quindi il suono captato dal padiglione auricolare, equalizzato dal condotto uditivo e dal timpano, amplificato dalla catena degli ossicini attraverso un sistema 97 meccanico si trasforma in movimenti idraulici che, successivamente, sono ancora trasformati in impulsi nervosi. Grazie all’evoluzione della tecnologia abbiamo oggi delle immagini che corrispondono a delle vere e proprie fotografie delle cellule ciliate. Riusciamo a distinguere bene le cellule cosiddette “interne”. Sono i movimenti di queste cellule che trasmettono le caratteristiche di velocità e di energia del suono al cervello. Negli ultimi decenni, i progressi della ricerca scientifica hanno mostrato che non è così semplice il meccanismo, non si tratta puramente di una trasmissione di informazioni di energia e di frequenza attraverso queste cellule alla corteccia uditiva, ma c’è un sistema di stazioni intermedie, in particolare dei nuclei sub- corticali, che svolgono delle attività di selezione e nei quali si manifestano anche effetti inibitori; quindi c’è un meccanismo attivo della percezione che porta l’informazione a non correre solo dall’orecchio alla corteccia uditiva, ma ci sono dei processi efferenti e quindi delle possibilità che il nostro sistema di percezione interferisca, in qualche modo, con la trasmissione fisica delle informazioni dall’esterno verso l’interno. da Zwicker & Fastl (1999) Fonetica uditiva Nonostante questo, la cosa più interessante da dettagliare in una prima introduzione a questo argomento, è il funzionamento della coclea e, soprattutto, la caratteristica della membrana basilare, e quindi dell’organo di Corti disposto lungo tutta la sua lunghezza a rappresentare una sensibilità localizzata a stimoli acustici di caratteristiche diverse. In particolare, vediamo qua la frequenza. In pratica, è come se la coclea eseguisse una trasformata di Fourier, è come se disponesse di un banco di filtri in grado di segnalare se, le frequenze comprese in quella posizione dello spettro, sono presenti e con quale intensità. Quindi qui vediamo quanto sia importante conoscere la fonetica acustica per capire la 98 • Tonotopicità della membrana basilare (sensibilità in base alla frequenza dello stimolo) 4800 3200 800 1200 600 20 6400 400 1600 200 9600 2400 19200 20000 fonetica uditiva e per capire come avviene la raccolta delle informazioni acustiche da parte del nostro sistema uditivo. 13.2. Tonotopicità e mascheramento Detto questo, cominciamo a entrare nella fonetica percettiva nel momento in cui osserviamo che tutte le frequenze sono possibili in natura perché, appunto, così come abbiamo visto per le analisi sonagrafica che procede per banda passante ben precisa, anche qui abbiamo dei meccanismi di discretizzazione di un continuum. Qui ci poniamo il problema delle soglie: al di sotto di quale soglia e al di sopra di quale soglia il nostro sistema è in grado di distinguere una variazione di suono; quali suoni si possono percepire. Abbiamo già detto che la coclea presenta delle cellule ciliate in grado di muoversi dai 20 Hz ai 20mila Hz: 20 quelle più prossime all’elicotrema e 20mila quelle più prossime alla finestra ovale. Quelle prossime alla finestra ovale sono quelle che vengono stimolate dal maggior numero di movimenti, anche quelli a cui non risuonano, e sono quelle che più facilmente vengono colpite dall’energia del suono e che più facilmente si afflosciano o perdono di elasticità nel corso tempo. Quindi, proprio quelle schiere di cellule ciliate che abbiamo nella parte più bassa della coclea, sono quelle che progressivamente perdono la capacità di reagire agli stimoli: ecco perché il nostro campo uditivo si restringe con l’età o in conseguenza di eventi traumatici. Ma, al di là di questi effetti di restringimento del campo uditivo, dobbiamo chiederci anche le ragioni per cui alcune frequenze non siano discriminate con la stessa precisione di altre: questo dipende da soglie differenziali; dipende dal fatto che questo continuum che in natura è lineare, diventa un continuum logaritmico, quindi differenze di suono piuttosto considerevoli alle alte frequenze vengono percepite come piccole differenze di suono alle basse frequenze. Quindi la valutazione delle differenze cambia dalla parte più esterna alla parte più interna della coclea e questo vale anche per l’intensità: quindi grandi differenze di intensità tra suoni ad alti livelli di attivazione, corrispondono a piccole differenze in un intervallo di variazione dell’intensità a più bassi livelli e quindi le modalità di discretizzazione di questo continuum sono molto variabili da un intervallo all’altro. 99
Docsity logo


Copyright © 2024 Ladybird Srl - Via Leonardo da Vinci 16, 10126, Torino, Italy - VAT 10816460017 - All rights reserved