XV° Convegno Internazionale del “MOVIMENTO DELLA SPERANZA”! Cattolica, 21 – 23 Settembre 2001
C.T.U. Daniele GULLA’ Prof. Giuseppe LENZI NUOVE INDAGINI COMPUTERIZZATE SULLE “VOCI PARANORMALI”Introduzione
Quando, dieci anni fa, esattamente nel settembre 1991, partecipai, per la prima volta, a questo convegno, il V° in ordine di tempo, ma il I° per me, a poco meno di un anno di distanza dalla tragica perdita di mia figlia Chiara (esattamente undici mesi e quindici giorni), non avrei mai immaginato che, dieci anni dopo, sarei venuto qui, su questo palco, a tenere una relazione su di un argomento, a dir poco “scottante”, di cui, in quell’anno 1991, avevo, appena, cominciato ad avere diretta esperienza, sebbene, già molti anni prima (dal 1978 in poi), – come ho già detto nel mio libro: <<BABBO, IO VIVO! Dialoghi con Chiara>> e nel “Quaderno della Speranza N°9” in IIa Edizione – mi fossi interessato al fenomeno delle “Voci paranormali” di cui avevo sentito parlare in una trasmissione TV dalla compianta signora Gabriella Alvisi, mamma di Roberta scomparsa proprio nell’anno in cui veniva alla luce la mia figlioletta (1970). Accenno, qui, brevemente, ai libri usciti negli anni ’70 della stessa Gabriella Alvisi, a quelli “classici” di Frederik Jürgenson, di Konstantin Raudive, da me letti con comprensibile curiosità e con un certo senso di prudente critica, non disgiunta da un certo grado di “timore”, se non di “prudente scetticismo”, pur non ricusando ,a priori, la possibilità che nuove scoperte potessero, e possano, aprirci per il futuro, degli orizzonti insperati. Accenno anche, per inciso, per dovere di cronaca al fatto che il 15 novembre 1970, uscì sul noto settimanale “EPOCA”, a firma del giornalista Giuseppe Grazzini, uno sconvolgente articolo dal titolo rivoluzionario: “Qualcuno ci chiama dall’Aldilà” e che fece scalpore e che mi sono, poi, procurato in fotocopia, richiedendolo alla Biblioteca Nazionale di Roma. Tale articolo era, in sostanza, una inchiesta molto seria ed equilibrata, condotta dal suddetto giornalista, all’allora ricercatore Konstantin Raudive, trattando degli esperimenti fatti dallo Jürgenson e dallo stesso Raudive ed, addirittura, da alcuni sacerdoti “aperti” alle ricerche di frontiera, in tutta segretezza, persino in ambienti vaticani sulle orme di analoghe esperienze iniziate già nel lontano 1952, dal Padre Agostino Gemelli e dal suo assistente, il benedettino Padre Pellegrino Ernetti, come è noto. Esperimenti che vertevano sullo ascolto e sullo studio di “voci misteriose” che si manifestavano – senza apparente spiegazione – sul nastro magnetico di un registratore, rimanendovi incise, o dall’altoparlante di una radio, in mezzo alle normali trasmissioni radio, o sulle onde medie (raramente), o sulle onde corte (più frequentemente). Tali voci non erano assolutamente attribuibili a voci umane, né ad interferenze elettromagnetiche note, tipo quelle di radioamatori, ecc…poiché chiamavano espressamente gli sperimentatori, dando spesso dei riscontri oggettivi sulla loro identità. Voci che erano, sovente, “àfone”, o “timbriche”, il più delle volte disturbate da un forte rumore di fondo, ma riconoscibilissime. Tali notizie avevano suscitato, in me, un profondo stimolo per conoscere meglio e sino in fondo ( per quanto fosse possibile) la verità su questo fenomeno, cosicché, con quelle scarse nozioni teoriche lette sui libri e su alcune riviste, arrivai ad imbattermi, nell’ottobre del 1990, con una tragica realtà, che, ormai, ho raccontato centinaia di volte; quella della repentina scomparsa di una figlioletta ventenne, cosa che mi ha accomunato, e mi accomuna, a moltissimi di voi genitori, qui presenti in sala ed anche ai non presenti. Iniziò, così, un cammino, scandito da numerose e dolorose tappe, intrapreso per cercare di “riallacciare” un dialogo che si era sciaguratamente interrotto e per “conoscere” qualcosa di più sulla realtà di un mondo che sembra trascendere tutte le limitate possibilità di comprensione razionale umana, senza, per questo, nulla togliere alla validità della semplice e, pur sempre importante e consolante certezza della Fede religiosa. L’ho testimoniato, questo, diecine e diecine di volte, in dibattiti, conferenze, articoli su “L’AURORA”, per aiutare tanti genitori che sopportavano un uguale dolore. In undici anni di studio e ricerca, sono giunto a delle convinzioni, per me, fondamentali e cioè che la ricerca seria, oggettiva, avulsa da pregiudizi, mi conferma quello che la Fede religiosa – in particolare quella cristiano-cattolica – mi, e ci, ha sempre insegnato e promesso, ovverosia CHE LO Spirito non muore con la morte fisica e che NON TUTTO è finito quando questa spoglia mortale (che riveste il nostro “Io” più profondo, la nostra anima), si dissolve in un sepolcro. Ma, anzi, che è proprio allora che comincia la vera vita in un mondo senza spazio e senza tempo. Tanto per dirla con le stesse parole di Chiara, mia figlia, ricevute alla radio di Marcello Bacci a Grosseto, anni fa: “Io sono qui, in questo mondo meraviglioso e non troppo lontana da te!” -Ma sei proprio tu?- domandavo io, quasi incredulo, per provocarla a darmi una risposta. –Sì! Un bacione a te! – mi rispondeva immediatamente in modo chiarissimo ed inequivocabile. Ed una voce maschile, un po’ “rauca”, mi soggiungeva: “La morte venne ad aprirle le porte di una vita immensamente più bella”. Oppure: “Chiara ci insegna che la morte non è la fine di tutto”…..”L’inizio di un tempo senza fine”… (A questo punto, l’oratore ha fatto udire al pubblico alcuni brevi, ma lampanti e significativi esempi di quanto detto, registrati, poi prosegue): Questi sono alcuni brevissimi esempi da me ricevuti durante i dieci anni di sperimentazione psicofonica al Centro diretto da Marcello Bacci a Grosseto, tra le centinaia e migliaia ricevuti da questo fenomenale ricercatore in più di trent’anni di sperimentazione. Ed ecco, quindi, che, unitamente a tanti altri studi effettuati in questi undici anni (scrittura automatica, segni, ecc…) la mia attenzione fu subito attirata dal fenomeno “fisico” delle “voci paranormali”, poiché, una volta stabilita l’autenticità del fenomeno, ero convinto che su questo bisognasse porre la massima attenzione e studiarlo nel migliore dei modi possibile, con senso critico (come faceva l’Ing.. Carlo M. Trajna), onde non essere soggetti ad abbagli spaventosi e devianti, come, talvolta, purtroppo, succede. Ora, nel caso del fenomeno psicofonico si hanno delle possibilità immense di verifica tangibile, contrariamente al caso del “sensitivo”, il quale, caduto in una “trance” più o meno profonda, “rivela” messaggi di cosiddette “entità” incorporatesi in lui, senza alcuna possibilità di verifica oggettiva; tanto che, in quest’ultimo caso, gli scettici invocano sempre la scappatoia dello inconscio, della ipnosi autoindotta, della “psicocinetica”, dell’inconscio collettivo, del “serbatoio cosmico”, ecc…. Infatti, nel caso delle “voci paranormali”, quando esse siano chiare ed evidenti, senza ombra alcuna di dubbio, si può benissimo riconoscere la “tonalità”, il “timbro” della voce maschile o femminile, adulta, anziana, giovanile, infantile cristallina e limpida, ecc…che, spessissimo, – quasi sempre – viene riconosciuta dal genitore, o dalla persona cara rimasta su questa terra, come un fratello, una sorella, una sposa, un marito. Io stesso, moltissime volte, ho riconosciuto la voce della mia figlioletta, ne ho percepito i toni, le sfumature, le “caratteristiche” (non solo di lei, ma anche della cara Signora Silvana Pagnotta, da me personalmente conosciuta, la cui voce “in vita”, ho registrato varie volte). Dopo tale premessa piuttosto lunga, che mi sembrava necessaria, entriamo nel vivo dell’argomento oggetto di questa relazione.
Lo studio delle “voci paranormali”. Circa quattro anni fa, trovandomi a Riccione con l’amico Daniele Gullà, ad un convegno di parapsicologia, organizzato da un noto psicologo, essendo io convinto che le vv.pp. dovevano essere studiate con serietà oggettiva, onde dare un serio contributo alla dimostrazione della autentica paranormalità del fenomeno, gli lanciai l’idea, sostenutami, con entusiasmo, anche da uno dei massimi esperti del fenomeno, cioè l’amico ricercatore Paolo Presi, di studiare, con un apposito programma computerizzato, le voci di cui io ero in possesso, analogamente a quanto avevano già fatto il Dr. Renato Orso di Torino e lo stesso Paolo Presi, nel 1985[1]. L’idea di partenza era di poter ottenere- dei risultati analoghi a quelli degli AA. suddetti, onde confermare, o no, la verificabilità e la riproducibilità e trarne, quindi, le opportune conseguenze. La mia proposta fu accettata, anche perché io possedevo numerosissime registrazioni della voce della mia figlioletta, sin dalla nascita, fino all’età di 14-15 anni, epoca in cui la sua voce era già formata e praticamente uguale a quella che lei aveva a 19-20 anni. Voce che avrebbe potuto, eventualmente, essere confrontata con quella ricevuta alla radio da Bacci, a Grosseto,. Ed, a fare ciò, fui spinto, non solo dall’amore per la verità e per la ricerca scientifica di un fenomeno il quale, checché ne possano blaterare a sproposito gli scettici incalliti è un fenomeno fisico, registrabile e reale, in determinati casi, ma anche per evitare di andare incontro ad illusioni psicolinguistiche ed allucinazioni acustiche, o a confusioni enormi, come talvolta, ahimè, succede a tanti troppo affrettati ricercatori i quali spesso, confondono rumori di fondo, o emissioni radiodilettantistiche, o ricezioni di radio costiere, di CB, ecc…..con le “Voci dall’Aldilà”; e ciò provoca l’ilarità degli scettici, dei denigratori e la riprovazione di certi famosi esorcisti. Purtroppo certa “leggerezza” è dannosa per l’immagine che ci si fa di noi genitori, da parte dei “mass media”, tanto che si rischia di essere classificati spesso, dei “poveri illusi”, o “gente fanatica dal pulsante facile” che perde la testa nel voler “parlare coi morti”…gente “partita di cervello” e sconvolta dal dolore, al punto di sostenere “assurdità plateali”. Ma non è così, fortunatamente! Occorre quindi, molto discernimento e molta prudenza, dato che il fenomeno psicofonico – che rientra nel più generale fenomeno paranormale della TCS – è un fenomeno raro e non facilmente ottenibile da tutti, se non si hanno delle spiccate doti di medianità. Pertanto, all’inizio, avendo a disposizione una lunga serie di registrazioni ottenute a Grosseto, con la supposta voce di mia figlia e quella sua registrata “in vita”, qui, sulla terra, io e l’amico Gullà riuscimmo ad isolare alcune parole che erano state pronunciate in vita e “paranormalmente”, nel corso di alcune frasi, come, ad esempio: “Sì, sono io, Chiara!”, oppure:: “La mamma”….o anche: “Sì, un bacino” (bacione)…oppure: “Sono Chiara!” Sebbene vi sia, da parte dello sperimentatore, che è emotivamente coinvolto e preso dal fenomeno, la convinzione che la voce udita sia proprio quella del suo caro scomparso, perché dice di conoscerla perfettamente (come, del resto, tutti noi sappiamo riconoscere la voce di personaggi storici famosi, o di famosi attori cinematografici, ecc…), ciononostante, questo non è sufficiente a dare un’impronta di “oggettività” al fenomeno in sé, poiché lo scettico potrebbe sempre dire che è un “riconoscimento soggettivo”, non dimostrato scientificamente, di nessun valore sul piano obiettivo[2]. Fatta tale premessa dobbiamo dire che è già stato condotto un lavoro preliminare, un paio di anni fa, presentato al Convegno di Abano terme, il 3-3-5- Dicembre 1999, lavoro intitolato: “Voci in vita e voci dall’Aldilà: studio comparato mediante computer”, presentato con l’ausilio di una videocassetta; lavoro che è stato pubblicato nell’annata 2000 (fasc.° 2) della rivista: “La Ricerca Psichica”, diretta dal Dr. Felice Masi. Ora, è un fatto che vi sono degli appositi programmi computerizzati usati persino dai servizi segreti e dalla CIA per studiare, rilevare e paragonare le voci umane nel corso di indagini su presunti malfattori, terroristi, ecc… le cui registrazioni sono state ottenute, o direttamente, o per intercettazione telefonica e, così, per poter avere una prova certa di un loro coinvolgimento in azioni delittuose. La voce umana, quindi, ha delle caratteristiche proprie e peculiari per ciascuna persona, tanto che le voci di “ Tizio e di Caio” presentano delle “impronte” acustiche assolutamente singolari che dipendono da una serie di numerosi fattori, quali lo spessore e la lunghezza delle corde vocali, la cavità di risonanza, come la cavità boccale, la grandezza della laringe, la posizione, lo spessore, la mobilità delle lingua fra i denti nella pronuncia di determinate vocali, o consonanti, ecc… tutte caratteristiche proprie di ciascuna persona. Anche se vi sono dei famosi personaggi dello spettacolo che imitano, “quasi alla perfezione” la voce di questo, o quell’altro personaggio, pur tuttavia, anche in questi casi, l’imitazione non è mai perfettamente uguale all’originale; infatti, anche ad orecchio, se ne riconoscono delle differenze minime. Stabilito, quindi, che ciascuno uomo (o donna) ha una sua propria “impronta” vocale e che questa può essere studiata oggettivamente e scientificamente, al computer, mediante l’ausilio di opportuni programmi che fanno uso di speciali formule matematiche, si è proceduto allo studio di alcune voci paranormali di sedicenti “entità”, di cui si possedeva la registrazione fatto “in vita”. Con lo studio già presentato ad Abano Terme, nel 1999, di cui si è detto ed anche con questo presente studio, dobbiamo dirlo con estrema serietà, NON si pretende di dimostrare scientificamente l’esistenza dello (o di “un”) Aldilà, o di quel mondo spirituale in cui crediamo per Fede, (il che sarebbe, ed è, assurdo, come il dire: <<la dimostrazione scientifica dell’esistenza di Dio, o dell’anima>>), o l’esistenza di una dimensione ultraterrena. Ma vogliamo, lo ripetiamo con forza, portare un contributo serio e scientificamente valido a questa tematica, un contributo che dia un risultato fortemente ed indiscutibilmente probante sulla esistenza di un piano, o livello di vita che trascende l’Uomo e la sua materialità; in altre parole; se non è possibile dimostrare scientificamente “L’Aldilà”, è pur possibile dimostrare scientificamente la paranormalità del fenomeno di cui trattiamo, fenomeno appassionante, il quale ci induce necessariamente a postulare un piano di esistenza spirituale dopo la morte fisica. Ora, con il precedente lavoro, fu possibile dimostrare alcune peculiarità delle vv.pp. registrate a Grosseto, mediante l’uso di alcuni sofisticati algoritmi, che evidenziano meglio gli spettrogrammi della voce, visualizzando la posizione delle varie “formanti” (F0, F1, F2, F3, ecc…). Prendendo in esame vari parametri (valore in frequenza delle formanti, larghezza di banda, il “tono”, ecc…) si può vedere che, se tutti questi parametri sono uguali, o molto simili, si può arrivare ad una scala di classificazione di due voci comparate; e cioè: a) Voci molto somiglianti (addirittura si arriva, oggi, ad un livello di comparazione pari al 95-96%!) b) Voci somiglianti c) Voci poco somiglianti d) Voci non somiglianti Questo lavoro, oggi, viene completamente eseguito al computer, come detto, usando degli algoritmi speciali che, qui, per brevità, solamente accenniamo. (Non è possibile descrivere la tecnica di ciascuno di essi): 1) coefficienti predicibili di codificazione lineare (LPC), comunemente usati nei sistemi a riconoscimento vocale che forniscono gli esatti valori delle formanti F1, F2, F3, ecc… 2) coefficienti cepstrali (sono le derivate dei LPC). 3) coefficienti di correlazione parziale (PARCOR). 4) calcolo dei coefficienti spettrali inversi. 5) calcolo della frequenza fondamentale (F °). 6) calcolo dell’energia. 7) Funzione di autocorrelazione, che visualizza il tono della voce. 8) AMDF (Average Mean Distance Function): funzione principale della distanza media. Si è riusciti anche a “purificare” alcune voci disturbate da rumore di fondo, rendendo la voce in esame quasi perfettamente udibile e, quindi, paragonabile con quella di confronto. Uno dei più eclatanti risultati ottenuti nel precedente lavoro, che confermava ciò che era stato ottenuto nello studio del Dott. Renato orso e di Paolo Presi nel 1985 (cit.) fu quello di avere rilevato, nelle vocali “a”, “e”, “i”, ecc… della voce paranormale, spessissimo, la mancanza delle frequenze fondamentali che, invece, SONO SEMPRE presenti nella voce umana, poiché tali frequenze sono generate dalla vibrazione delle corde vocali; in altre parole, la v.p. si dimostrava una voce “non umana”, in quanto priva di corde vocali, cosa assolutamente impossibile ad essere soggetta a frode, in quanto nessun imitatore, per quanto bravo ad imitare la voce di “Tizio”, o di “Caio” può fare a meno dell’uso delle corde vocali. Noi, dunque, basandoci sull’esperienza precedente, abbiamo proceduto a migliorare le tecniche di riconoscimento delle voci, usando anche dei nuovi programmi computerizzati, che danno, addirittura, il confronto dei suoni vocalici di ciascuna persona, ottenendo delle “mappe” di identificazione. Ad esempio, sappiamo che, nella lingua italiana le vocali sono cinque. Ma vi sono delle lingue, come alcune di quelle orientali, in cui la nostra “a”, o la nostra “e” sono pronunciate con un suono intermedio tra la “a” e la “e”, e così, la vocale “o”, in certe lingue, può avere un suono intermedio tra una “o” ed una “u”, oppure tra una “o” ed una “e”, e così via, tanto da dare luogo ad un numero di suoni vocalici anche di dieci, o undici tipi diversi. Tenuto conto di tutto quanto sopra esposto, passiamo, ora, a descrivere brevemente i risultati ottenuti in questo nuovo studio computerizzato delle vv.pp., esaminando le voci in vita di alcune persone di cui si avevano le registrazioni originali, confrontandole, poi, con le voci delle supposte “entità” che si sono presentate a Grosseto, come quelle di Chiara Lenzi, di Friederik Jurgenson, ecc.. come sarà qui di séguito esposto nell’analisi dell’amico Daniele Gullà.
Riconoscimento ed identificazione tramite le “impronte vocali”. (Metodologia ed analisi).
La metodologia di riconoscimento di un parlatore, o meglio, il confronto tra una voce ignota (solitamente d’origine telefonica o da intercettazione ambientale) e la voce di un parlatore noto, anch’essa acquisita tramite una registrazione, nacque nel 1937, relativamente al procedimento contro il presunto sequestratore del figlio del trasvolatore atlantico Lindberg: era condotta, al tempo, mediante la sola prova uditiva. Successivamente, mediante il prelievo del cosiddetto Saggio Fonico, fu introdotto il metodo di L. Kersta, del 1962, con successive evoluzioni, consistente nell’analizzare una traccia grafica, detta sonagramma, eseguita da apparecchi quale il Sonagraph della ditta KAY Elemetrics, o analoghe metodologie di analisi implementate su calcolatore con scheda di acquisizione, come utilizzate nella perizia in questione. La traccia rappresenta un grafico tridimensionale riportante nell’ascissa (asse orizzontale) il tempo, nell’ordinata (asse verticale) la frequenza, e come terza dimensione, rappresentata come maggiore o minore annerimento della carta, l’energia su scala logaritmica del segnale contenuto entro una banda di frequenza pari a 300 Hz, centrata sulla frequenza indicata dall’ordinata.
Un singolo sonagramma, del quale si vede in Figura 1 un esempio, rappresenta un tempo pari a (solitamente) 1 – 2 secondi come durata, ed una gamma di frequenze compresa tra 100 e 4000 Hz (corrispondente alla banda telefonica, notoriamente ridotta: il campo delle frequenze udibili si estende infatti, circa, tra 20 e 15.000[3] Hz; tale banda contiene comunque la maggior parte dell’energia del segnale vocale utile alla identificazione). E’ pertanto possibile sul grafico effettuare una corrispondenza tra millimetri di carta e tempo (in millisecondi) lungo l’ascissa, ed una corrispondenza tra millimetri e frequenza (in Hertz) lungo l’ordinata (all’uopo il Sonagraph, o i programmi di analisi al calcolatore segnano una linea corrispondente alle frequenze di 1000, 2000, 3000, 4000 Hz). Per quanto concerne l’intensità, essa non dispone di scale comparative, per cui il maggiore o minore annerimento dipende dalla metodologia di registrazione e di effettuazione del sonagramma stesso, oltre che dal segnale esaminato (e la sua esecuzione implica una buona esperienza da parte di chi lo effettua). Anche l’interpretazione del parametro “intensità” è soggettiva, in quanto non si ha una scala oggettiva di corrispondenza tra “un certo grigio” e “un certo livello in dB”.
È importante notare come la banda di analisi debba essere pari a 300 Hz: infatti, è possibile eseguire sonagrammi a banda stretta, (40 Hz), che però evidenziano direttamente la FFT, ovvero il contenuto armonico, di scarso interesse nel riconoscimento del parlatore, e non le formanti, fondamentali nelle analisi, cui si accennerà successivamente. Inoltre, un sonagramma a banda stretta ha ovviamente (per il noto principio di indeterminazione) una scarsa risoluzione temporale, pertanto non è possibile visualizzare con precisione eventi brevi, quali gli impulsi delle occlusive (v. oltre), causando una visualizzazione, sull’asse dei tempi del sonagramma, di qualsiasi evento (e con maggiore evidenza di quelli impulsivi) in anticipo rispetto al reale istante di occorrenza.
La metodologia di analisi tiene conto essenzialmente di due fattori: la distribuzione dei livelli di intensità del segnale in funzione della frequenza e del tempo e delle durate delle parti significative (sillabe, consonanti, pause, etc…) della frase. Per quanto riguarda la distribuzione del livello in funzione della frequenza e del tempo, si tiene conto dell’emissione del suono ad opera delle corde vocali, che considerate indipendentemente dal condotto vocale, come semplice sorgente sonora, emettono un segnale caratterizzato da un ampio spettro di frequenze, assolutamente indistinto, quasi “animalesco”. La articolazione del discorso, e più precisamente delle vocali, consiste nel “modellare” tale spettro ad ampia banda, in modo da ottenere un segnale semanticamente riconoscibile, mediante variazioni controllate della conformazione del cavo orale, della posizione e forma della lingua e del condotto laringeo, che costituiscono tutto il complesso della fonazione, e che variano le frequenze di risonanza di detto condotto.
Le possibilità di riconoscimento del parlatore sono basate sull’ipotesi che ogni soggetto, quando pronuncia un fonema, conformi il proprio cavo orale con una modalità “univoca”, dipendente esclusivamente dalle proprie caratteristiche fisiche (dimensioni della laringe, del cavo orale, della lingua, etc…). Tali caratteristiche antropometriche “modellano” lo spettro di partenza emesso dalle corde vocali, esaltando (per ogni vocale), alcune frequenze ed attenuandone altre, rendendole così riconoscibili. Il diagramma riportato nel sonagramma permette di porre in evidenza tali esaltazioni ed attenuazioni di frequenze (chiamate “formanti”, identificate da esaltazioni ed attenuazioni di alcune righe spettrali), che sono tipiche (in una certa gamma numerica, detta campo di esistenza) di ogni singola vocale ed in modo (peraltro meno certo), tipiche e caratterizzanti di ogni parlatore. Considerazioni analoghe a quelle esposte sulle vocali, possono anche essere formulate relativamente alle consonanti sonore, quali la M, la N, la R, dato che anch’esse presentano un andamento formantico Come accennato in precedenza, il sonagramma deve evidenziare proprio le formanti (e quindi deve essere a banda larga) anziché le armoniche, quali si evidenziano in un sonagramma a banda fine. Nei casi di confronto tra telefonate di “ignoti” ed accertamenti di “sospettati”, detto confronto risulta probante solo in un certo grado, in quanto spesso le telefonate relative ad estorsioni, sequestri o minacce sono effettuate con voce camuffata, tale da variare in modo particolare la frequenza della fondamentale e (in parte) delle formanti più basse; anche nel caso di emissione vocale naturale, però, la costanza nelle modalità di emissione non può essere assoluta. Spesso si rileva, infatti, uno spettro formantico differente tra le stesse vocali emesse da un unico parlatore, o viceversa, diversi parlatori possono presentare frequenze analoghe. Teoricamente, il valore numerico dovrebbe rimanere immutato entro una certa gamma di variabilità, tuttavia tale condizione non è sempre verificata, per cui la valutazione in base al solo contenuto formantico, quale desumibile dal sonagramma potrebbe comportare un notevole grado di soggettività da parte del perito analizzatore; inoltre, il rilievo numerico delle frequenze da una traccia grafica non è certamente accurato. Nel caso in cui si tratti, invece, di intercettazioni ambientali, quindi effettuate all’insaputa dei parlatori, le conversazioni degli ignoti sono pronunciate normalmente, senza particolari alterazioni, ad eccezione dell’accento dialettale naturale: di conseguenza la validità dell’analisi può essere certamente maggiore, prescindendo dalla qualità della registrazione, che come verrà successivamente descritto, costituisce il maggiore problema di tali reperti.
Per quanto concerne la determinazione delle frequenze delle formanti, oltre al metodo della lettura grafica dei sonagrammi, può essere implementata un’altra tecnica di analisi, consistente nell’effettuare il Cepstrum (spettro dello spettro) sulla trasformata di Fourier del segnale vocalico, oppure la Predizione Lineare LPC. All’uopo si devono isolare molte vocali tratte dalle frasi in analisi; tramite l’operazione di Lifter (filtraggio sul Cepstrum), è possibile determinare con buona precisione (anche se non assoluta) le frequenze delle formanti. I valori ricavati vengono analizzati con algoritmi statistici su tutte le vocali analoghe dell’ignoto e dei sospettati, ottenendo così un insieme numerico valido e confrontabile. Tuttavia, un elemento di incertezza sorge dalla determinazione dell’istante (rispetto all’intera durata della vocale) che viene considerato nell’acquisizione, in quanto il dato più affidabile viene ottenuto considerando la parte stabile della vocale; inoltre, medesime vocali, inserite in un contesto diverso (precedute o seguite da altre vocali o consonanti) possono presentare un andamento formantico differente. Le odierne tecniche digitali consentono tuttavia di superare tale problema, consentendo di isolare un preciso segmento del segnale.
E’ comunque importante segnalare che queste tecniche, basate su considerazioni statistiche, consentono di pervenire ad un’identificazione sufficientemente probante, anche in assenza del saggio fonico, cioè della ripetizione da parte del sospettato delle medesime frasi pronunciate dall’ignoto, con le medesime modalità.
Le problematiche relative all’effettuazione di tale operazione saranno descritte successivamente.
Dalla lettura dei sonagrammi, spesso è possibile ottenere un maggiore grado di attendibilità nel riconoscimento, rispetto a quanto è possibile conseguire con la ricerca e le analisi delle frequenze formanti, mediante il confronto delle durate delle singole sillabe (foni) della stessa parola pronunciata dai due parlatori diversi (noto – ignoto), o dal confronto delle durate delle consonanti (che contengono una scarsa energia spettrale, in confronto alle vocali, e si presentano nei sonagrammi come dei “buchi”), in particolare modo le esplosive, nonché la coarticolazione, ovvero la metodologia di transizione (analisi delle Varianze) tra la Vocale, la Consonante e la Vocale (V-C-V), rilevabile come l’andamento delle formanti nel tempo. Tali durate dipendono (quasi) esclusivamente dal modo di fonazione acquisito dal soggetto, e risultano relativamente immutabili, anche in presenza di una voce contraffatta o acquisita con modalità ed in tempi diversi. La durata di una consonante sonora (liquida o nasale) può dipendere dal soggetto, dalle sue abitudini culturali o dialettali, tuttavia il confronto può fornire utili elementi valutativi, in quanto risulta, in genere, scarsamente variabile.
Un ulteriore parametro di analisi può essere fornito dalla “melodia” del parlato (presente in ogni discorso non “robotico”, e visualizzabile nei sonagrammi come un’inclinazione della traccia corrispondente alla frequenza fondamentale (definita anche pitch, o F0) oppure dal grafico dell’andamento della F0 nel tempo ricavabile tramite il Cepstrum), anche se nel caso di una voce contraffatta la melodia “naturale” (musicalità del linguaggio parlato) viene sempre alterata; tuttavia la variazione dell’altezza (frequenza, o pitch) in una media su un consistente numero di elementi può ragionevolmente essere ritenuta indipendente dalle contraffazioni e dalle alterazioni volute. Sussiste comunque il problema che, durante il rilascio del saggio fonico, il parlatore solitamente parla in modo monotóno, ovvero con variazioni della frequenza fondamentale decisamente ridotte rispetto al reperto della voce ignota, relativa ad un discorso reale e non recitato, stante la differente condizione psicologica, (anche prescindendo da alterazioni volute), per cui il confronto non è probante al 100%.
Esiste un altro aspetto utile alla valutazione dell’identità del parlatore, cioè il confronto socio – linguistico, che però non sempre risulta certo e definitivo in quanto, essendo basato sulla valutazione percettiva degli accenti dialettali o su particolari tipologie di pronuncia, implica un grado troppo elevato di soggettività nella valutazione delle sue caratteristiche, e non risulta pertanto di validità assoluta, essendo privo di riscontri scientifici misurabili. Inoltre, tale metodo può portare a ritenere coincidenti voci di soggetti diversi, se sono accomunate dalle medesime caratteristiche linguistiche, mentre risulta decisamente più valido nel caso dell’esclusione dell’identità, qualora l’ambito dialettale sia differente: questo, particolarmente nel caso delle intercettazioni ambientali.
Un confronto percettivo di notevole interesse è invece possibile mediante l’adozione di un campionatore digitale. Grazie a tali strumenti è possibile acquisire nella memoria digitale dello strumento le varie frasi, e “collocarle” su una tastiera di tipo musicale o di un calcolatore, per cui è possibile ascoltare in rapida sequenza le frasi dell’ignoto e dei sospettati, con in più la possibilità di trasporre l’altezza (pitch) del parlatore per intervalli di semitoni. Tale metodo consente di eliminare il problema che si presenta effettuando tali ascolti mediante due registratori, con i quali esistono i tempi morti dovuti al riavvolgimento dei nastri, che cancellano parzialmente la memoria acustica, fondamentale nell’ascolto di confronto. Mediante tali tecniche, anche l’analisi percettiva assume un buon grado di affidabilità, purché sia effettuata da un gruppo di ascoltatori avvezzi a tale tipo di valutazione, che esprimono un parere di somiglianza o differenza in una scala (solitamente) compresa tra 0 (voci del tutto diverse) e 10 (voci del tutto identiche) sui confronti a coppie valutati. È comunque fondamentale sottolineare come l’analisi percettiva indichi solamente la somiglianza o la distinzione delle voci, senza tuttavia fornire elementi sulla probabilità di coincidenza dei parlatori.
Tutti i metodi descritti sino ad ora, però, oltre alle incertezze cui si è accennato, sono affetti da un importante aspetto che li priva di una totale affidabilità al 100%, e cioè la qualità della registrazione di intercettazione degli “ignoti”.
Anche se tutti i periti dediti alle analisi vocali hanno sempre fatto presente il problema, purtroppo ancora oggi le registrazioni delle intercettazioni sono quasi sempre effettuate con una qualità scarsa, se non insufficiente: infatti, l’apparecchio in dotazione alle Istituzioni per tale impiego è in genere il registratore UHER con modifica Trevisan RT-2000 (più recente) o RT-1200 (un circuito che registra insieme al segnale vocale gli impulsi che consentono di contrassegnare la data, l’ora ed un numero progressivo della telefonata o della intercettazione).
Tale circuito, (precisamente il tipo 2000, il più diffuso) per il suo funzionamento, sottrae al segnale utile registrato una banda centrata intorno ai 2.000 Hz, nella quale vengono collocati i suddetti segnali. Tale banda, però, risulta notevolmente utile per l’esecuzione e la valutazione delle analisi, in quanto contiene le frequenze formanti più elevate, particolarmente significative per il riconoscimento vocale, ed altera la forma dello spettro, parametro fondamentale per tutte le analisi identificative. Una alterazione di tali frequenze priva pertanto il segnale vocale di una delle caratteristiche più rilevanti.
Un altro problema caratteristico del sistema RT-2000 è il taglio alle basse frequenze (che non trova giustificazioni, ne’ nelle caratteristiche del registratore UHER, di per se di alta qualità, ne’ in particolari esigenze di codifica. Tale filtraggio sottrae la parte più bassa dello spettro, nella quale spesso sono allocati i segnali corrispondenti alle occlusioni della voce, molto utili al riconoscimento. Questa caratteristica spettrale, oltre tutto, falsa il timbro della voce anche nelle analisi percettive (oltre a condurre a misure di PITCH costantemente di valore più elevato nel caso dell’ignoto), rendendo tale tipo di confronto meno probante.
Inoltre, al di là dei problemi dovuti alla presenza della scheda di modifica RT-2000, normalmente le registrazioni vengono effettuate alla velocità di 2.38 cm/s (la più bassa possibile del registratore), allo scopo, verosimilmente, di risparmiare il nastro. Un analogo problema sussiste nel caso di microcassette registrate a 2.38 cm/s, che per tali apparecchi risulta la velocità più alta, oppure, in misura ancora più rilevante, a 1.2 cm/s. A tali velocità, infatti, la qualità della registrazione risulta notevolmente scarsa, sia come risposta in frequenza (a velocità minore corrisponde un maggiore taglio alle alte frequenze che, come si è visto, sono essenziali per l’intelligibilità ed il riconoscimento vocale) che come rapporto segnale/rumore (il rumore di fondo assume un livello notevolmente superiore, spesso confrontabile con quello del segnale vocale, e questo essenzialmente in riproduzione, a causa della caratteristica di equalizzazione). Oltre a ciò, la dinamica del registratore diminuisce notevolmente, in quanto è maggiore il rischio di distorsione, con creazione di frequenze armoniche non esistenti nel segnale originale, e quindi fuorvianti nelle analisi, dato che modificano lo spettro e quindi le formanti ed il loro andamento, in corrispondenza dei picchi di livello più alto.
Sarebbe pertanto consigliabile effettuare le registrazioni di intercettazione con un diverso apparecchio, oppure (almeno) ad una velocità superiore, tenendo oltre tutto conto che la tecnologia della registrazione digitale (DAT) fornisce apparecchi di qualità “assoluta”, ad un costo non superiore (se non persino inferiore) rispetto a quelli analogici utilizzati, e con la possibilità di inserire codici che facilitano enormemente la ricerca di una particolare registrazione; oltre tutto, anche un normale registratore amatoriale a cassette è in grado di fornire prestazioni superiori.
Ultimamente, sono poi frequenti le perizie di confronto vocale in cui la voce anonima deriva da una intercettazione ambientale. Anche in questo caso sorgono problemi non indifferenti relativamente alla qualità fonica in quanto, oltre ai disturbi radio introdotti dal trasmettitore della microspia, in genere è presente il riverbero dell’ambiente, che riduce, e spesso impedisce totalmente, l’intelligibilità della conversazione, e di conseguenza delle analisi numeriche, dato che le caratteristiche spettrali di una vocale si prolungano fino a sovrapporsi a quelle della vocale successiva, senza alcuna possibilità di intervento a posteriori, allo stato attuale della tecnologia. Inoltre, non sempre dagli atti di causa evince con chiarezza quale sia la voce anonima (tra i vari parlatori che partecipano alla conversazione intercettata) che deve essere confrontata con quella del sospettato: è così necessario considerare tutte le voci ignote, quando non sussistono elementi semantici, o di altra natura, che consentono di identificare con sicurezza l’ambito del confronto. A fronte di queste difficoltà, però, si ha il vantaggio di dovere trattare voci anonime non mascherate o artefatte (dato che i parlatori non sanno di essere registrati); inoltre, la registrazione viene effettuata con un apparecchio privo della modifica Trevisan, espressamente progettata per le intercettazioni telefoniche, e quindi non sussistono i problemi di filtratura a 2.000 Hz.
Tenuto conto di queste considerazioni, i problemi elencati si amplificano esponenzialmente nelle comparazioni tra presunte voci paranormali che si presentano con una data personalità, e le voci che i presunti defunti avevano realmente in vita. Molto frequentemente il perito dispone di una campionatura insufficiente per effettuare una analisi sufficientemente probante. Spesso le presunte voci paranormali sono, probabilmente per loro caratteristiche o per disturbi del canale di comunicazione, di scarsa qualità spettrale e con un alto contenuto di rumore. In comunicazioni ricevute in momenti diversi, da sperimentatori e apparecchiature differenti, le stesse presunte personalità comunicanti producono spettri relativamente differenti, caratterizzate da una inusuale fluttuazione nel dominio delle frequenze e, soprattutto nel dominio del tempo. Queste variazioni possono essere fuorvianti e possono indurre ad un falso riconoscimento o ad un falso rigetto ad opera dei sistemi di segregazione vettoriale, che lavorano per frammentazione multipla del segnale. In questi casi è più che mai necessario operare, in aggiunta ai metodi statistico-matematici, in modo manuale, cioè analizzando i rispettivi tracciati sonagrafici. Non essendo possibile, come nelle indagini giudiziarie, prelevare un saggio fonico di uguale contenuto informativo, spesso l’indagine risulta affetta da un alto indice di errore. In qualche caso fortunato in cui si ha a disposizione le stesse parole per il confronto, l’indagine diviene più attendibile e probante, ma ciò è abbastanza raro. Va precisato che il confronto deve tenere in considerazione, oltre alla qualità dei reperti acustici e al disturbo del canale di comunicazione (radio, telefono, registratore, computer, etc.), il numero di eventi linguistici disponibili. In altre parole, se si hanno gli stessi contenuti informativi a disposizione, sono sufficienti due parole di due secondi per effettuare un confronto, che potrà essere molto probante dopo la comparazione differenziale con una matrice di almeno 64 parlatori (errore del 4,4 %) o di 128 parlatori (errore del 2,8 %). E’ ovvio che alla presenza di almeno 10 secondi di parlato, anche se non è presente un uguale contenuto informativo, il confronto risulta altrettanto accettabile, in quanto sono disponibili diversi vocoidi e contoidi per le analisi (10 o più vocali e consonanti), utili a fornire una media istografica dei parlatori.
L’altro problema cui si è accennato è costituito dal prelievo del saggio fonico, cioè la ripetizione da parte del sospettato di una o più frasi contenute nella comunicazione dell’ignoto, con analoghe modalità di pronuncia e di registrazione. Anche se l’utilizzo delle tecniche digitali di analisi ha reso questo punto meno critico, tanto da potersi procedere anche in assenza di tale saggio, risulta pur sempre fondamentale, per la massima affidabilità del procedimento, poter operare su campioni caratterizzati dalla omogeneità tra la voce dell’ignoto e quella del sospettato. Infatti, ad es., le analisi di intercettazioni telefoniche devono essere confrontate con un saggio fonico telefonico, le registrazioni ambientali con una voce registrata direttamente dal vivo (ortofonica), etc, e questo non è sempre possibile nelle analisi effettuate su presunte voci paranormali.
Questo avviene in quanto il canale di comunicazione, qualsiasi sia, introduce una propria modifica sul segnale, e per effettuare analisi probanti è necessario partire da campioni contraddistinti dal medesimo tipo di degradazione delle caratteristiche dovuta al mezzo impiegato, dato che il confronto di segnali alterati in modo differente può condurre a conclusioni imprecise, in particolar modo nello studio delle cosiddette voci anomale.
Un altro parametro fondamentale da considerare è la modalità di pronuncia, da parte dell’indagato, delle frasi costituenti il saggio, in quanto soprattutto nel caso di inconfessata colpevolezza, questi tende a falsare la propria pronuncia, o comunque a non pronunciare il testo nel modo richiesto, in modo da rendere difficilmente identificabile la propria voce: pertanto, l’acquisizione deve essere ripetuta in tal caso più volte, intervallandola con una normale conversazione (utile per rendersi conto del reale timbro vocale), sino ad ottenere un prelievo valido ed affidabile.
Anche la scelta delle frasi da analizzare risulta fondamentale, in quanto il confronto sonagrafico è basato sull’esame dei tracciati della medesima frase pronunciata dall’ignoto e dal disturbato, con analoghe modalità (cioè facendo ripetere al sospettato le stesse cadenze ed inflessioni che hanno caratterizzato la frase dell’ignoto: una frase interrogativa, ad es., deve essere ripetuta con tono interrogativo, in quanto cambia l’accentazione delle vocali, e l’eventuale accento dialettale deve essere mantenuto), anche se come si è visto l’analisi statistica consente di svincolarsi da tali considerazioni: l’omogeneità del materiale, comunque, risulta sempre desiderabile.
E’ inoltre opportuno scegliere frasi che contengano (se possibile) tutti gli elementi fonetici, dato che un risultato probante dell’analisi deriva essenzialmente dalla comparazione del maggior numero di elementi possibile, e dalla concordanza di tutti i risultati in un’unica direzione. Questa condizione, tuttavia, dipende essenzialmente dalla qualità e quantità di materiale fonico relativo all’ignoto.
Come si è preannunciato, i metodi di analisi statistica tramite calcolatore sulle frequenze delle formanti hanno parzialmente superato tali problematiche, tuttavia la validità del metodo risulta decisamente maggiore potendo procedere su campioni omogenei (anche, ad es., le frequenze delle formanti delle vocali stabili o gli indici di coarticolazione media presentano varianze, che si possono ridurre notevolmente qualora si effettuino confronti su frasi uguali, pronunciate nel medesimo modo, nell’ambito di un prelievo di un saggio fonico).
La metodologia adottata per il trattamento dei dati è la seguente[4]. Sul complesso dei dati formantici si calcola la distanza di Mahalanobis D2x1-x2 secondo la relazione 1):
1)
In cui x1 e x2 sono le medie dei valori delle formanti relative ai due soggetti a confronto (noto, 1 – ignoto, 2) e S-1 è l’inverso della matrice di covarianza del campione, ricavata dai valori dedotti dall’esperimento. Si calcola quindi il T2 di Hotelling secondo la relazione 2):
2) in cui N1 ed N2 sono il numero di vocali omologhe considerate per i due soggetti (ad es. 7 vocali A per il soggetto 1 – Noto – e 9 vocali A per il soggetto 2 – Ignoto) e D2 è la distanza di Mahalanobis definita in 1).
Il valore numerico di T2 ricavato dalla relazione 2) deve essere confrontato con il valore critico, definito dalla relazione 3):
3)
in cui N1 e N2 sono elementi già definiti nella relazione 2), p è il numero di gradi di libertà, corrispondente al numero di diversi parametri utilizzato (ad es., se si considerano i valori di F0 e delle prime tre formanti, F1, F2, F3, ne consegue che p = 4) ed Fa(…) è il valore critico della funzione di Fisher, definita per la significatività a ed i parametri p e (N1 + N2 – p – 1), rintracciabile su apposite tavole, quale quella fornita negli allegati, in cui si ha il valore critico per un a = 0.05, corrispondente ad un riconoscimento con probabilità del 95%.
Si accetta l’ipotesi di coincidenza dei parlatori qualora il valore T2, quale definito in 2), risulti inferiore al T2 critico, definito in 3).
Complessivamente, il riconoscimento vocale, per la sua massima affidabilità, non può prescindere da tutti gli elementi descritti, e cioè la qualità del segnale originale e l’affidabilità del prelievo del saggio fonico, e deve tenere conto dei tre ambiti di valutazione, ovvero spettrografico (sonagrammi), statistico (T2 di Hotelling) e percettivo (prove di ascolto). In molte occasioni vengono anche utilizzate delle modalità statistiche miscellanee di carattere probabilistico. Queste consistono nell’utilizzo di diversi algoritmi che rendono evidenti le caratteristiche salienti per ogni parlatore modellando le proprietà del linguaggio come i suoni sostenuti delle vocali, o quelli effimeri delle consonanti e le transizioni tra esse. Ognuno, secondo metodiche differenti, raggruppa un determinato grappolo di vettori N depositandoli in un cifrario, per poi essere paragonato a tutte le sequenze di numeri depositate nel database relativamente a diversi parlatori. Quelle maggiormente usate nel nostro laboratorio sono le cosiddette tecniche miscellanee di pattern-matching. Queste tecniche includono l’esecuzione della media delle caratteristiche a lungo termine del VQ (Quantizzazione Vettoriale), degli HMM (Modelli Nascosti di Markov), delle NN (Reti neurali) e dei sistemi di segregazione. In qualche circostanza sono state adoperate tecniche come i modelli Gaussiani di mistura, le funzioni Fourier Bessel e le mappe acustiche probabilistiche[5]. Una caratteristica comune a tutte le tecniche di riconoscimento della voce descritte, è che eseguono, una quantità considerevole di riduzione di dati, una specie di averaging. La riduzione dei dati è necessaria per estrarre le caratteristiche salienti del linguaggio di un individuo e, anche, per rendere fattibile al computer il processo di riconoscimento.
Riconoscimento della voce in ambienti rumorosi. Una delle preoccupazioni maggiori, sia in ambito civile che in quello militare, è superare le difficoltà associate con il riconoscimento della voce in ambienti rumorosi. A tale proposito sono stati eseguiti diversi studi in questo campo con la finalità di rendere tali sistemi, relativamente inaccessibili al rumore. La difficoltà principale negli ambienti rumorosi non è il rumore stesso, ma le variazioni del rumore. Un esempio estremo accade quando un sistema è stato allenato con il linguaggio chiaro – cioè senza rumori – e viene confrontato con un linguaggio rumoroso. Questi aspetti includono anche il tipo di microfono, la quantità di rumore del sottofondo, e il mezzo di trasmissione.
Se lo stesso rumore appare in entrambi i reperti acustici, non sarà rilevante sempre che il rapporto segnale – rumore sia basso.
Le variazioni tipiche di canale sono cambiamenti di rumore, la filtrazione bandpass, e la distorsione fasale applicata al vero segnale del linguaggio. Per rendere immuni a queste variazioni i sistemi di riconoscimento della voce, sono state sviluppate diverse tecniche, incluso la selezione delle caratteristiche con l’immunità alle variazioni di canale e la preelaborazione dei segnali per separare le componenti di rumore dai componenti del linguaggio. Alcune di queste caratteristiche riguardano per esempio l’analisi della frequenza fondamentale e la frequenza delle formanti, perché sono minimamente cambiate dal rumore o dalla distorsione fasale, e solo leggermente dalla filtrazione bandpass, tipica dei canali di comunicazione. Vengono utilizzati i coefficienti cepstrali perché non vengono cambiati dalla distorsione lineare. Sono state utilizzate anche le caratteristiche Delta (Delta Cepstrum, Delta Energy e Delta Delta Energy). Queste vengono calcolate determinando la differenza tra i vettori successivi e usando i vettori di differenza come caratteristiche. Le caratteristiche Delta rimuovono automaticamente l’errore di un segnale. Per separare la componente di rumore di un segnale dai componenti utili del linguaggio, occorre prima caratterizzare il canale di comunicazione. Il metodo più semplice per caratterizzare un canale nelle applicazioni dipendenti da un testo è di determinare il valore medio di tutte le caratteristiche durante tutta l’espressione. Poi, i vettori medi possono essere sottratti da ogni vettore nell’espressione per normalizzarla. Questa tecnica è utile anche per compensare un po’ della filtrazione bandpass. Comunque se le espressioni sono corte, un po’ delle informazioni dipendenti dal parlante saranno rimosse dal segnale. Un altro metodo è di caratterizzare il rumore di sottofondo dai segmenti dell’espressione dove non c’è linguaggio, per assicurare che il linguaggio vero non venga classificato per sbaglio come rumore stazionario di canale. Alternativamente, Wang propone di calcolare la media delle caratteristiche del canale in molti diversi tipi di canali invece che nel tempo. Gish propone che il canale debba essere modellato statisticamente come un vettore Gaussiano casuale, che può essere incorporato nel classificatore, presupponendo che venga usato un classificatore Gaussiano di funzione della distribuzione della probabilità (GPDF). Altri algoritmi immuni alle variazioni di canale, che anche noi utilizziamo, sono i coefficienti di autocorrelazione clippati e gli scudi matematici interferenziali come l’algoritmo di Viterbi (Viterbi Match), che richiedono tuttavia ancora un grande dispendio di calcoli, anche nei processori di ultima generazione.
Conclusioni
Occorre comunque tenere conto che in ogni caso la possibilità di riconoscimento non potrà mai raggiungere una sicurezza del 100%, in quanto la voce di ogni essere umano (a differenza delle impronte digitali) non è ne’ unica (esistono persone diverse con voce estremamente simile, come si verifica spesso, equivocando l’identità di chi ci telefona), ne’ immutabile (dato che può dipendere, come si è visto, da plurimi fattori, e la stessa persona può produrre parametri analitici differenti).
E’ pertanto opportuno tenere conto nella valutazione delle variabilità interparlatori (cioè delle differenze tra le voci di persone diverse), congiunte alla variabilità intraparlatore, cioè delle differenze nelle caratteristiche della voce in esame prelevata in momenti e contesti differenti.
Un riconoscimento vocale di identità può quindi essere ritenuto affidabile se le differenze tra i dati dell’ignoto e del sospettato non eccedono i limiti delle normali differenze intraparlatore, mentre se tale gamma viene superata si deve concludere che tale identità non sussiste, e che logicamente i due parlatori sono persone diverse.
È prassi comune, ed in genere richiesta dalla Giustizia, fornire la probabilità che il sospettato e l’ignoto coincidano mediante una certa percentuale, sempre comunque inferiore al 100%, che si ricava non esclusivamente dal risultato di un certo algoritmo matematico, bensì mediante considerazioni globalmente soggettive, dettate dall’esperienza e dalla letteratura, fornite come compendio su tutti i differenti metodi di analisi implementate. A questo punto si espone una serie di comparazioni tra le“voci”ricevute a Grosseto da Marcello Bacci e le voci che avevano in vita alcune persone non più appartenenti alla nostra dimensione fisica.
(APPENDICE)
Voci comparate al computer.
Caso di Chiara Lenzi.
Misurazioni effettuate sulle voci in vita di Chiara Lenzi in due differenti contesti di realizzazione. La distanza euclidea delle due impronte vocali è uguale a 2,58.
Comparazione dei tratti vocali della precedente analisi. 84% di somiglianza. Comparazione tra una delle presunte voci paranormali ricevute a Grosseto nel laboratorio di M. Bacci, con la voce in vita di Chiara Lenzi. La distanza euclidea è di 2,37, inferiore alla varianza intraparlatore misurata precedentemente.
Comparazione dei tratti vocali relativi alla voce in vita di Chiara (in alto) e la voce presunta paranormale in basso. La corrispondenza è del 90%. In precedenza sulle vere voci di Chiara Lenzi avevamo riscontrato un 84%.
Ricostruzione del tratto vocale della presunta voce paranormale (sopra) sedicente “Chiara”. L’errore è inferiore allo 0,3%, tuttavia si riscontrano notevoli anomalie nell’apertura della bocca (fuori dalla norma) e nelle dimensioni delle cavità retrolinguale e sottolaringea.
Ricostruzione del tratto vocale (sotto) della voce in vita di Chiara Lenzi. I valori sono nella norma e l’errore è contenuto nel 0,1%.
Nuovi approfondimenti comparativi effettuati nel 2003
Nel 2003 sono stati effettuati nuovi test comparativi di tipo parametrico – oggettivo analizzando un campione scelto tra le voci ricevute a Grosseto inerenti la sedicente Chiara Lenzi e le registrazioni in vita della stessa con una piattaforma di riconoscimento denominata IDEM. Sin dagli anni ’70 la Fondazione Ugo Bordoni ha sviluppato un’attività di ricerca sul tema del riconoscimento del parlatore di interesse della Magistratura e della Polizia Giudiziaria. Essa è stata interessata alle indagini su diversi casi concreti, come l’inchiesta sul presunto coinvolgimento di Tony Negri nel processo Moro, l’inchiesta su Gladio, promossa dalla Commissione Bicamerale “Stragi”, e l’indagine sulla tragedia di Ustica per conto del Giudice Istruttore Dr. Priore. Le ricerche della Fondazione hanno portato a realizzare un software per il riconoscimento del parlatore denominato IDEM, attualmente utilizzato dal RaCIS (Raggruppamento Carabinieri Investigazioni Scientifiche) e dalla Gendarmeria Argentina. A partire dal 1998, a seguito di alcuni contatti tra l’ISCTI e il Ministero della Giustizia, sono stati avviati studi sul tema della”registrazione audio e audio-video nelle aule processuali”. In questa occasione è stata stipulata una convenzione tra l’Ufficio Affari Civili del Ministero e la Fondazione Bordoni volta a promuovere studi e consulenze sui temi di interesse del Ministero. Per un altro ufficio dello stesso Ministero, l’Ufficio Automazione (URSIA), è stato redatto uno studio di fattibilità sulla reingegnerizzazione del sistema di intercettazioni legali in Italia. Parallelamente è da anni avviata un’attività di formazione svolta dalla Fondazione agli operatori di giustizia, Magistrati, Ufficiali dell’Arma dei Carabinieri, Avvocati e Periti. Attualmente la Fondazione è impegnata nello studio di alcuni temi di diretto interesse per la giustizia. Un primo tema è quello tradizionale della identificazione della persona sulla base delle sue caratteristiche biometriche. Tra le caratteristiche biometriche utilizzate a fini identificativi vi sono le impronte digitali, la voce, la firma, l’iride, la geometria del volto, l’impronta retinica, la geometria della mano. Tutte queste caratteristiche sono oggetto di studio nell’ambito del progetto europeo COST 275, dove particolare attenzione viene rivolta al riconoscimento del volto e al riconoscimento automatico del parlante. Su quest’ultimo argomento sono attive sperimentazioni di un sistema completamente automatico di sorveglianza atto a identificare, con sufficiente grado di probabilità, la presenza di una determinata voce in una comunicazione telefonica. Con questo applicativo sono state esaminate le frasi relative alla voce in vita di Chiara Lenzi su un campione di 20 secondi e confrontate con una selezione delle più significative, a livello percettivo e di rapporto SR, di voci registrate a Grosseto della sedicente Chiara. Sono state estrapolati i valori medi delle vocali aeiou e salvati in matrice numerica in un database (Spread 2001) composto da circa 900 parlatori per il confronto tramite distanza di Mahalanobis con algoritmo HMM e Viterbi Match. Di seguito si riportano alcuni grafici esemplificativi dei vari passaggi prima del riconoscimento. L’esito finale è stato positivo, con riconoscimento del parlatore equivalente al 97%.
Ricerca e identificazione del frammento sonoro del parlante e misurazione del rapporto SR equivalente a 17 dB.
Individuazione del centro delle formanti sulle varie vocali e memorizzazione del dato.
Correlazione tra i dati delle matrici di formanti di N parlatori e le voci in verifica.
Caso Silvana Pagnotta.
L’analisi comparativa tra la voce di Silvana Pagnotta in vita, e quella registrata a Grosseto pronuncianti la medesima elocuzione verbale “Marcello”, sono per l’esiguità del materiale fonico disponibile, state trattate con un procedimento di calcolo matematico differente (HMM). La comparazione delle tracce foniche ha fornito una percentuale di somiglianza pari al 89,7%. Sono state calcolate le “distanze euclidee” su una matrice di 64 donne di età compresa tra i 55 e i 65 anni (valore indicato nel grafico come “Distance”: 2,37), alla quale era stato chiesto di ripetere la parola “Marcello”. Nessuno, eccetto una parlatrice di 55 anni, ha riportato una distanza così vicina, anche se notevolmente superiore, a quella ottenuta con la supposta voce paranormale di Grosseto. Riporto per scrupolosità metodologica, le distanze comparative delle 64 parlatrici, evidenziando il dato suddetto. Distanze misurate nelle 64 parlatrici:
10,23 – 7,8 – 5,91 – 6,75 – 11,15 – 7,63 – 5,67 – 9,25 – 7,98 – 8,13 – 5,99 – 6,17 – 5,14 – 8,05 – 9,11 – 14,62 – 10,1 – 5,06 – 4,58 – 5,75 – 6,12 – 7,63 – 8,02 – 5,45 – 4,64 – 9,07 – 5,49 – 4,44 – 7,16 – 5,95 – 8,53 – 4,39 – 6,65 – 9,87 – 11,33 – 12,10 – 7,97 – 11,01 – 5,44 – 6,06 – 4,61 – 4,13 – 9,39 – 5,25 – 10,42 – 6,5 – 5,58 – 4,99 – 7,12 – 8,08 – 10,29 – 5,77 – 4,6 – 4,02 – 9,94 – 6,22 – 5,19 – 4,34 – 3,58 – 13,05 – 6,7 – 9,55 – 4,09 – 3,93.
Si conclude l’analisi con un dato comparativo che, pur non confermando l’esatta identificazione dei reperti esaminati (voci di Grosseto e voce in vita di Silvana), lascia intravedere ottime possibilità che si tratti della medesima voce. Una risposta più esaustiva si avrebbe su un campione sonoro più ricco di informazioni, che non in una singola parola come quella esaminata. Speriamo che in futuro possano essere ricevute altre comunicazioni utili ai fini dell’identificazione.
Caso Robustiano. Voce registrata a Grosseto di una sedicente entità di nome Robustiano. Era presente il figlio, Daniele Giacomazzi, al momento della “comunicazione”, che ha riconosciuto senza dubbi, la voce del padre. La comparazione delle voci ha fornito un dato di somiglianza pari al 96%. Pur sussistendo delle diversità nel tono e nelle frequenze utilizzate, nonché nelle bande formantiche, le modalità di estrinsecazione dei fonemi, cioè il modo di articolare i vari foni comprese le pause e le transizioni V-C-V e C-V-C, sono praticamente le stesse.
Caso Jurghenson.
Confronto tra la vera voce in vita di Frederic Jurghenson (in alto), e la registrazione ottenuta a Grosseto da Marcello Bacci (grafico in basso). A sinistra è rappresentato il pitch e a destra l’istogramma dei vocoidi. Si può notare in quest’ultima graficatura, una notevole somiglianza. Il confronto è stato eseguito sul medesimo contenuto linguistico: “LA RADIO ”. Il computer attribuisce un indice di coincidenza delle voci pari al 90%.
Bibliografia
B.S. ATAL: Speech Analysis and Synthesis by linear prediction of speech wave. Jasa 47, 65 (A), 1980. Francois BRUNE, Renée CHAUVIN: In diretta dall’Aldilà. Ediz. Mediterranee, (Roma,1998).
D.GAGANELIS, E.FRANGOULIS: A Novel Approach to speaker verification . ICSSP 1997, pp.375-376.
Daniele GULLA’: Controllo delle voci in stato di veglia e in stato di trance a incorporazione mediante analizzatore di spettro: In: “Quaderni di Parapsicologia”, rivista del C.S.P. di Bologna. Vol.29° fasc.2°, Ottobre 1998, pp.75- 87.
Daniele GULLA’, Giuseppe LENZI : Voci in vita e voci dall’aldilà-studio comparato al computer. In: “La Ricerca Psichica”. Anno 7°. N.2. pp. 77-96.
Daniele GULLA’: Voci paranormali e analisi di laboratorio. In: L’uomo e il mistero/8, AA.VV. Edizioni Mediterranee, 2000, Roma.
Daniele GULLA’: Proposta di una metodologia di ricerca di presunti eventi acustici paranormali di origine fonetica.In: “Quaderni di Parapsicologia”, rivista del C.S.P. di Bologna. Vol.32° N.1, Marzo 2001, pp. 68-76, atti del Convegno Nazionale “Esperienze inusuali definite Parapsicologie”, tenutosi il 27/10/2000 presso l’Aula Magna dell’Università di Bari (Dipartimento di Bioetica).
Daniele GULLA’: Analisi sonografica del coro ricevuto da Anabela Cardoso. In: ITC Journal (Cadernos de TCI). N.6. Giugno 2001, pp. 36-43.
Daniele GULLA’: Analisi di laboratorio di una presunta manifestazione a “voce diretta” con la medianità di Urbino Fontanelli. In: “Luce e Ombra”, Anno 101° fasc.N.4, Ottobre-Dicembre 2001, pp. 389-408.
L.KERSTA: Voice-print identification. In: “Nature”, Vol.196 (pp.1253-1257) (1962).
R.KLEVANS, R.ROOMAN: Voice recognition. Ediz.Arthec House, ( London, 1997).
Paolo PRESI: Psicofonia e paranormalità elettroniche. In: AA.VV.” Esperienze paranormali.” Ediz. Mediterranee (Roma, 1990),pp.129-164.
Paolo PRESI: La transcomunicazione strumentale. In: “Luce e Ombra”: Vol.99, fasc° 1, pp.21-80. (Bologna, gennaio –marzo 1999).
A.ROSEMBERG, F.K. SOONG: Recent Research in authomatic speaker recognition. Ediz. Dekker, (New York, 1992).
SANTOBONI: Elettroacustica, Ediz. Masson (Parigi,1996)
O. SCHINDLER: Manuale di audiofono-logopedia. Vol.I° Ediz. Omega (Torino,1974):
W. TETSCHNER: Voice processing. Ediz.Arthec House (London, 1994)
Carlo M.TRAJNA: Ignoto chiama uomo. Ediz. Salani, (Firenze, 1984).
Carlo M. TRAJNA: Il modello psicotemporale. Ediz. Istituto “GNOSIS”del C.I.P. (Centro Italiano di Parapsicologia) (Napoli, 1992).
Errata corrige: Nel precedente lavoro, pubblicato sul fasc° N°2 ,Anno VII (2000), pp.77-96, della RICERCA PSICHICA, dal titolo: “VOCI IN VITA E VOCI DALL’ALDILA’ (STUDIO COMPARATO AL COMPUTER)”, per mano degli stessi AA: Lenzi G. e Gullà D., nella Bibliografia, a pag.95, nel penultimo rigo, laddove è riportata l’opera dell’Ing.C.M.Trajna,: “Ignoto chiama Ignoto”si legga, cioè, anziché il titolo anzidetto: “Ignoto chiama Uomo”. Ci scusiamo dell’involontaria svista.
Riassunto.
Nuove indagini computerizzate sulle “Voci paranormali”.
In questo nuovo lavoro, sulle voci paranormali, analizzate al computer, (il primo essendo stato pubblicato sul N° 2, Anno VII° (2000) di questa stessa rivista), gli AA. procedono nella loro indagine su tale fenomeno, mediante programmi ancora più sofisticati. G.Lenzi descrive brevemente le prime manifestazioni del fenomeno ed il suo interesse ad approfondirlo, sviluppatosi, poi, dopo la scomparsa della sua figlioletta ventenne, Chiara. Dapprima descrive alcuni brevi, ma significativi esempi da lui ottenuti nella sperimentazione nel laboratorio di Marcello Bacci e, poi, passa, a dimostrare l’importanza, sul piano della ricerca seria ed oggettiva, che le voci vengano riconosciute mediante un sistema affidabile e sicuramente indiscutibile, avulso da emotività soggettive. Critica anche l’atteggiamento di coloro che, presi da eccessiva emotività e fretta, confondono rumori di fondo, o fruscìi, o trasmissioni radiodilettantistiche, per vv.pp., esponendosi, così, troppo facilmente, alle critiche ironiche degli scettici denigratori. Quindi, riprendendo quanto già sostenuto nel precedente lavoro, espone quali siano stati i metodi adottati per arrivare al riconoscimento delle voci, laddove si possedeva la registrazione “in vita” di una persona, successivamente manifestatasi alla radio nel circolo psicofonico di Marcello Bacci, a Grosseto. E descrive, per sommi capi, le tecniche di riconoscimento, usando speciali algoritmi e si sofferma sul fatto che le vv.pp. mancano, molto spesso, della vibrazione delle corde vocali, al contrario di quello che avviene per la voce umana. D.Gullà, poi, si è soffermato sui vari aspetti della tecnica di riconoscimento delle voci, sempre prendendo, come modello, le parole (o brevi frasi) uguali di cui si possedeva la registrazione, sia in vita, che paranormalmente e si sofferma, con linguaggio molto accurato e tecnico, sui vari parametri atti a riconoscere una voce attribuita, o attribuibile, ad una data persona. Sebbene non sia possibile arrivare ad una certezza assoluta del 100%, tuttavia si è arrivati, facendo uso di nuovi programmi computerizzati, e con opportuni filtri, al riconoscimento di alcune voci che, nel caso di Chiara Lenzi, raggiungono somiglianze del 92-97% e, quello che è ancora più importante, mediante l’uso di speciali formule matematiche, il computer riesce a ricostruire la cavità boccale da cui sarebbe uscita una data parola, o lettera, o vocale, tanto da ricostruire teoricamente la cavità faringea e laringea; ora, mentre nello studio di voci umane, si vede che la cavità boccale è perfettamente coerente con le condizioni fisiologiche e reali di un individuo (uomo, donna, o bambino), nello studio di alcune vv.pp., si vede che la cavità boccale, laringea e faringea, è completamente assurda! Nel 2003 infine, viene sinteticamente esposto un’analisi comparativa tra un campione di 20 secondi della voce di Chiara in vita e quella di Grosseto con l’ausilio di una tecnica parametrico – oggettiva utilizzando IDEM; piattaforma software della Fondazione Ugo Bordoni, l’unica riconosciuta in sede giuridica e utilizzata dal Comando RaCIS dei Carabinieri. Questo esame ha validato i riconoscimenti effettuati in precedenza attribuendoli alla stessa identità personale con un indice di verisimiglianza superiore al 97%.
[1] Essi si giovarono delle apparecchiature elettroniche dell’Istituto Elettrotecnico Galileo Ferraris di Torino, Istituto Statale di alta professionalità e legalmente riconosciuto, ottenendo uno studio pioneristico ed interessantissimo i cui risultati sbalorditivi sono stati già pubblicati in: “Psicofonia e Paranormalità elettroniche”, di Paolo Presi, in: AA.VV.: “ESPERIENZE PARANORMALI” a cura di Paola Giovetti; Ediz. Mediterranee, Roma, 1990, pp.139-164. [2] In moltissimi casi, infatti, manca un riconoscimento oggettivo della voce paranormale, poiché non si possiedono registrazioni dirette della voce che la cosiddetta “entità comunicante” aveva, qui, sulla terra. [3] La gamma di frequenze udibili, nell’estremo superiore, non ha un limite definito, in quanto dipende in notevole misura dall’età (con il passare degli anni tale limite diminuisce a causa della presbiacusia) e da eventuali patologie dell’apparato uditivo. Lo spettro della voce umana è comunque esteso sino a circa 10000 Hz. [4] Cortesia, ing. A. Pavoni Belli, Istituto Galileo Ferraris di Torino. [5] Voice Recognition, Richard L. Klevans, Robert D. Rodman, Artech House, Boston, US, 1997. |