audio binaurale

Federico Bianchi
29 set 2024
Tempo di lettura: 4 min

Nell'immagine: schermata di controllo del software Klang di processing binaurale

Binaurale… no, non è una malattia!

E’ una tecnica di processing del suono, destinata all’ascolto in cuffia (per l’appunto binaurale), che consente di riprodurre un campo sonoro tridimensionale sfruttando i principi della psicoacustica e le caratteristiche del sistema percettivo umano.

Partendo dalle origini… Uno dei motivi per cui i nostri sensi si sono sviluppati durante l’evoluzione riguarda sicuramente la capacità di auto conservazione; pensate ad esempio all’uomo delle caverne e ai vari predatori da cui si doveva difendere, sapere in anticipo da dove sarebbe arrivato l’attacco era l’unica possibilità di salvezza. L’unico senso che, per sua conformazione, ci consente di identificare la provenienza di un suono è l’udito, a differenza degli altri che ci sono più utili in altre situazioni.

Come funziona il sistema?

In realtà è piuttosto semplice: avendo due punti di percezione (le due orecchie) il nostro cervello è in grado di immagazzinare dati da entrambe e fare i suoi calcoli che si basano su:

differenza del tempo di arrivo del suono alle due orecchie
Filtraggio e relativo ritardo (ma solo di alcune frequenze - group delay in gergo) generato dall’interferenza della testa e del suo contenuto che separa le due orecchie
Alterazioni tonali date dall’interferenza e dalle riflessioni del suono nelle varie parti dell’orecchio esterno ed interno

Analizzando tutti questi dati il nostro cervello è in grado di localizzare la provenienza di un suono e valutarne anche l’eventuale movimento.

La vera difficoltà sta nel ricreare con degli algoritmi efficienti quello che avviene in natura, in realtà l’altro grosso problema è il tempo di calcolo; il nostro cervello è particolarmente veloce ma per fortuna le nuove tecnologie, in particolare l’uso dei processori FPGA (come ad esempio quello usato nei device di KLANG) consente calcoli molto precisi (appurati) e allo stesso tempo veloci che ne consentono l’uso anche a bassissima latenza e quindi rendendolo adatto anche ad un utilizzo live.

Gestione

Le singole sorgenti vengono processate simultaneamente, seguendo i criteri elencati qui sopra, e quello che noi percepiamo indossando una cuffia è un suono tridimensionale, in pratica stiamo ingannando il nostro cervello, ma lui non lo sa, quindi tutto bene.

I vantaggi?

Moltissimi: primo fra tutti la naturalezza di un ascolto molto più simile a quello “reale”

Inoltre avendo più spazio per le singole sorgenti aumenta anche l’intelligibilità e si riduce notevolmente l’effetto mascheramento, fenomeno che normalmente ci obbliga a compromessi tra la qualità del timbro e la sua presenza all’interno di un mix.

Tralasciando per un attimo l’ascolto della musica “immersiva”, sicuramente la direzione che sta prendendo l’audio professionale e non, se prendiamo in considerazione l’ascolto di un musicista o di un cantante su di un palco, tutti questi vantaggi diventano ancora più significativi.

Più intelligibilità = tutti gli strumenti più a fuoco, la possibilità di avere un mix completo senza sacrificare elementi o timbriche, meno affaticamento nell’ascoltare le singole parti del mix (o la propria voce). Questo si traduce anche in meno richieste e modifiche in corso d’opera.

Più spazio = Possibilità di distribuire i suoni nello spazio tridimensionale e, soprattutto, la possibilità di utilizzare a pieno la stereofonia senza sacrificare la naturalezza (in un ascolto stereo tradizionale, un pan al 100% fa arrivare il suono ad un orecchio solo, che è la cosa più innaturale e fastidiosa che mi venga in mente)

Livelli = Grazie alla riduzione dell’effetto mascheramento e l’aumento di intelligibilità a parità di “volume” percepito, il livello che mandiamo alla cuffia è nell’ordine dei 5-6 dB più basso; quindi: meno pressione nelle orecchie e meno affaticamento (mi viene in mente un cantante che ogni 15 minuti mi chiede di alzargli la voce nel monitor - perchè l’orecchio si stanca e va in “protezione”) e livelli più contenuti ai trasmettitori che lavorano meglio restituendo maggiore dinamica e piacevolezza.

Psicoacustica = Non ne ho parlato all’inizio ma un altro aspetto del sistema percettivo riguarda quelle che vengono chiamate zone di focus;

per abitudine di ascolto, dalla nascita, tendiamo a dare più importanza a suoni provenienti da certe zone, in particolare davanti a noi e un po’ in alto (pensate ai nostri genitori che ci parlano nella culla) e altre zone al contrario che finiscono nella sezione “suoni che non mi interessa sentire”.

Gestendo i posizionamenti è possibile “virtualmente” alzare e abbassare la percezione di livello di un suono semplicemente mettendolo in un posto più o meno prioritario per il nostro cervello.

Altre caratteristica delle zone fuori fuoco è la capacità del nostro sistema percettivo di “ascoltare” qualcosa che proviene da quel determinato punto solo quando ci serve: un ottimo esempio è il click di un batterista, posizionato dietro magari un po’ in basso; così facendo è facoltà del musicista ascoltarlo o meno (sarebbe meglio dire percepirlo più o meno), quando gli fa comodo.

Nelle applicazioni “live” non mi vengono in mente delle controindicazioni o dei motivi per non usare un sistema del genere, naturalmente il funzionamento presuppone che vengano indossate entrambe le cuffie, meglio se di tipo auricolare (bypassando la parte esterna dell’orecchio). L’utilizzo di cuffie a padiglione va bene, tutto funziona, ma la precisione è leggermente ridotta a causa dell’intervento delle parti esterne dell’orecchio su un suono processato che le sta già simulando elettronicamente.

Parlando di ascolto musicale/studio o streaming c’è una piccola nota finale che ci tengo a fare: visto che una parte del risultato è dato dall’alterazione timbrica del suono originario, può capitare di sentire la necessità di compensare in mix questi interventi, vanificando di fatto una parte del processing. Inoltre, e cosa non da poco se consideriamo i suoni frontali e posteriori, l’elemento principale di analisi è il timbro, e questo presuppone che chi ascolta sia a conoscenza del timbro originale.

Faccio un esempio per capire meglio: prendiamo una chitarra acustica e posizioniamola dietro sfruttando le tecniche binaurali, la prima cosa che percepiamo è che timbricamente è più scura, con meno transienti.

Se arriva "tizio" che non conosce il suono originale e si mette la cuffia:

sente una chitarra acustica normale posizionata dietro o sente una chitarra equalizzata “scura”posizionata davanti ?

Con questo dubbio amletico vi saluto e vi aspetto a provare KLANG, la tecnologia che abbiamo scelto per l’audio immersivo binaurale.

MARCHI DISTRIBUITI

audio binaurale

Post recenti

Commenti