Ecco tutto quello che devi sapere sui vari formati di musica liquida, da quelli compressi all’HiRes Audio. Vantaggi e svantaggi. Come districarsi tra Mp3, FLAC, DSD e…
Si fa presto a dire musica liquida. Fra formati compressi e formati non compressi, a bassa o ad alta risoluzione, agli occhi di un non esperto questo è un settore che potrebbe apparire come una sorte di Babele.
E allora, cerchiamo di fare un po’ di chiarezza tra i vari formati disponibili per la musica liquida (e ormai direi pure gassosa riferendomi ai servizi di streaming), cercando di capire quali siano i vantaggi e gli svantaggi di ognuno di essi.
In principio le registrazioni erano analogiche
Per tantissimi decenni, le registrazioni dei dischi avvenivano su formati analogici, nastri da 1 pollice multitraccia da cui poi veniva fatto un master per pressare i vari formati in vinile.
Da circa 40 anni, ormai, in sala di registrazione si usano invece macchine digitali, che registrano direttamente su file, con l’enorme vantaggio che in tutte le fasi di manipolazione del suono non c’è perdita di qualità.
Per non parlare del fatto che la stragrande maggioranza dei suoni che popolano le canzoni pop, rock e di tutti i generi moderni sempre più spesso sono prodotti digitalmente.
La registrazione analogica
In termini meramente teorici, una catena di registrazione analogica è la più adatta a catturare… strumenti analogici, conservandone la morbidezza dei suoni anche grazie a un percorso del segnale molto semplice.
Per contro, c’è sempre un rumore di fondo – più o meno udibile – che fa da sottofondo al suono, i supporti risentono molto di usura e di fattori legati al tempo e i dispositivi di riproduzione commerciali hanno degli evidenti limiti quanto a risposta in frequenza e dinamica.
La registrazione digitale
Da quando gli studi di registrazione sono passati a catene digitali, si sono moltiplicate una serie di problematiche legate a una certa artificiosità dei suoni se in origini prodotti da strumenti analogici. In altre parole: tutto più semplice se tutta la catena è digitale, ma se bisogna digitalizzare dei suoni analogici… è tutto un altro paio di maniche.
D’altro canto, però, la qualità generale (dinamica e risposta in frequenza su tutte) ha superato limiti fino a poco prima inimmaginabili e scompaiono le problematiche legate al rumore di fondo e all’usura dei supporti.
Registrazione analogica vs registrazione digitale: un esempio
Immaginiamo di dover fare una copia di una curva sinusoidale (l’onda sonora). Abbiamo 2 possibilità.
Chiamiamo un bravo disegnatore, che se la mette a fianco al suo foglio bianco, sul quale disegna una nuova curva che somiglia (più o meno bene) all’originale (registrazione analogica).
Oppure prendiamo la curva originale, la piazziamo su un asse cartesiano e ne misuriamo X punti (44.100 per ogni secondo rappresentato dal nostro sinusoide). Sul nuovo foglio non faremo altro che disegnare 44.100 puntini per ogni secondo del nostro ormai amico sinusoide. E il tracciato che è un mezzo a due puntini? Verrà disegnato per interpolazione, ovvero una sorta di media tra il puntino che viene prima e quello che viene dopo (registrazione digitale).
L’audio digitale non compresso
Per audio digitale non compresso s’intende una registrazione fatta secondo gli standard del formato CD (secondo quanto espresso nel 1979 e nel 1982 nel Red Book di Philips prima e di Philips & Sony poi).
Sui CD sono stati solidificati file codificati in Pulse Code Modulation (PCM) con una profondità di 16 bit e una frequenza di campionamento di 44,1 kHz, caratteristiche si portano in seno una dinamica di almeno 96 dB e una risposta in frequenza di 20-20.000 Hz, praticamente una roba da sballo per chi era abituato alla mortificazione del segnale tipica del vinile.
Gli albori dell’HiRes Audio
Principalmente a causa dell’alto costo dei processori capaci di elaborare i 16bit/44.1kHz del formato CD, ma anche e soprattutto alla ricerca di un formato semplice per fare un backup digitale di master analogici dei decenni precedenti, nel 1999 Sony e Philips presentarono il Super Audio CD (SACD), seguito l’anno seguente dal DVD Audio (realizzato da un gruppo di aziende sotto il cappello di DVD Forum).
Come molti di voi sanno, il formato SACD ha un approccio totalmente diverso rispetto al PCM. Invece dei 16 o dei 24 bit (come nel caso del DVD Audio), il formato SACD prevede dei campioni a single bit a flusso continuo con una codifica denominata Direct Stream Digital (DSD), con un campionamento a 2,8224 MHz e con una dinamica di 120 dB (mentre il DVD Audio lavorava a 192 kHz e con la stessa dinamica).
Il vantaggio teorico risiede nel fatto che le distorsioni tipiche determinate dal fenomeno di aliasing con questi due formati sono spostate ben oltre la soglia dell’udibile (cfr https://it.wikipedia.org/wiki/Aliasing).
L’audio lossy nasce soprattutto per Internet
SACD e DVD Audio nascono praticamente nel momento in cui Internet diventa un fenomeno di massa, ma allo stesso tempo ancora caratterizzato da: alti costi di connessione e basse velocità di trasmissione dati.
E il popolo bramava di potersi scambiare file via Internet e/o accedere ai vari sistemi di pirateria, soprattutto P2P.
E allora che si fa?
E allora ecco che arriva a gamba tesa la psicoacustica e la compressione fino a 10/12 volte dei file originali.
Detta in parole povere, vengono diffusi degli algoritmi che: riducono la gamma dinamica, riducono la separazione stereo ed eliminano tutte quelle informazioni meno udibili, a cominciare da tutte le frequenza sopra i 15.000 Hz (e spesso anche sotto i 50 Hz). Il tutto basato su dei modelli psicoacustici ottenuti tramite dei test su dei campioni di ascoltatori.
In pratica, molto spesso una vera e propria macelleria sonora.
File audio digitali: 3 grandi famiglie
Tecnicamente e comunemente, i file audio digitali vengono divisi in 3 macro-famiglie:
- Audio Non Compresso
- Audio Compresso Lossless
- Audio Compresso Lossy
L’Audio Non Compresso, come è facilmente intuibile, non viene dato in pasto ad alcun algoritmo e la sua base viene considerata il formato CD.
Esistono però anche dei sistemi per comprimere i file non compressi (risparmiando spazio), ma senza perdita di qualità: Audio Compresso Lossless. In pratica si va a lavorare sulla pause e sui silenzi del programma sonoro, oltre che a dei sistemi di compressione che – volendo forzare la mano – sono simili agli arciconosciuti file zip, in cui la fatica di decomprimere per tornare alle dimensioni originali viene demandata all’hardware dell’utente.
E poi l’Audio Compresso Lossy, i formati con compressione di dati e con perdita di qualità, per lo più basati sui modelli psicoacustici di cui parlavamo qualche riga fa.
Formati Audio Non Compresso
I formati di Audio Non compresso sono essenzialmente 2, il DSD e il PCM.
DSD
Il formato DSD – per alcuni esperti assimilabile per qualità a un PCM 16bit / 88,2 kHz – ha una versione base a 1bit e 2,8224 MHz, ma col tempo è uscita la versione DSD128 (ovvero 128 volte quella di un CD Audio e quindi a 5,6448 MHz) e anche la versione DSD256 a 11,286 MHz. Come se non bastasse, è anche comparsa la in verità assai poco diffusa versione DSD512, ovvero 512 volte 48 kHz.
Il DSD è solo in CBR (Constant Bit Rate), può essere sia stereo e sia multicanale e non supporta gli standard di metatag.
PCM
Il PCM è il sistema più diffuso, seppure più correttamente si dovrebbe parlare di LPCM quando la quantizzazione è lineare (come accade nella stragrande maggioranza dei casi).
Il formato PCM per essere Non Compresso deve presentarsi almeno a 16bit e a 44,1 kHz (e se con valori superiori parliamo di HiRes Audio). Le frequenze di campionamento disponibili arrivano fino a 384 kHz, i bit ormai sempre più spesso sono 24 (anche se è possibile averne anche 32), è previsto il solo CBR sia stereo e sia multicanale e – a seconda di come i PCM sono declinati (WAV, FLAC, ecc.) – possono avere (FLAC) o non avere (WAV) il supporto ai metatag.
Formati Audio Compresso Lossless
I più diffusi formati di Audio Compresso Lossless sono 4 e 2 di questi hanno un uso principalmente home theater.
ALAC
ALAC, per gli amici Apple Lossless, è presente tra noi dal 2004 e viene diffuso all’interno del contenitore Mp4 (identificabile dall’estensione m4a).
Inizialmente coperto da royalties, dal 2011 Apple lo ha liberato e lasciato pienamente disponibile anche a terzi.
La compressione senza perdita di qualità avviene mediante un algoritmo a predizione lineare, molto simile a quanto usato nel FLAC (cfr dopo).
Altra caratteristica che rende unico questo formato è la sua asimmetria: a una grande potenza di calcolo per effettuare la compressione corrisponde una minima potenza di calcolo per decompressione (e quindi per il play).
Anche qui arrivano a 384 kHz, a 16, 24 o 32 bit, solo in CBR, stereo o multicanale, col pieno supporto ai metatag.
FLAC
Gli audiofili dovrebbero avere appesa in cameretta la foto di Josh Coalson, che nel 2000 ha reso pubblico il formato FLAC, di fatto il più usato in hi-fi.
Formato da sempre libero e a codice aperto, è supportato dalla stragrande maggioranza dei player hardware e software (almeno in ambito audiophile).
Usa un algoritmo simile a quello dell’ALAC (vedi sopra) e che fa risparmiare mediamente il 40% di spazio senza far perdere di qualità.
Come se non bastasse, in fase di codifica può essere scelto il livello di compressione che – ovviamente – più sarà alto e più impegnerà risorse del player e meno peserà il file.
In linea puramente teorica, la frequenza di campionamento può arrivare a 655,35 kHz (ma nella stragrande maggioranza dei casi si ferma a 192 kHz), i bit sono – di solito – 16, 24 o 32, solo in CBR, stereo o multicanale e col pieno supporto ai metatag.
Dolby TrueHD
Il formato Dolby TrueHD si basa sull’algoritmo di compressione Meridian Lossless Packing (MLP) e i metadati contengono informazioni su come dividere il suono sui vari canali.
Sviluppato dai laboratori Dolby espressamente per il formato Blue-Ray, arriva a gestire fino a 16 canali campionati a 24bit e 192 kHz, anche se assai raramente troviamo sui dischi ottici con più di 7.1 canali.
Inoltre, i 24bit e 192 kHz sono disponibili solo per le codifiche a 5.1, mentre scendiamo a 96kHz a 7.1.
In ogni caso l’audio è Variable Bit Rate (VBR).
DTS-HD Master Audio
È il diretto competitor del Dolby TrueHD ed è nato nel 2010.
Il DTS-HD Master Audio è strettamente derivato dal DTS Coherent Acoustics (a cui in pratica s’aggiunge in 3 passaggi).
Anche qui siamo alle prese con un flusso fino a 7.1 canali (anche se in teoria non ha alcun limite in questo senso), a 24bit e 192 kHz che scendono a 96 kHz se sopra il 5.1. Rispetto al rivale, ha un bit rate massimo ben più alto (25.088 kbit/s contro 18.432).
I Formati Audio Compresso Lossy
I formati di audio compresso con perdita di qualità sono parecchi, ma i più diffusi sono 5.
Mp3
L’Mp3 è probabilmente il formato di audio digitale più diffuso e il suo sviluppo è iniziato nel lontano 1987. Dalla sua prima rozza versione ha fatto molti passi in avanti.
La compressione avviene soprattutto a livello di frequenze, eliminando i suoni superflui (sigh), sempre a 16 bit (in realtà se ne usano un numero variabile fra 2 e 15) con scarto dei bit ridondanti e con un flusso dati a 128 Kbit/s, poi fortunatamente alzato anche a 256 e a 320.
È un formato solo stereo, col pieno supporto ai metatag, sia CBR e sia VBR.
AAC
AAC è l’acronimo di Advanced Audio Codec, nato nel 1997 come evoluzione/superamento del formato Mp3 e adottato sin da subito da Apple.
Mediamente ha una qualità più elevate rispetto all’Mp3, dato che l’algoritmo alla base (MDCT) lavora più sui bit ridondanti e meno sul taglio delle frequenze.
I canali gestiti arrivano a 48, a 16 bit e 96 kHz, solo VBR e col pieno supporto ai metatag.
Vorbis
Più propriamente Ogg Vorbis, è un formato rilasciato nel 2000 e probabilmente è uno degli algoritmi maggiormente distruttivi in circolazione.
In pratica, va a lavorare sulla qualità dei suoni elaborati.
È un formato talmente mortificante dell’esperienza d’ascolto che preferisco fermarmi qui.
WMA
WMA è l’acronimo di Windows Media Audio, rilasciato nel 1999 dell’azienda di Bill Gates come concorrente dell’Mp3.
In linea teorica, si basa su un inedito algoritmo psicoacustico che individua le frequenze da eliminare. Come l’Ogg Vorbis, si basa Sul Modified Discrete Cosine Transform (MDCT) e funziona solo in stereofonia fino 48 kHz e in VBR.
Col tempo hanno sviluppato alcune migliorie, diffuse come varianti del formato WMA, ma il successo è stato pressoché nullo, dato che soprattutto all’inizio il formato ha fornito esperienze d’ascolto davvero pessime.
MQA
E qui già lo so che molti di voi storceranno il naso. Però… ebbene… Sì, il Master Quality Authenticated è un formato lossy!
Si tratta di un formato lanciato da Meridian nel 2014 e pensato espressamente per lo streaming (abbracciato da Tidal e che necessita di DAC che lo supportino espressamente).
È uno dei pochissimi formati disponibili solo su licenza e riduce, tagliandole, le frequenze più alte.
Il formato MQA in pratica si traduce in 2 flussi di dati (alcuni dei quali inseriti nei metatag), a loro volta inseriti all’interno di FLAC e di ALAC.
Sul formato MQA c’è una profonda diatriba in atto, dato che Meridian lo ritiene un formato lossless, mentre da più parti è stato dimostrato essere lossy (cioè con perdita di qualità), come recentemente anche qui: https://audiophilestyle.com/forums/topic/62527-testing-mqa-is-it-worse-than-flac/.
Conclusioni
Pur senza soffermarci sui codec di audio ambientale come il Dolby Atmos (qui la nostra guida), Dolby Digital, DTS e DTS:X, che ci porterebbero troppo lontano, abbiamo visto che tra i formati audio digitali ce n’è davvero per tutti i gusti.
Difficile trovare un vincitore assoluto, anche e soprattutto per l’annosa domanda (o più di una) che andrebbe sempre posta a monte: come è stato registrato il master? In analogico? In digitale? In che formato? Ha senso riversare in DSD un materiale musicale inizialmente registrato in PCM? (per inciso, di master in DSD ne esistono poche centinaia).
Insomma, ci sono vantaggi e svantaggi in un po’ tutti i formati (WMA e Vorbis escusi, che hanno solo svantaggi), dalla portabilità dell’Mp3 alla qualità e facilità d’uso dei FLAC, dalla (presunta) dolcezza dei DSD alla maggiore qualità (a parità di portabilità) dell’AAC.
Quelle che comandano dovranno essere sempre e solo le vostre orecchie, senza dimenticare il fine ultimo: godersi la buona musica.