Gentili utenti vi informiamo che il team di MyTech si è spostato sul canale Hitech & Scienza di Panorama.it

      non hai uno username? regìstrati   /   recupera la password

apple / google / microsoft
unmapped

Comprimere l’audio

Scritto da Nicola Martello

Anche se la capacità media dei dischi rigidi in commercio cresce senza sosta, i dati in gioco quando si parla di audio digitale rendono praticamente obbligatorio il ricorso alla compressione. Basta un semplice calcolo per rendersene conto: il flusso sonoro stereo contenuto in un Cd musicale (a 16 bit e campionato con una frequenza di 44,1 kHz) ha un bitrate di 10,34 MByte al minuto. Per memorizzare due sole ore di musica serve quindi più di un GByte, una quantità di dati che oggi forse non fa più grande impressione ma che solo qualche anno fa avrebbe saturato qualunque disco rigido.

Per rendere i file di audio digitale più “trattabili” e per facilitarne la trasmissione via Internet sono stati sviluppati diversi algoritmi di compressione, suddivisibili in due categorie. La prima probabilmente sconosciuta ai più, comprende gli algoritmi che riducono la dimensione dei file senza perdere alcuna informazione (in inglese sono chiamati lossless, senza perdita). La seconda invece è costituita dagli algoritmi a perdita (in inglese lossy) che per ottenere una compressione più spinta scartano parte del segnale originale, naturalmente tentando di rendere per quanto possibile inavvertibile l’intervento. Questi algoritmi vengono implementati in programmi chiamati codec (COMpressor/DECompressor), che effettuano (di solito per conto di un altro programma, come uno dei media player recensiti) le operazioni di compressione del flusso di dati originale e la successiva decompressione necessaria per il riascolto.

Il codec audio in assoluto più diffuso è l’mp3, ma ne esistono altri ognuno con i suoi punti di forza e di debolezza. In questo riquadro vi spieghiamo le basi del loro funzionamento e vi presentiamo i più importanti.

I codec lossless

I codec lossless sono molto utili quando è necessario preservare l’integrità della musica, come nel caso di registrazioni importanti, di archivi storici e di clip che devono essere elaborati a più riprese. Il loro difetto è che offrono un rapporto di compressione contenuto, con riduzioni che variano tra il 20 e il 60% a seconda della complessità del brano musicale. Indicativamente, con un algoritmo lossless la musica classica si comprime più facilmente dei generi moderni, come il rock. Tra i codec più interessanti di questa categoria citiamo il gratuito Flac (Free Lossless Audio Codec, http://flac.sourceforge.net), Lpac (Lossless Predictive Audio Compression, www.nue.tu-berlin.de/wer/liebchen/lpac.html) e Mlp (Meridian Lossless Packing, www.meridian-audio.com/m_mlp_in.html) usato nei Dvd Audio. A essi si affiancano WaveZip (www.gadgetlabs.com/wavezip.com), Shorten (www.softsound.com/shorten.html) e WavPack (www.wavpack.com).

Tutti impiegano tecniche di riduzione dei bit originali ridondanti, basate su varianti del codice di Huffman e ottimizzate per gestire i flussi sonori. In effetti, un sistema piuttosto rozzo di compressione lossless può essere realizzato anche con l’impiego di WinZip o programmi equivalenti, ma la compressione che si ottiene - di solito mai superiore al 15% - è peggiore rispetto a quella raggiungibile con gli strumenti elencati in precedenza. I codec lossy

Chi desidera invece ottenere compressioni molto elevate deve rivolgersi agli algoritmi lossy, il più celebre dei quali è sicuramente Mp3. Il mercato offre infatti numerosi software mutuamente incompatibili, ciascuno sviluppato in base a tecniche di decimazione simili ma basate su coefficienti e schematizzazioni sonore differenti. In ogni caso tutti questi algoritmi si basano su studi comuni, che sono cominciati con la definizione delle caratteristiche psico-fisiche del sistema uditivo umano. Analizzando la struttura dell’organo di Corti, l’organo dell’orecchio preposto alla conversione delle onde sonore in impulsi nervosi tramite migliaia di piccole ciglia, si è visto che questi filamenti sono ammassati in numerosi gruppi, ciascuno dedicato a un particolare intervallo di frequenze sonore.

Questa suddivisione permette di schematizzare il campo sonoro in più bande, il cui numero e ampiezza variano a seconda degli studi effettuati. La suddivisione in intervalli consente di agire in maniera differenziata in ogni banda, al fine di ottenere compressioni più spinte nelle regioni dove le informazioni sonore sono meno importanti. In base alle caratteristiche dell’udito umano è infatti possibile stabilire a priori che la porzione dello spettro audio superiore ai 20.000 Hz è tranquillamente eliminabile, per il fatto che la maggior parte delle persone, soprattutto quelle non più giovani, sono solitamente incapaci di percepire le frequenze superiori ai 15 kHz.

Questo è particolarmente vero quando gli acuti sono mischiati con suoni di tonalità inferiore, come accade normalmente nei brani musicali. Si è visto infatti che il sistema uditivo umano è incapace di percepire quei suoni che hanno un’intensità inferiore al rumore di fondo circostante. La “soglia del rumore”, ovvero la soglia sotto la quale un suono rischia di essere oscurato dal rumore, non è fissa ma varia in funzione sia della frequenza (è piuttosto alta per le note gravi e acute, mentre scende nell’intervallo tra i 2,5 e i 5 kHz, dove è massima la sensibilità dell’udito umano) sia del volume d’ascolto. Un’altra possibilità per ridurre le dimensioni di un flusso sonoro consiste nell’eliminare le differenze di fase tra i due canali stereo o addirittura fonderli in un’unica traccia, almeno in alcuni intervalli di frequenza - tipicamente sotto i 200 Hz e sopra i 10 kHz.

Un importante contributo alla compressione lossy arriva dal fenomeno chiamato mascheramento, ovvero l’impossibilità di udire i suoni più deboli che coincidono o che sono immediatamente adiacenti a un impulso sonoro molto forte. Il mascheramento si presenta infatti anche con i suoni non perfettamente coincidenti nella scala temporale. Gli studi effettuati hanno dimostrato che la maggior parte delle persone non è in grado di avvertire un suono debole che precede di 2 millisecondi o che segue di 15 millisecondi un suono più forte. Il fenomeno è facilmente spiegabile se consideriamo per esempio un improvviso colpo di tamburo. Quando l’impulso audio giunge al timpano, quest’ultimo si mette a vibrare di conseguenza e non è in grado di reagire ai suoni più deboli immediatamente successivi, distanti solo pochi millisecondi. Le deboli vibrazioni che precedono di 2 millisecondi il colpo, invece, sono così a ridosso dell’impulso principale che il cervello non ha il tempo di analizzarle. Questo perché lo stimolo nervoso generato dal suono del tamburo è così forte da sommergere gli impulsi elettrici che lo precedono a breve distanza.

Aac, Advanced Audio Coding
www.aac-audio.com

Questo formato è nato in seguito agli studi compiuti all’interno del gruppo Mpeg, a cui hanno partecipato l’istituto Fraunhofer IIS-A di Monaco e le società Dolby, AT&T, Sony e Nokia. L’obiettivo principale di questi lavori era l’individuazione di algoritmi adatti alla compressione audio per i terminali wireless 3G. I risultati ottenuti sono stati di livello tale da estenderne le applicazioni, tanto che Apple ha implementato l’Aac in QuickTime 6, in iTunes 4 e in iPod. Il sistema Aac supporta fino a 48 canali indipendenti, con una larghezza di banda che va da 20 Hz a 20 kHz; la massima frequenza di campionamento impiegabile arriva a 96 kHz.

Atrac, Atrac3, Adaptive Transform Acoustic Coding
www.minidisc.org

Atrac e la versione aggiornata Atrac3 sono stati sviluppati da Sony, che aveva bisogno di un sistema di compressione per consentire al proprio supporto ottico miniDisc di contenere 76 minuti di suoni stereo, la stessa capacità del Cd musicale. Il compressore lavora quindi unicamente con flussi audio stereofonici, quantizzati con una profondità di 16 bit e con una frequenza di campionamento di 44,1 kHz. Il suono è suddiviso in tre bande, a loro volta ulteriormente frammentate e quantizzate in funzione della sensibilità dell’udito umano e dei noti fenomeni di mascheramento acustico. Atrac è pensato per ridurre di cinque volte la dimensione dei file originali, a prescindere dal tipo di musica. L’evoluzione Atrac3 aumenta ulteriormente la compressione, al fine di incrementare la capacità dei miniDisc, portando i minuti registrati a 160 e a 320.

Mp3
www.cselt.it/mpeg

È probabilmente il formato più conosciuto ed è da tempo diventato sinonimo di musica compressa. Gli studi che hanno portato allo sviluppo dell’Mp3 sono iniziati nel 1987, con l’analisi delle possibili codifiche audio di tipo percettivo. Queste ricerche hanno avuto luogo presso l’istituto Fraunhofer IIS-A di Monaco e, in cooperazione con l’università di Erlangen, hanno portato alla standardizzazione del formato Iso Mpeg Audio Layer-3 (IS 11172-3 e IS 13818-3), conosciuto al grande pubblico con la sigla Mp3. Il software sviluppato esegue una compressione che avviene nel dominio delle frequenze, individuando ed eliminando i suoni superflui grazie all’impiego di una modellazione del rumore su base percettiva. Lo spettro sonoro è suddiviso in 576 intervalli, ciascuno trattato separatamente; la risoluzione di campionamento è ridotta da 16 bit a un valore variabile tra 2 e 15 bit, a seconda delle frequenze prese in esame. Inoltre, il codice sfrutta anche l’algoritmo di Huffman per evidenziare e per scartare i bit ridondanti nel flusso dei dati sonori. Il processo è tale da fornire, con un flusso dati di 128 kbit al secondo, una qualità sonora molto elevata, che si avvicina a quella di un Cd audio. A 192 kbit al secondo, pochi ascoltatori riescono a percepire la differenza con un Cd soprattutto nel caso di musica moderna.

Mp3 Pro
www.mp3prozone.com

Il formato Mp3 Pro rappresenta l’evoluzione dell’Mp3 ed è stato annunciato nel 2001 dalla società francese Thomson e dalla sua associata svedese Coding Technologies. Secondo le dichiarazioni, il nuovo algoritmo è in grado di offrire la stessa qualità d’ascolto dell’Mp3 ma con un bit rate dimezzato; in altre parole, un file Mp3 Pro a 64 kbit al secondo offre un livello qualitativo pari a un archivio Mp3 tradizionale a 128 kbit al secondo. Questo formato garantisce la compatibilità verso il basso: un lettore Mp3 è in grado di suonare gli archivi Mp3 Pro, ma senza sfruttarne le nuove caratteristiche, fornendo così una qualità d’ascolto identica a quella ottenibile con un clip Mp3 a pari bit rate. L’encoder Mp3 Pro impiega la nuova tecnologia Sbr (Spectral Band Replication), che divide i suoni in due blocchi; la prima parte contiene le basse frequenze ed è codificata in un normale flusso Mp3; nella seconda sezione si trovano le frequenze più elevate, che sono trattate e compresse in una parte del flusso Mp3 normalmente ignorata dai codec tradizionali. La suddivisione dell’audio in due parti permette di far lavorare in maniera ottimale l’algoritmo di codifica, con l’ulteriore vantaggio di garantire la compatibilità con i lettori Mp3.
In fase di ascolto, il nuovo codec legge entrambi i gruppi di dati e li unisce in un solo flusso, in modo da fornire una risposta in frequenza più ampia rispetto ai sistemi che impiegano il vecchio sistema di codifica.

Ogg Vorbis
www.vorbis.com

Gli algoritmi sviluppati per il formato Ogg Vorbis si basano su principi di psicoacustica molto simili a quelli impiegati per l’Mp3, con l’importante differenza che non sono protetti da alcun brevetto. Il codice di sviluppo è infatti aperto a tutti coloro che vogliono contribuire alla sua evoluzione, seguendo un processo di crescita che ha molti punti in comune con la strada percorsa dal sistema operativo Linux. Pure Ogg Vorbis, come l’Mp3, impiega un flusso di dati che può essere costante oppure variabile nel tempo; è interessante notare, però, che, mentre l’Mp3 pone l’accento sul data rate, l’altro algoritmo offre come unica regolazione un parametro che determina la qualità dei suoni compressi. Le altre caratteristiche di Ogg Vorbis sono il supporto di un massimo di 256 canali audio discreti e la capacità di ridurre ulteriormente il bit rate di un file già compresso, senza la perdita di qualità associata alle tradizionali operazioni di una decompressione e di una successiva compattazione più spinta. RealAudio
www.real.com

Lo sviluppo di questo formato è iniziato nel 1995, quando RealNetworks si chiamava ancora Progressive Networks. Lalgoritmo di compressione è nato con l’obiettivo iniziale di permettere lo streaming via Web, per consentire l’avvio della riproduzione prima del completamento del dowload così da ridurre al minimo i tempi di attesa. Il software originale era tarato principalmente per la voce umana, ma in seguito è stato modificato per coprire un più ampio spettro di frequenze. I calcoli necessari per la codifica e per la decodifica sono piuttosto complessi ed è quindi necessario disporre di processori potenti, una caratteristica che oggi è ampiamente soddisfatta ma che ai tempi dell’introduzione di questo formato ha creato più di un problema agli utenti.

TwinVQ
http://sound.splab.ecl.ntt.co.jp/twinvq-e

Questo codec si basa sul metodo di compressione chiamato quantizzazione vettoriale, sviluppato da NTT Human Interface Laboratories in Giappone. TwinVQ, insieme ad Aac, fa parte del protocollo che definisce lo standard Mpeg-4. A differenza degli altri formati, in cui avviene la codifica diretta dei bit del flusso in ingresso, la quantizzazione vettoriale combina i bit in strutture organizzate, chiamate vettori. Questi vettori sono poi confrontati con vettori standard equivalenti, memorizzati in una libreria di base residente in memoria.

A questo punto il sistema seleziona il vettore standard che più si avvicina a quello generato dall’input, e il relativo codice numerico corrispondente è quindi passato al compressore vero e proprio. Il flusso in uscita ha un bit rate costante ed è molto resistente agli errori di trasmissione, una caratteristica importante nel caso di impiego di dispositivi wireless.

Wma
www.microsoft.com/windows/windowsmedia

È il formato di compressione per i segnali audio che Microsoft ha sviluppato in parallelo con Wmv, l’insieme di algoritmi dedicati invece al video di tipo streaming. Anche il codec Wma si basa su sistemi di compressione che applicano un modello psicoacustico per individuare le frequenze che possono essere eliminate senza che l’ascoltatore avverta un netto degrado della musica. Microsoft ha dedicato molte risorse allo studio e allo sviluppo del proprio modello psicoacustico e l’attuale versione del codec produce in effetti file che - a parità di bit rate - nei test di ascolto “suonano” decisamente meglio di brani codificati in Mp3.

Commenti   (Inserisci un commento)

Ancora nessun commento.

Effettua il login