Entendendo o Dither ou Dithering no áudio

Eu definitivamente não sou um cara técnico. Defendo com unhas e dentes a premissa de que verdade, vontade e persistência são a chave para o sucesso, o que quer que a palavra “sucesso” possa significar para você.
Digo com uma boa frequência: “Não se preocupe apenas com bits, gráficos, etc. jamais se esqueça de que música é, antes de qualquer outra coisa, OUVIDO.”
No meu livro (O Poder da Mixagem) falo algumas vezes “Se soa bom, está bom”.

Enfim, esqueça a matemática do áudio. Esqueça a geometria do áudio e foque em fazer um som verdadeiro e com paixão.

Por outro lado, eu sei que há aqueles mais ponderados, que sabem administrar bem as informações. Então, leia as informações a seguir, guarde o que lhe for relevante e jogue fora o resto. Boa leitura!

DITHERING

Para entendermos o dithering, precisamos antes entender algumas outras questões.

Vamos começar explicando pra que serve um dither e não o que é ou como funciona o dither.

O uso do dither é um recurso para:

1- Minimizar os erros de quantização que produzem ruídos indesejados.

2- Na redução da taxa de bits (passagem de 24 para 16, por exemplo) fazer com que os níveis mais baixos sejam também ouvidos em 16 bits.

Para entendermos então o funcionamento do dither, vamos entender primeiro o que é o tal erro de quantização falado:

Quando é feita a amostragem do sinal analógico no ambiente digital, o valor medido é aproximado (quantizado) para o patamar mais próximo na escala de amplitude gerando pequenos desvios em relação ao valor do sinal original.

dither - amostragem de sinal

Esses desvios, chamados erros de quantização, modificam o sinal original introduzindo ruído nas frequências mais altas. Pode-se minimizar os erros de quantização com o aumento da resolução em bits ou com a aplicação de dither.

Para que possamos entender o erro de quantização é preciso entender de onde vem essa escala para a qual acontece a aproximação (que origina o erro) e que está diretamente ligada ao número de bits:

Quando trabalhamos com 16 bits, temos 2 elevado a 16a potência (65.536) níveis de quantização e aproximadamente 96dB de faixa dinâmica (6 x 16).

Esse último, porque para cada bit adicionado temos um ganho de 6dB à faixa dinâmica.

Logo, quando trabalhamos com 24 bits temos 2 elevado a 24a potência (16.777.216) níveis de quantização e, aproximadamente, 144dB (6x 24) de faixa dinâmica.

Então quando trabalhamos com mais bits (no caso de 24) temos muito mais níveis de quantização, fazendo com que se tenha muito menos erros de quantização do que em 16 bits.
Só que o nosso sinal vai ter que ser passado para 16 bits, mais cedo ou mais tarde (na verdade.. beeeem mais tarde).

Veja o gráfico abaixo então:

dither2

 

 

 

 

 

 

 

 

 

 

 

 

 

Quando falamos em relação sinal / ruído (Signal to noise ratio) falamos do nível do ruído em relação ao sinal máximo na faixa dinâmica.

Na tabela acima, observamos que o sinal de ruído numa escala de 16 bits encontra-se em –90dB, logo, você já perde 1 bit do seu sistema.
Você nunca tem todos os bits para a representação da amplitude do sinal.

Se a sua música tem uma média de 78dB com picos em 90dB, na maior parte do tempo o sinal não estará usando toda a faixa dinâmica possível, reduzindo em 1 ou 2 bits o outro extremo da escala. Desta forma, você observa que na melhor das hipóteses o seu sistema estará trabalhando na maior parte do tempo com 13, 14 bits de resolução, e não os 16 como se acha.

Por outro lado, quando aplicamos o dither, ainda conseguimos ter informação sonora abaixo do ruído.

Apesar de quando trabalhamos em 16 bits termos uma faixa dinâmica de 96dB, com a aplicação do Dither conseguimos um ganho de faixa dinâmica para algo em torno de 115dB. Isso se dá por conta do efeito psicoacústico.
Ele é o tal que faz nosso cérebro discernir o som de uma conversa baixa no meio de uma barulheira de uma boate por exemplo. Da mesma forma, nos faz discernir o sinal original do ruído inserido pelo dither e nos faz sentir o sinal original mais alto do que ele realmente é, como no caso da voz. Temos uma impressão de ganho de faixa dinâmica.

Voltando ao dithering:

Dithering é então a adição de ruído aleatório ao sinal para distribuir os erros de quantização e minimizar os efeitos auditivos causados por eles.

Adiciona-se um ruído beeeem baixo (no primeiro bit) que é capaz de “empurrar” o sinal sonoro para os níveis superiores.

Qualquer operação de mudança de ganho (volume, normalize maximize, equalização, etc) e toda conversão digital de uma resolução para uma inferior (ex: 24 para 16bits) exige dithering.
Por outro lado, não se recomenda o uso de dithering a cada alteração de ganho pois isso tornará o som irremediavelmente “velado”, sem brilho (como muitos reclamam por aí).

– Quando se aplica dither sobre dither, você vai tornando o som mais “velado” –

Ao “empurrar” o sinal original, o ruído inserido ocupará uma parte da faixa dinâmica, reduzindo assim a relação sinal ruído (S/N ratio) do sistema.
Em um áudio de 16 bits com dither aplicado temos a redução de sua faixa dinâmica de 96dB para 93dB aproximadamente. Por outro lado, devido ao efeito psicoacústico, temos a sensação de aumento da faixa dinâmica, como foi falado anteriormente.

Para que o dither seja aplicado com sucesso, é preciso conhecer os tipos de dithering existentes.

Existem o triangular, o triangular shaping (muito agudo, acima de 22Khz), o rectangular e o noise shaping (dither filtrado – equalizado em determinadas frequências – veja abaixo).

A melhor opção costuma ser o Noise shaping, onde o espectro do dither é re-equalizado movendo o ruído para fora das frequências que o ouvido humano é mais sensível (em torno de 3Khz) e nas frequências mais agudas (entre 10 e 22Khz).

Só utilize o Noise Shaping se você não for aplicar mais dither.

Outra dica: Só converta para 16 bits no final da masterização. Deve ser a última coisa a ser feita em seu áudio.

– Se você acha que vai passar o sinal por outros plug-ins com dither escolha o triangular.

– Escolha plug-ins que trabalhem acima da resolução que você trabalha.
Um DSP de 24bits processando sinais de 24 bits resulta num “noise floor” mais alto do que o do conversor.
Assim, se os DSPs trabalharem num bit rate maior, o erro de quantização fica abaixo do noise-floor do conversor.

– Grave ALTO. Procure usar a faixa dinâmica que vai de –6dB a 0dB. Assim, você estará usando mais bits de definição na hora da conversão, facilitando as coisas para futuros processamentos (equalizações e cia).

– É bom lembrar que o sinal não deve passar nunca de 0dB (no Sonar e em outros programas/consoles, quando ascende a luz vermelha do VU). Você estará danificando o sinal e terá um resultado pior do que qualquer erro de quantização que possa ocorrer.
Isso é o que chamamos de clipping (a expressão “o sinal clipou” é muito comum aqui no Brasil).
Veja o gráfico para entender o que acontece com a onda quando o sinal ultrapassa o limite máximo de representação dos bits.

dither3

É bom ter todos esses conhecimentos mas jamais se limite a equipamento.

Pense que a arte é muito maior que zeros e uns. Tecnologia não é e nunca foi barreira para se fazer música de qualidade. Uma boa composição, será boa SEMPRE.

Até a próxima matéria!

Daniel Farjoun
www.danielfarjoun.com
www.musilab.com.br

 

Colaboração: Fernando Iazzetta