Recommandations pour l'enregistrement en haute résolution dans la production musicale

Dernière mise à jour : 8 avr. 2020

Bonjour à tous !

A quelle fréquence d’échantillonnage devons-nous enregistrer nos projets musicaux pour les sortir en haute résolution (Hi-Res Audio) ? Voici quelques recommandations de l'Académie des Arts et des Sciences de l'Enregistrement des Etats-Unis (NARAS / Recording Academy / Grammy Awards) que j'ai traduites pour vous, en y ajoutant mon expérience et des notes personnelles.

STUDIO NOBILIS - Recommandations pour l'enregistrement en haute résolution dans la production musicale - NARAS - GRAMMY AWARD - Dominique de Witte

De nos jours, la qualité audio est importante pour les consommateurs de musique et les utilisateurs tendent à retrouver une expérience d'écoute reflétant ce que les artistes et ingénieurs du son ont voulu retranscrire en studio. En tant que producteurs de musique, nous nous devons de porter l'enregistrement, le mixage et le mastering vers l'excellence.

Le terme "Haute Résolution Audio" est défini par la fréquence d’échantillonnage (en Hertz), la résolution (en bit), et le format du fichier (PCM / DSD). Par définition, la haute résolution audio est un fichier audio "sans perte", meilleur que la qualité d'un CD, avec une fréquence d’échantillonnage et une résolution supérieure.

Alors que les spécifications du format "Red Book" pour une qualité CD requièrent une fréquence d'échantillonnage de 44.1 kHz et une résolution de 16-bit PCM, le format minimum pour être considéré en haute résolution est de 48 kHz/20-bit PCM. Cependant, il est au minimum recommandé d'enregistrer un projet en 48 kHz/24-bit PCM. Les ordinateurs modernes sont capables d’enregistrer et de lire de larges sessions avec de nombreuses pistes contenant un nombre substantiel de plugins.

Le comité NARAS a conclu que l'enregistrement, le mixage et le mastering à la résolution de 96 kHz/24-bit PCM ou 96 kHz/32-bit à virgule flottante PCM est préféré et fourni une véritable haute résolution en imposant une charge inférieure sur le processeur d'un ordinateur et un nombre plus élevée de pistes enregistrées, qu'un enregistrement en 192 kHz/24-bit PCM et qu'en 192 kHz/32-bit à virgule flottante PCM ou plus élevé encore.

Il y a deux formats communs pour enregistrer, mixer et masteriser de l'audio en haute résolution : Le Pulse Code Modulation (PCM) et le Direct Stream Digital (DSD).

Formats pour enregistrer, mixer et masteriser de l'audio en haute résolution - Dominique de Witte - STUDIO NOBILIS

Le théorème de Nyquist-Shannon nous indique qu'un signal analogique doit être échantillonné à au moins deux fois la plus haute fréquence le constituant si l'on veut le convertir en un signal numérique correspondant. Tel qu'indiqué dans le tableau suivant, par exemple, la fréquence maximale reproductible par un CD audio (qui est en 44.1 kHz) est de 22.05 kHz.

Limite de Nyquist et fréquence d'échantillonnage reproduite - Dominique de Witte - STUDIO NOBILIS

Il est certain que la qualité d'enregistrement en haute résolution dépend de la source. Un piano désaccordé et qui sonne mal, continuera d'être désaccordé et de mal sonner, et ce, même si il est enregistré en qualité 192 kHz/24-bit PCM. Tout comme une vieille cassette audio pleine de souffle et usée ne verra pas son intégrité revenir subitement. En d'autres termes "shit in, shit out" (de la merde à l'entrée, de la merde à la sortie). De bons musiciens faisant une bonne performance est aussi un prérequis à la finalité d'un bon enregistrement.

Soyez aussi conscients que plus la qualité d'enregistrement est élevée (échantillonnage) et plus ce sera contraignant pour votre système. Il vous faudra peut-être mettre à jour votre ordinateur en y ajoutant plus de RAM ou en changeant le CPU par exemple. Voir même, changer pour une machine plus récente, car tous les composants sont importants, même le débit de transmission des données de la carte mère, les disques durs, les SSD, etc... Un ordinateur dédié à l'enregistrement avec le moins possible de logiciels ou d'activités en taches de fond est aussi une bonne aide pour économiser son CPU. Des cartes DSP sont aussi à envisager si besoin.

Par exemple, la taille d'un fichier WAV stéréo d'une minute échantillonné à 44,1kHz/16-bit PCM est de 10.58 Mo et une minute enregistrée en 96 kHz/24-bit PCM est de 34,56 Mo.

Pour enregistrer et faire des "re-re" (overdubs), il faut réduire la taille du buffer (la latence) de votre logiciel (DAW) ou interface au minimum, pour synchroniser les pistes au plus près de la piste guide. Un buffer de 32 ou 64 samples est optimal pour l'enregistrement. Pour mixer et utiliser la totalité de la puissance de votre ordinateur il faut accroître la taille du buffer lors des sessions de mixages intensives comprenant de nombreux plugins. Un buffer de 1024, 2048 ou plus est donc recommandé.

Comparée à une résolution verticale de 16-bit contenant 65 536 paliers, une résolution verticale de 24-bit est représentée par 16 777 216 paliers ! L’accroissement en bits de 16 à 24 accroît la grille où la forme d'onde analogique peut être représentée dans le monde numérique avec précision. La plage dynamique (la distance en décibels du son le plus faible au son le plus fort) s’accroît à chaque bit ajouté. Un enregistrement avec un bruit de fond faible (noise floor), a obligatoirement une plage dynamique accrue. Une cassette stéréo analogique a une plage dynamique moins performante et un bruit de fond plus élevée qu'un enregistrement en qualité CD. Un enregistrement en qualité CD a une plage dynamique moins performante et un bruit de fond plus élevé qu'un enregistrement en 96 kHz/24-bit PCM. Etc...

Graphique des résolutions verticale et horizontale en BIT - Dominique de Witte - STUDIO NOBILIS

Pour calculer la plage dynamique de n'importe quelle résolution il faut la multiplier par 6,02 fois le nombre de bits. Par exemple, un enregistrement en 16-bit a une plage dynamique de 6,02 x 16 = 96 dB et un enregistrement en 24-bit est à 6,02 x 24 = 144,5 dB ! Par comparaison, le meilleur enregistrement analogique avec une réduction du bruit de fond Dolby SR, atteint une plage dynamique d'environ 100 dB (équivalent à un enregistrement numérique en 17-bit). Quant à elle, une cassette audio analogique fournit une plage dynamique comprise entre 50 et 56 dB (équivalent à un enregistrement de 8 à 10 bits).

Pour ce qui est du dither, il ne faut pas l'utiliser lors de l'enregistrement. Il est préférable d'attendre l'étape de mastering pour l'appliquer avec de meilleurs résultats. Par contre, n'oubliez pas d’appliquer du dither lors d'une réduction de 32-bit à 24-bit, ou de 24-bit à 16-bit lors de l'aplatissement (bounce) des pistes dans votre logiciel pendant une session de production.

- PCM = Pulse Code Modulation.

- DSD = Direct Stream Digital.

- NARAS = National Academy of Recording Arts and Sciences.

- CPU = Central Processing Unit / Processeur.

- DSP = Digital Signal Processor.

- dB = Décibels.

- SSD = Solid State Drive.

Pour ne pas manquer le prochain article de blog, inscrivez-vous à la newsletter !

Dominique de Witte, écuyer - Ingénieur du son - STUDIO NOBILIS.