Le DolbyE

Créé pour transporter jusqu’à 8 canaux sur 2 pistes numériques PCM, le DolbyE a permis l’avènement du son multicanal à la télévision. Explications…

par Matthieu Parmentier – France Télévisions Innovations&Développements


Structure

Le DolbyE est un codec audio qui permet le transport de 6 à 8 sons dans l’emplacement d’une paire stéréo AES/EBU non compressée.

En 16 bits/48 kHz, la paire stéréo DolbyE transporte jusqu’à 6 sons mono 16 bits.

En 20 bits/48 kHz, la paire stéréo DolbyE transporte jusqu’à 8 sons mono 16 bits.

En 24 bits/48 kHz, la paire stéréo DolbyE transporte jusqu’à 8 sons mono 20 bits.

Le flux DolbyE est stéréo (les deux canaux sont liés et indécodables séparément) et discontinu de type Burst. Le flux est forcément référencé sur une cadence vidéo. A 25 images/seconde, le flux est organisé en plusieurs trames de 40 ms. Chaque trame est constituée d’un paquet de données précédé et suivi de silence, ce qui vaut au DolbyE son caractère discontinu.

Sa structure permet au DolbyE d’être intégré au workflow audiovisuel. En référençant chaque trame sur la trame vidéo correspondante, image et son peuvent être traités conjointement sans risque de destruction du flux DolbyE, lors d’un point de montage ou d’une commutation par exemple. Pour ce faire, la synchronisation des flux audio/vidéo doit rigoureusement placer le point de commutation/montage (lignes rouges ci-dessus) dans le silence du DolbyE, autrement le paquet de données audio sera rompu et la trame DolbyE réputée erronée ; il en résultera au mieux un silence audible de 40 ms, voire un bruit rose (pschitt !) caractéristique.

 

En vidéo SD (625 lignes à 25 fps), l’emplacement idéal du début du paquet de données audio correspond à la ligne 12 du signal vidéo (+/- 1 ligne). En HD (1125 lignes à 25 fps), l’emplacement idéal du début de paquet de données audio correspond à la ligne 20 du signal vidéo (+/- 2 lignes).

 

Contenus

Les paquets de données audio contiennent les 6 à 8 pistes monophoniques distinctes organisées sous forme de programmes, mono, stéréo, 5.1…

Chaque programme comporte un jeu de métadonnées – ou metadata –. Il s’agit d’une vingtaine de champs identifiés accompagnés de leurs valeurs (texte libre, nombre ou valeur choisie dans une liste donnée). Ces métadonnées permettent de décrire les caractéristiques audio du programme en question. Elles peuvent être utilisées au décodage pour automatiser le traitement du signal.

 

Métadonnées (appliquées à la diffusion audio en TV)

Dans le cas d’un programme mono ou stéréo, les métadonnées les plus importantes sont le Dialog Level et les Dynamic Range Control Line Mode et RF Mode

Dialog Level (= Loudness)

Cette valeur est sensée refléter l’énergie moyenne perçue par le téléspectateur en LKFS (niveau d’énergie pondéré par les caractéristiques de perception humaine). Cette valeur logarithmique est exprimée en décibels sur l’échelle Full Scale. On parle alors de loudness du programme.

Dolby a toujours considéré que l’intelligibilité des dialogues guidait le téléspectateur lors de l’ajustement de son volume d’écoute. Si cela se vérifie dans 80% des cas, certains programmes échappent à cette règle (documentaires animaliers, films d’action, émissions musicales…). C’est pourquoi Dolby nomme cette métadonnée Dialog Level et non Loudness.

Pour correctement renseigner cette métadonnée, il convient de mesurer le loudness du programme sur l’intégralité de sa durée ou sur les seuls passages dialogués en fonction du contenu éditorial.

Applications

La métadonnée de Dialog Level permet aux diffuseurs d’aligner les programmes entre eux afin de lisser les niveaux ressentis par le téléspectateur lors d’une coupure publicitaire ou d’un zapping entre chaînes. La valeur la plus basse de cette métadonnée est de -31 LKFS. Elle correspond à une absence d’atténuation. A des fins d’homogénéité un programme mesuré à -21 LKFS sera alors atténué de 10 dB.

Cette métadonnée sert également à ajuster les éventuels traitements dynamiques du signal (DRC, voir ci-dessous). Lorsqu’ils sont enclenchés ces traitements doivent épargner  prioritairement les dialogues et par extension les éléments utiles à la compréhension du programme. Cette valeur de Dialog Level permet de centrer l’action de ces traitements dynamiques.

Erreurs à ne pas commettre

Si la valeur de Dialog Level est trop élevée ou trop faible, le lissage des programmes en diffusion ne fonctionnera pas. Plus grave, les éventuels traitements dynamiques (DRC, voir ci-dessous) seront mal centrés et ne respecteront notamment plus les dialogues. Il est alors fréquent de retrouver des dialogues écrasés sous l’ambiance, ou au contraire leurs niveaux hachés par la compression (effet de pompage).

Dynamic Range Control (DRC)

Deux valeurs de DRC sont renseignées dans les métadonnées. Le DRC Line Mode explicite la courbe de traitement dynamique que le récepteur téléspectateur devra initier si un programme 5.1 est écouté en stéréo au moyen d’un home cinéma (liaison numérique). Le DRC RF mode explicite la courbe de traitement dynamique que le récepteur téléspectateur devra initier si un programme est écouté au moyen d’un haut-parleur de télévision, d’un casque ou assimilé (liaison analogique).

5 courbes de DRC ont été standardisées par Dolby et sont sélectionnables indifféremment en Line Mode et/ou en RF mode. En RF mode cependant, le facteur de compression du signal de chacune des courbes est multiplié par 2 et le gain général haussé de 11 dB.

Applications

Les DRC sont renseignés et leur application vérifiée par le mixeur d’un programme afin d’anticiper leur mise en œuvre dans les récepteurs des téléspectateurs.

Le Line Mode correspond globalement à la réduction de dynamique mise en place lors de l’écoute stéréo d’un programme 5.1. Cette réduction est nécessaire, l’énergie sonore de 6 canaux se retrouvant reproduite sur 2.

Le RF mode correspond à la réduction de dynamique la plus drastique. Elle permet notamment de rehausser le niveau moyen de 11 dB pour améliorer le rapport signal/bruit du programme sur les chaînes d’écoute analogique et garantir l’intelligibilité nécessaire dans des conditions d’écoute difficiles (lieux bruyants, casques de walkman…). Cette rehausse permet aussi aux codecs Dolby d’être ressentis aussi « forts » que les codecs MPEG utilisés en diffusion par les chaînes de télévision de la TNT SD en France.

Enfin le RF mode est enclenché par la fonction « midnight mode » proposée par Dolby sur ses décodeurs (home cinéma, lecteurs DVD ou Blu-Ray Disc). La réduction de dynamique maximale est alors appliquée, les nuances de niveaux se retrouvent lissées, ce mode permet d’écouter un programme à très faible volume.

Erreurs à ne pas commettre

5 courbes de DRC sont soumises au choix du mixeur. Leur action est centrée en fonction de la valeur de la métadonnée de Dialog Level. Leur choix est déterminant.

L’une de ces 5 courbes : « Speech », correspond aux stricts programmes dialogués, et produit des effets désastreux sur les ambiances ou la musique, elle reste très peu utilisée.

Deux autres courbes : « Film Standard » et « Film Light » possèdent des caractéristiques plus universelles et restent majoritairement employées. « Film Standard » oblige cependant le mixeur à un formatage précis de son programme, sous peine de voir les scènes les plus extrêmes – calmes ou au contraire bruyantes – hachées sous l’action de la compression dynamique. « Film Light », plus tolérante, reste la courbe de référence en France, associée à un Dialog Level compris entre -23 et -27 LKFS.

Les deux dernières courbes : « Music Standard » et « Music Light » correspondent aux programmes essentiellement musicaux, afin de déporter l’action des fréquences basses vers les canaux large bande au détriment du caisson de graves. Là aussi l’action des traitements dynamiques peut facilement détruire les équilibres d’un mixage, a fortiori musical, et nécessite une bonne anticipation.

Autres métadonnées

Une vingtaine d’autres métadonnées explicitent différentes actions qui peuvent être menées dans un décodeur Dolby. Elles ne sont pas mentionnées dans ce document tant leur application impacte moins la qualité de restitution.

Les métadonnées de downmix imposent notamment les process de mixage nécessaires à la réduction stéréo des programmes 5.1. La métadonnée « Surround Mode » indique si le mixage stéréo est  préalablement encodé en Dolby Prologic et peut être décodé ainsi. La métadonnée « Program Type » indique si le programme décodé peut être écouté directement ou doit être mixé avec un autre, etc.

Partagez cet article

Leave A Reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *