46
Spécial “ Electroacoustique ”
Acoustique
&
Techniques n° 52
Le son 3D dans toutes ses dimensions
et localisables) des composantes d’ambiance (sources
diffuses, lointaines et non localisables, correspondant
notamment à l’effet de salle). Le traitement consiste à
extraire ces composantes et à les redistribuer sur les
canaux du système de reproduction: les sources directes
sont redistribuées sur les trois haut-parleurs frontaux (L, C et
R), tandis que les signaux d’ambiance alimentent les canaux
arrière. Des signaux d’ambiance multicanaux peuvent aussi
être générés par des filtres décorrélateurs qui permettent,
à partir d’un unique signal, d’obtenir des signaux différents
ayant le même contenu spectral mais des distributions
de phase différentes, augmentant ainsi l’impression de
spatialisation [6].
Les techniques de downmix impliquent une perte
d’information spatiale. Le plus souvent, les algorithmes
reposent sur un matriçage de type passif qui ne dépend
pas de la nature des signaux d’entrée. Cependant certaines
techniques sont adaptatives, par exemple dans le but de
préserver l’énergie du signal et d’éviter des annulations
spectrales lors de l’opération de moyennage [7]. Les
techniques de downmix aujourd’hui peu utilisées en dehors
du domaine du codage risquent de susciter un regain
d’intérêt avec l’arrivée de nouveaux formats audio 3D.
Pour les futures technologies de conversion de format,
l’universalité doit être favorisée, c’est-à-dire la faculté des
algorithmes à faire abstraction du système de reproduction.
Ainsi, une approche basée sur un format intermédiaire
découplé du format de restitution est à étudier. Dans le
même sens, développer une approche paramétrique pour
décrire la configuration de haut-parleurs est primordial.
L’adaptation au contenu doit aussi être prise en compte. Il
est à noter que le développement des techniques de upmix
souffre de l’absence de protocole de test subjectif robuste
et reconnu pour évaluer leurs performances [8]. Des tests
d’écoute ont cependant montré que la qualité des systèmes
de upmix est inégale en regard du contenu [8].
Compression des signaux audio multicanal
Depuis l’apparition des systèmes de transmission de signaux
multicanaux par matriçage comme le Dolby Surround dans
les années 80 et plus récemment les Dolby Pro Logic [9], les
techniques de codage du son multicanal se sont largement
développées. Tout d’abord, les codeurs audio traditionnels
ont été étendus à un nombre de canaux supérieur à
deux (normes MPEG mp3 et AAC [10]). En parallèle, des
solutions propriétaires alternatives sont apparues, telles
que DTS et Dolby Digital (ou AC-3) pour le format 5.1 dans
les applications grand public (par exemple pour le DVD
à des débits de 384 kbit/s pour le Dolby Digital et 1.4
Mbit/s pour le DTS). Enfin, des techniques plus évoluées et
complètement dédiées à l’audio 3D sont apparues à partir
de la fin des années 90 avec le
codage paramétrique
permettant de proposer des schémas de codage bas débit
pour des flux stéréophoniques et multicanal de type 5.1.
Ces nouvelles technologies ont été proposées récemment
sous le terme de
codage audio spatial
. Dans le codeur
audio spatial, un downmix (composé habituellement de
un ou deux canaux) est construit à partir du signal audio
original, puis codé par un codeur traditionnel (mp3,
AAC, HE-AAC), et enfin transmis parallèlement avec des
paramètres d’information spatiale. Cette nouvelle approche
du codage audio multicanal permet de transporter ces
signaux à de très faibles débits. Le procédé Binaural Cue
Coding (BCC) est certainement l’un des premiers modèles
de codage multicanal paramétrique proposés [11]. Il
exploite les propriétés de la perception spatiale du son
par l’extraction de paramètres spatiaux liés à la localisation
auditive. Ces paramètres spatiaux définissent les indices de
spatialisation d’une scène sonore multicanale: ICTD pour
les retards entre les canaux, ICLD pour les différences
d’énergie entre canaux, ICC (Inter-Channel Coherence)
pour la corrélation entre les canaux. Ces paramètres sont
estimés par sous-bandes de fréquences avec une résolution
temps/fréquence qui suit les propriétés de la perception.
Ce principe a été appliqué à la stéréophonie au travers
de la norme
Parametric Stereo
[12]. L’application de
cette technique avec un codeur monophonique HE-AAC
permet d’obtenir un encodage stéréophonique à partir de 24
kbit/s. Plus récemment, le groupe ISO/MPEG a normalisé
un format d’encodage multicanal paramétrique dénommé
MPEG Surround [13]. Ce format de codage s’appuie sur des
principes identiques au BCC, avec une mise en application
proche du Parametric Stereo. Associé au HE-AAC, le MPEG
Surround permet d’encoder le format 5.1 à des débits allant
de 48 kbit/s à 160 kbit/s avec de bonnes performances
en termes de qualité. La principale évolution à venir du
codage audio 3D portera certainement sur le codage des
futurs formats audio 3D (notamment HOA).
Vers une nouvelle génération de
contenus audio 3D
Avec les technologies multicanal peut-on vraiment parler de
son 3D ? De ce qui précède il ressort qu’avec les formats
multicanal la spatialisation sonore reste limitée au plan
horizontal en privilégiant la zone frontale. Il convient donc
de faire la distinction entre ces formats et les technologies
audio 3D (au sens complet de la 3D) qui offrent la possibilité
Fig. 3 : Compression des signaux audio multicanal