48
Spécial “ Electroacoustique ”
Acoustique
&
Techniques n° 52
Le son 3D dans toutes ses dimensions
On retiendra des technologies binaurales qu’elles présentent
l’avantage de la légèreté ; en prise de son et en synthèse,
les moyens matériels et logiciels nécessaires sont peu
coûteux, et faciles à déployer. Leur faiblesse réside dans ce
qu’il reste d’humain au cœur de la technologie ; les progrès
à venir s’appuieront donc sur une compréhension toujours
plus fine des mécanismes psychologiques et physiologiques
de la localisation auditive.
Holophonie et WFS
La technologie holophonique, dont le concept WFS
(WaveField Synthesis) est un exemple de mise en œuvre,
est l’équivalent acoustique du procédé holographique [19].
Fondamentalement, elle se base sur le principe de Huygens :
lorsqu’une onde acoustique se propage, chaque front
d’onde peut être vu comme une distribution de sources
secondaires émettant des ondelettes dont la superposition
reconstruit l’onde primaire (Fig. 5). À la prise de son, un
système holophonique utilise un réseau de microphones
pour capter l’amplitude et la phase de l’onde acoustique
sur une surface. À la restitution, les microphones sont
remplacés par des haut-parleurs qui sont alimentés par
les signaux microphoniques et reconstruisent ainsi l’onde
acoustique originale. Le procédé holophonique est très
simple dans son principe et n’implique pas de traitement,
l’essentiel du travail de reconstruction des ondes sonores
étant effectué par des processus «naturels» de propagation
acoustique. La seule difficulté réside dans la mise en œuvre
de réseaux comportant un grand nombre de transducteurs.
Cependant, cette contrainte peut souvent être relâchée si
on se représente le réseau de haut-parleurs comme une
fenêtre ouverte sur la scène sonore. Plus cette fenêtre est
grande, plus l’auditeur est immergé dans la scène sonore.
Ainsi plusieurs déclinaisons du système holophonique sont
disponibles selon le contenu de la scène sonore : rendu 3D
(réseau de transducteurs entourant complètement l’auditeur)
pour restituer des sources dans tout l’espace, rendu 2D
horizontal (réseau restreint au plan horizontal), rendu frontal
(rampe de haut-parleurs devant l’auditeur). La technologie
holophonique a longtemps été un concept théorique qui
n’avait jamais été mis en œuvre. A la fin des années 90,
l’Université Technologique de Delft a proposé le premier
système holophonique avec le concept de WFS [25].
Le principal atout de l’holophonie est la taille de la zone
d’écoute qui n’est plus limitée à un point (sweet point)
comme pour les technologies multicanal, mais s’étend à
tout l’espace compris à l’intérieur des haut-parleurs, ce
qui permet à l’auditeur de se déplacer tout en conservant
une perception stable et naturelle de la scène audio 3D.
L’holophonie est typiquement dédiée à un rendu multi-
auditeurs, comme les salles de cinéma [26]. Récemment,
la technologie WFS a exploré la nouvelle technologie des
haut-parleurs plans de type MAP (Multi Actuator Panel)
inspiré des DML (Distributed Mode Loudspeaker) [27] qui
offrent une opportunité de mettre en œuvre la WFS en
tapissant les murs d’une salle par ces panneaux vibrants.
Des traitements d’égalisation multicanale sont alors
appliqués afin d’optimiser le rendu spatialisé [28]. Dans les
perspectives, une nouvelle approche consistant à coupler
le procédé WFS avec des techniques de contrôle actif
semble prometteuse [29].
HOA (Higher Order Ambisonics)
Dans leur principe et leur mise en œuvre, les technologies
HOA et WFS sont proches. Inventée au début des années 70
par M. Gerzon [30], la technologie Ambisonics a été bâtie
autour d’un
format de représentation intermédiaire
de
la scène sonore : le Format-B. Le principe
d’encodage
spatial
repose sur une captation coïncidente par une
figure omni (composante W) et trois bidirectives (X, Y,
Z) (Fig. 6-b). Le format de représentation qui en résulte
n’est assujetti à aucun dispositif de restitution particulier.
La technologie Ambisonics généralise ainsi les systèmes
coïncidents de captation multicanal puisqu’elle peut
simuler n’importe lequel d’entre eux, par combinaison
des directivités d’encodage associées.
Le
décodage spatial
se définit comme l’opération inverse
de l’encodage spatial dans la mesure où il permet de
reconstituer au centre d’un dispositif de haut-parleurs la
réalité acoustique captée et représentée par le Format-B.
Il garantit donc la fidélité de l’organisation spatiale de la
scène encodée. Au final, chaque haut-parleur restitue une
portion d’espace qui aurait été virtuellement captée par
un microphone hyper-cardioïde pointant dans la même
direction (Fig. 6-c). En dépit de ses propriétés avantageuses,
Ambisonics n’a pas connu le déploiement escompté pour
des raisons conjoncturelles
voire politiques [31]. Il
faut aussi reconnaître que
l ’approche Ambisonics
souffre d’une séparation
spatiale limitée. De ce fait,
la reproduction fidèle d’un
front d’onde est réservée
à une position d’écoute
centrée (sweet spot) et aux
basses fréquences (jusqu’à
environ 600 Hz). Outre ce
défaut de robustesse, les
images sonores floues (Fig.
6-d) et l’enveloppement
limité font que beaucoup de
preneurs de son préfèrent à
Ambisonics des approches
non-coïncidentes.
Fig. 5 : Illustration de la synthèse de fronts d’onde