Spécial “ Electroacoustique ”
47
Acoustique
&
Techniques n° 52
Le son 3D dans toutes ses dimensions
de restituer, simuler et contrôler des sources sonores
virtuelles dans n’importe quelle direction autour de l’auditeur.
Les principales technologies disponibles aujourd’hui sont:
la technologie binaurale, l’holophonie (WFS) et Ambisonics
(HOA). Ces dernières sont encore méconnues du grand
public. Cette vision mérite d’être complétée en ajoutant
qu’une autre différence entre les technologies multicanal et
les technologies audio 3D (binaural, WFS, HOA) est que ces
deux familles s’inscrivent dans deux philosophies distinctes.
Les technologies multicanal sont des technologies issues
du monde audio professionnel et sont ainsi pratiquées
principalement à des fins artistiques. L’objectif n’est pas
de créer une copie conforme d’une scène réelle, mais
d’en donner une image, voire une interprétation. Au
contraire les technologies audio 3D se basent sur un
mode de représentation qui se veut conforme à la réalité
acoustique de la scène de référence. Elles visent à recréer
les sensations auditives naturelles, c’est-à-dire à fournir
au système auditif des indices de localisation auditive qui
soient conformes et fidèles à la scène de référence. En
quelque sorte le son 3D est né de nouveaux besoins, liés
notamment au monde de la réalité virtuelle: l’exigence de
l’imitation la plus parfaite de la réalité (acoustique et/ou
psychoacoustique). Ce souci est présent dès l’encodage
avec des systèmes qui cherchent à exploiter de façon
optimale les informations spatiales captées. Les nouvelles
technologies posent la question d’une nouvelle génération
de contenus. Nous allons voir comment les technologies
binaurales, WFS et HOA préparent cette évolution.
Binaural
Au quotidien, nous localisons les sources sonores qui
nous entourent à partir des deux signaux acoustiques
captés par les tympans, qui portent en eux toutes les
informations nécessaires à une perception auditive dans les
trois dimensions. De ce constat sont nées les technologies
dites «binaurales» : leur but n’est pas de créer un champ
acoustique conforme sur une zone étendue de l’espace,
mais plutôt de reproduire ou de sculpter les signaux à
présenter au niveau des tympans. La restitution sur casque
est idéale pour un contrôle fin de ces signaux, mais l’écoute
sur deux haut-parleurs est possible ; il faut pour cela
éliminer les trajets acoustiques croisés entre chaque haut-
parleur et l’oreille contralatérale, celle à laquelle le signal
n’est pas destiné (cross-talk cancellation) [14, 15].
Pour la prise de son, il suffit de placer un microphone
miniature à l’entrée de chaque conduit auditif d’un individu,
ou bien d’une tête artificielle. En synthèse binaurale, il s’agit
de créer de toute pièce une scène sonore spatialisée à
partir de sons monophoniques. Les signaux binauraux sont
obtenus par un filtrage reproduisant tous les effets subis
par une onde acoustique entre la source et les tympans.
Ces phénomènes présentent une forte dépendance
directionnelle : c’est un encodage naturel qui confère aux
signaux binauraux tous les indices de localisation (ITD,
ILD, modifications du timbre). Les filtres qui englobent ces
phénomènes sont appelés fonctions de transfert relatives
à la tête (HRTF ou Head-Related Transfer Function). Ils
peuvent être mesurés en chambre anéchoïque (Fig. 4),
ou bien calculés par des méthodes numériques, BEM
ou FEM, à partir d’un maillage 3D de la morphologie de
l’auditeur [16]. La synthèse binaurale est très efficace, et
permet d’atteindre l’illusion parfaite dans les conditions
du laboratoire [17].
Cependant, des problèmes interviennent dès que l’on
s’en écarte. Si la calibration des transducteurs n’est pas
rigoureuse [18], ou bien si les HRTF ne sont pas celles
de l’auditeur [19], des artefacts apparaissent: perception
intracrânienne, distorsion de la perception en élévation,
confusion entre avant et arrière. L’utilisation de HRTF
individuelles apparaît donc nécessaire, car elles portent
«l’empreinte acoustique» de la morphologie de l’auditeur, à
laquelle son système auditif s’est adapté. Les techniques
usuelles d’acquisition des HRTF sont malheureusement
inenvisageables pour une diffusion grand public. Il reste à se
doter de méthodes indirectes, par exemple en s’appuyant
sur des données anthropométriques ou la perception de
l’auditeur lui-même [20-23]. Une application du binaural est
le downmix binaural qui consiste à adapter des contenus
multicanal à une écoute au casque en simulant des haut-
parleurs virtuels pour les terminaux mobiles (téléphone,
PDA, etc). Pour augmenter le réalisme et la sensation
d’immersion, la synthèse binaurale peut être implémentée
sous sa forme dynamique : un head-tracker capte les
mouvements de la tête pour mettre à jour les filtres en
temps réel. Les sources paraissent alors rester fixes dans
une scène que l’auditeur explore en tournant la tête. Les
indices de localisation supplémentaires apportés [24]
permettent en outre de réduire les artefacts liés aux HRTF
non-individuelles.
Fig. 4 : Mesure de HRTF en chambre anéchoïque [Pernaux]