Spécial “ Acoustics’08 ”
13
Acoustique
&
Techniques n° 53
Production, description et perception de la
parole
Une bonne compréhension de la production de la parole
au niveau physiologique est indispensable pour permettre
une description adéquate du signal de la parole en ce qui
concerne l’enchaînement et l’anticipation du mouvement
des articulateurs. Ces connaissances sont exploitées dans
les différents modules des technologies de traitement de
la parole, utilisées dans les services vocaux, comme la
reconnaissance automatique de parole ou la synthèse
de parole. La reconnaissance de la parole intègre ces
connaissances au niveau de la modélisation acoustique
des phonèmes alors que la synthèse de parole les utilise
au moment de la sélection des unités acoustiques les
plus appropriées pour une chaîne phonétique donnée. Les
paramètres prosodiques sont utilisés par les locuteurs
pour structurer linguistiquement la chaîne sonore. Les
connaissances sur l’utilisation linguistique de ces paramètres
servent pour leur modélisation en vue d’aboutir à une
segmentation du signal de parole en unités de sens plus
faciles à interpréter syntaxiquement et sémantiquement par
un système de traitement automatique de la parole. Quant
à la synthèse de la parole, les évolutions des paramètres
prosodiques sur une phrase, fournies par le module
linguistique, deviennent des paramètres de sélection des
unités à concaténer.
Reconnaissance de la parole
La reconnaissance de la parole est la tâche qui consiste à
reconnaître dans le signal de parole les phonèmes ou les
mots prononcés. Dans un contexte de télécommunications,
il s’agit principalement de dialoguer avec un serveur vocal
automatique. Dans ce cas, le défi est de pouvoir reconnaître
la parole de n’importe quel locuteur (reconnaissance multi-
locuteurs) qui s’exprime spontanément : il s’agit ainsi d’être
robuste aux divers accents, modes d’élocution, disfluences,
dans différents environnements acoustiques. On parle de
reconnaissance de parole continue lorsqu’on cherche à
reconnaître tous les mots d’un locuteur qui s’exprime de
façon naturelle. A ce dessein, on combine une modélisation
au niveau acoustique (sur la réalisation des phonèmes)
et une modélisation linguistique (sur l’enchaînement plus
ou moins probable des mots du vocabulaire). Même si
les sorties du module de reconnaissance de parole sont
entâchées d’erreurs, elles sont aujourd’hui exploitables et
interprétables par un module d’interprétation, pour des
tâches applicatives aux contours bien définis, pour permettre
un dialogue vocal qui semble «naturel» à l’utilisateur.
Synthèse de la parole
Parmi les technologies de synthèse par concaténation, la
synthèse par corpus (SPC) est devenue un standard. Elle
repose sur l’exploitation d’un corpus de parole capturant
l’univers de production d’un locuteur. Le principe est de
sélectionner la séquence de segments acoustiques la plus
adaptée au contexte de synthèse. Ce faisant un minimum
de traitement est opéré et de ce fait le naturel de la voix
originale est préservé. Cette technologie repose néanmoins
sur une bonne maîtrise de l’acoustique, d’une part en
amont pour caractériser acoustiquement les segments
acoustiques à sélectionner et d’autre part en aval, pour
L’acoustique dans les télécommunications
Rozenn Nicol & Al.
France Télécom Recherche &
Développement
Technopole Anticipa
2, avenue Pierre Marzin
22307 Lannion CEDEX
E-mail : Rozenn.Nicol@orange-
ftgroup.com
Même si le domaine des télécommunications est en constante
évolution, et traverse régulièrement des phases de profondes
mutations comme ces dernières années, à la fois en termes
de technologies, de terminaux, d’usages ou de périmètres,
les problèmes fondamentaux dans lesquels l’Acoustique vient
mettre son grain de sel restent relativement pérennes. Ils
couvrent un large domaine allant de l’acoustique physique,
en passant par l’électro-acoustique et le traitement du signal
jusqu’à la psychoacoustique. L’article suivant en présente les
principaux thèmes.