24
Système de communication des perroquets gris du Gabon
Pour un type de cri X :
- tp correspond au «true positive», i.e. le nombre d’élé-
ments en commun entre les deux classifications (diago-
nale de la matrice de confusion),
- ƒp correspond au «false positive», i.e. le nombre d’élé-
ments d’un type de cri classés dans la catégorie X par
l’algorithme,
- ƒn correspond au «false negative», i.e. le nombre d’élé-
ments du type de cri X classés dans un autre type de cri
par l’algorithme.
Une valeur de F-mesure de 1 (100%) indique que la clas-
sification humaine est identique à celle obtenue après
classification par l’arbre de décision sélectionné. Comme
précisé ci-dessus, cette procédure d’évaluation peut être
répétée : l’espace de travail de départ pour l’algorithme
en arbre de décision repose sur une sélection aléatoire
d’un échantillon de 10% de SBE. L’arbre de décision obtenu
dépend ainsi de l’échantillon sélectionné. Or, il est possi-
ble de répéter cette opération automatiquement afin de
renforcer la puissance de l’arbre de décision obtenu. Après
différents essais, nous avons été en mesure d’établir que
50 répétitions permettaient d’obtenir un bon compromis
entre temps de calcul et performance des résultats sur
les 90% de SBE restants. Le tableau 2 présente la matrice
obtenue en utilisant 20 fonctions mathématiques et 50
répétitions pour constituer l’arbre de décision.
Nous avons comparé nos résultats obtenus en utilisant 4,
5, 10 ou 20 fonctions mathématiques sélectionnées par
EDS avec ceux obtenus en utilisant la même approche de
classification supervisée mais en se basant sur les valeurs
extraites à l’aide des seuls opérateurs «mel frequency ceps-
tral coefficient» (MFCC). Les MFCC sont considérés comme
des représentations efficaces des informations du timbre.
Les MFCC ont notamment été utilisés pour les analyses du
langage [4] et de vocalisations animales (chez des éléphants
[5,6]). Les résultats obtenus sont présentés dans le tableau
2. Nous pouvons constater que les performances de clas-
sification obtenues avec les paramètres sélectionnés par
EDS sont meilleures que celles obtenues avec les MFCC et
ce de façon nette dès l’utilisation de cinq paramètres EDS.
Nous remarquons aussi que l’amélioration en performance
est très nette pour le type C 113. Ce type de cri présente
une structure acoustique similaire à celle du type C 1 (large
bande de fréquence et enveloppe générale semblable) mais
en diffère par ses caractéristiques timbrales et temporel-
les : le type C 1 consiste en des vocalisations de très cour-
tes durées, généralement répétées, alors que le type C 113
correspond à des vocalisations rauques, longues et géné-
ralement non répétées. Bien que les MFCC capturent l’infor-
mation timbrale dans un signal acoustique, ils ne permet-
tent pas de distinguer ces deux types de cri, contrairement
à l’approche EDS. Une analyse plus poussée des fonctions
mathématiques n’a pas été conduite puisqu’elle n’était pas
pertinente d’un point de vue éthologique.
Dans l’ensemble, cette approche en classification super-
visée permet de ne pas émettre d’hypothèse de départ
sur la nature des fonctions mathématiques potentielle-
ment pertinentes pour le problème de classification. Le
fait que l’espace de travail d’EDS soit virtuellement infini
permet d’apporter une réponse spécifique à n’importe
quel problème de classification acoustique donné. Cette
approche en classification supervisée offre ainsi des pers-
pectives passionnantes pour répondre à des problèmes
de classification acoustique particuliers.
Les capacités de production de vocalisation des perroquets
sont exceptionnelles. Leur aptitude à imiter des sons de
leur environnement est aspect fascinant de leur compor-
tement et pose toujours question sur sa potentielle valeur
biologique. Au travers de nos travaux de recherche, nous
avons pu mettre en évidence la capacité de certains indi-
vidus à émettre des vocalisations présentant des spécifi-
cités acoustiques particulières dans certaines situations.
Que ces vocalisations véhiculent une information et éven-
tuellement un sens pour l’émetteur et/ou le récepteur reste
une question ouverte.
Références bibliographiques
[1] Pepperberg, I. The Alex studies: cognitive and communicative abilities of Grey
parrots. (Harvard University Press: Cambridge, Massachussets, 1999).
[2] Marler, P. Bird calls: a cornucopia for communication. Nature’s music
132-177 (2004).
[3] Pachet, F. & Roy, P. Analytical features: a knowledge-based approach to audio
feature. EURASIP Journal on Audio, Speech, and Music Processing (2009).
[4] Davis, S. & Mermelstein, P. Comparison of parametric representations
for monosyllabic word recognition in continuously spoken sentences. IEEE
Transactions on Acoustics, Speech, and Signal Processing 28, 357-366 (1980).
[5] Clemins, P.J., Johnson, M.T., Leong, K.M. & Savage, A. Automatic
classification and speaker identification of African elephant (Loxodonta africana)
vocalizations. Journal of the Acoustical Society of America 117, 956-963 (2005).
[6] Clemins, P.J. & Johnson, M.T. Generalized perceptual linear prediction (gPLP)
features for animal vocalization analysis. Journal of the Acoustical Society of
America 120, 527-534 (2006).
Paramètres
Types de cri
C1 en C1 C57 en C57 C77 en C77 C106 en C106 C113 en C113
4EDS
90.0%
±
0.4
93.3% ±0.3
97.2% ±0.2
88.5% ±0.8
38.3% ±1.9
5EDS
90.8% ±0.6 94.3% ±0.3
97.2% ±0.3
87.8% ±1.1
34.9% ±2.0
10EDS
92.1% ±0.4 94.2% ±0.2
97.3% ±0.2
91.8% ±1.3
43.6% ±1.5
20EDS
91.5% ±0.4 95.0% ±0.2
97.4% ±0.2
93.9% ±0.8
47.5% ±1.6
10MFCC
80.4% ±0.7 92.2% ±0.4
93.6% ±0.5
93.6% ±0.6
22.5% ±1.4
20MFCC
78.3% ±0.7 91.7% ±0.3
94.1% ±0.4
94.6% ±0.5
23.6% ±1.2
Tabl. 3 : Moyenne du nombre d’exemplaires (
±
erreur-standard) correctement classés par les
systèmes de classification en fonction du nombre de paramètres utilisés
Table 3 : Mean correctly classified instances (percent
±
SE) for each feature set among each call type and non-significant comparisons