Accueil Enseignement Recherche Introduction Quantification Codage audio Séparation
de sources
Identification
de systèmes
Qualité audio Tatouage audio Signaux
biophysiques
Projets HDR

Correction du timbre de la voix téléphonique

Mes travaux de thèse avaient pour objet la correction des distorsions spectrales subies par la parole sur les réseaux téléphoniques. Le but est de restaurer, en aveugle, un timbre le plus proche possible de la voix originale du locuteur, au moyen d'un traitement centralisé dans un équipement du réseau.

Notre algorithme d'égalisation spectrale consiste à aligner, sur une bande de fréquences limitée (200-3150 Hz), le spectre à long terme du signal traité sur un spectre de référence [1,2,5]. Les évaluations subjectives mettent en évidence une restauration satisfaisante du timbre original des locuteurs. L’égalisation peut être affinée d’une part en définissant des classes de locuteurs et un utilisant un spectre de référence par classe [3,4], d’autre part en intégrant dans notre algorithme une modélisation physique de la ligne de transmission [6].

Mesure instrumentale de la netteté du son

Les mesures objectives de netteté du son de l’état de l’art présentent plusieurs limites :

Il manque une mesure objective de la netteté intrinsèque d’un son, sans référence à un original supposé pur et indépendante de son contenu haut-niveau (texte ou musique). C’est dans cette perspective que s’inscrit notre proposition de Non-Intrusive Audio Clarity (NIAC) [8,9].

Inspirée du sharpness index proposé en 2012 par G. Blanchet et L. Moisan pour mesurer la netteté des images, la NIAC est définie comme la sensibilité de la parcimonie du spectrogramme d’un son à la convolution de ce son par un bruit blanc gaussien.

La NIAC s’avère très corrélée au Speech Transmission Index (STI) sans être intrusive. Contrairement à la plupart des autres mesures non-intrusives, elle ne nécessite aucun apprentissage ou réglage fin de paramètres. Enfin, elle est valable aussi bien pour la parole que pour la musique. La suite de nos travaux vise à valider la NIAC comme mesure de netteté intrinsèque, par des tests subjectifs formels adaptés. Par ailleurs, comme son principe n’est pas spécifique à l’audio, nous étudions son adaptation à d’autres types de signaux, notamment physiologiques.

Saillance auditive

Par sa formulation analytique, la NIAC se prête bien au pilotage d’algorithmes de correction de la netteté du son. Dans le cas du renforcement de l’intelligibilité d’annonces sonores, une voie alternative est de faire « surgir » celles-ci du bruit ambiant, c’est-à-dire d’améliorer leur saillance auditive, définie comme la capacité d’un son à attirer l’attention.

Au cours du post-doc de Tifanie Bouchara, nous avons élaboré un protocole de validation des mesures objectives de saillance existantes [7].

Publications

  1. Gaël Mahé et André Gilloire, "Correction of the voice timbre distortions on telephone network", Eurospeech, Aalborg, Danemark, septembre 2001, pp. 1867-1870.
  2. Brevet déposé le 28.03.01 (n° de dépôt FR0104194) : "Procédé et dispositif de correction centralisée du timbre de la parole sur un réseau de communications téléphoniques". Inventeurs : Gaël Mahé et André Gilloire.
  3. Gaël Mahé et André Gilloire, "Multi-referenced correction of the voice timbre distortions on telephone network", Eurospeech, Genève, Suisse, septembre 2003, pp. 1381-1384.
  4. Brevet déposé le 11.12.02 (n° de dépôt FR0215618, étendu à l'Europe sous le n° EP1429316 et aux USA sous le n° US20040172241) : "Procédé et système de correction multi-références des déformations spectrales de la voix introduites par un réseau de communication". Inventeurs : Gaël Mahé et André Gilloire.
  5. Gaël Mahé, André Gilloire et Lætitia Gros, "Correction of the voice timbre distortions in telephone networks: method and evaluation", Speech Communication, Vol. 43, Issue 3, août 2004, pp. 241-266.
  6. A. Neves, G. Mahé et M. Mboup, "Restoration of voice timbre in telephone networks, based on both voice and lines properties", Eusipco, Vienne, septembre 2004, pp. 1943-1946.
  7. Tifanie Bouchara et Gaël Mahé. "Evaluation de la saillance d’annonces vocales par un paradigme de double-tâche", Actes du 12ème Congrès Français d’Acoustique (CFA2014), pp. 625–631, Poitiers, France, april 2014.
  8. Gaël Mahé, Lionel Moisan, Mihai Mitrea. "An Image-Inspired Audio Sharpness Index", 25th European Signal Processing Conference (EUSIPCO), Kos island, Greece, Aug 2017.
  9. Gaël Mahé, Giulio G R Suzumura, Lionel Moisan, Ricardo Suyama. "A Non Intrusive Audio Clarity Index (NIAC) and its Application to Blind Source Separation" , Signal Processing, Vol. 194, 2022.