En s’appuyant sur les compétences d’un chercheur du CNRS en matière de diarisation, la start-up est experte pour reconnaître les interlocuteurs d’une conversation et la reproduire automatiquement par écrit.
Transcrire ce qu’il se dit, savoir qui le dit et à quel moment. C’est la mission que s’est fixée pyannoteAI, une start-up basée sur le savoir-faire accumulé depuis plus de dix ans par Hervé Bredin, chargé de recherche au CNRS : « J’ai passé une thèse en 2008 dont le sujet était déjà le traitement automatique de la parole. Depuis 2014, je travaille quasi exclusivement à la question de savoir qui parle et quand », explique le scientifique.
Son savoir fondamental, il a pourtant décidé de le mettre en application depuis cette date : « Notre mission est de faire avancer la science et de la partager au plus grand nombre, notamment en écrivant des articles scientifiques. Mais j’avais en parallèle créé la librairie open source Pyannote.audio, un outil dans lequel j’intégrais au fur et à mesure les avancées publiées dans mes papiers ».
Cette librairie open source écrite en Python est depuis dix ans à la disposition de tous : « Elle a beaucoup de succès dans le monde académique et de nombreux industriels l’utilisent aussi en production, mais je n’avais pas de statistiques de téléchargements. Il y a un an et demi, j’ai donc mis en place un formulaire pour pouvoir accéder à Pyannote.audio et j’ai constaté qu’il a été téléchargé par plus de 50 000 personnes sur cette seule période », s’enthousiasme le chercheur.
Un succès dû notamment aux dix années de recherche écoulées depuis le lancement du projet. Pyannote peut ainsi repérer au sein d’une conversation les tours de paroles, segmenter les temps de début et de fin et les regrouper par similarité du timbre de voix. « C’est une intelligence artificielle prédictive qui utilise deux réseaux neuronaux : un pour la segmentation en tours de parole, un autre pour l’identification du locuteur », détaille Hervé Bredin. Le nom de cette discipline en français ? Segmentation et regroupement en locuteur, mais le nom anglais « diarisation » s’est imposé dans le milieu scientifique, consacrant ainsi cette brique essentielle à la retranscription de la voix vers du texte.
C’est une intelligence artificielle prédictive qui utilise deux réseaux neuronaux : un pour la segmentation en tours de parole, un autre pour l'identification du locuteur ’’
Hervé Bredin
Chargé de recherche au CNRS
Pour entraîner ses réseaux neuronaux, le chercheur utilise des extraits de conversation entre plusieurs personnes et surtout la puissance de calcul des GPU [1]actuels : « Nous avons beaucoup bénéficié du supercalculateur Jean Zay du CNRS ». Mais cela n’est nécessaire qu’à l’entraînement du modèle pour qu’il soit le plus performant possible une fois installé sur un ordinateur personnel : « C’est ce qui nous permet que ça aille vite quand on l’utilise. Sur un Mac équipé des dernières puces M d’Apple Silicon, on peut traiter une conversation d’une heure en moins de trente secondes ».
Des performances qui sont encore en amélioration avec la création de la toute nouvelle société qu’il a cofondée avec Vincent Molina et qui utilise un nouvel algorithme. Entre les deux acolytes, les rôles sont parfaitement répartis : « Je viens du monde du business, j’ai d’abord fait du conseil en stratégie dans un cabinet, puis je suis passé du côté client et je suis tombé amoureux des produits tech. Travailler avec Hervé sur ce projet a été comme une évidence », résume le CEO de pyannoteAI. « J’avais envie de me lancer dans l’aventure entrepreneuriale, confirme le scientifique. Nous nous sommes rencontrés en tout début de cette année par l’intermédiaire d’un ami commun. En mars, nous déposions les statuts de la société. »
Noeuds de calcul du supercalculateur Jean Zay. © Cyril FRESILLON / IDRIS / CNRS Images
Grâce à la SATT Toulouse Tech Transfer, la start-up a donc pu négocier la licence du modèle qu’elle utilise, qui lui n’est pas open source. « Cette architecture est géniale, elle est la preuve d’une compréhension de l’ensemble de l’écosystème », s’enthousiasme Vincent Molina. « Les évolutions qui sont faites peuvent bénéficier à la fois à la start-up et au CNRS », constate quant à lui Hervé Bredin, désormais CSO (chief scientific officer) de pyannoteAI, grâce à l’obtention du concours scientifique qui lui permet de consacrer une partie de son temps à son entreprise.
Les deux associés visent désormais un avenir radieux : « Nous nous engageons dans une levée de fonds qui s’annonce prometteuse, non seulement nous bénéficions de toute l’expertise nécessaire et l’aura de Hervé dans le monde scientifique, mais nous sommes aussi dans un momentum sur ce sujet », se réjouit le dirigeant. Qu’il s’agisse du secteur des médias, de la médecine, et même du renseignement, la technologie de pyannoteAI a en effet de nombreuses applications professionnelles dans lesquelles sa technologie de diarisation est indispensable.
[1] Graphics Processing Unit (unité de traitement graphique en français)
Partenariats, création d'entreprises, brevets, licences, événements... Retrouvez tous les mois les dernières actualités de la valorisation et de l'innovation au CNRS.
13 décembre 2024
28 novembre 2024
27 novembre 2024
06.11.2018
Matériaux – Revêtements 07293-01
06.11.2018
Matériaux – Revêtements 10581-01
06.11.2018
Chimie 08758-01
06.11.2018
11127-01
06.11.2018
Environnement et Energie 11107-01
19.10.2018
Diagnostic médical 08504-01