ElevenLabs lance son propre modèle de reconnaissance vocale

ElevenLabs , une start-up spécialisée dans l'intelligence artificielle qui vient de lever 180 millions de dollars , est principalement connue pour ses prouesses en matière de génération audio. L'entreprise a fait un pas dans une autre direction technologique en lançant son premier modèle autonome de conversion de la parole en texte appelé Scribe.
La start-up, évaluée à 3,3 milliards de dollars , a aidé de nombreuses autres entreprises à fournir des services de reconnaissance vocale grâce à sa vaste bibliothèque de voix. Cependant, l'entreprise cherche désormais à se lancer dans la détection vocale et à concurrencer des sociétés comme Gladia , Speechmatics , AssemblyAI , Deepgram et les modèles Whisper d'OpenAI.
Le modèle Scribe d'ElevenLabs prend en charge plus de 99 langues au lancement. L'entreprise classe plus de 25 langues dans la catégorie d'excellente précision pour le modèle, où le taux d'erreur de mots est inférieur à 5 %. Cette liste comprend l'anglais (taux de précision revendiqué de 97 %), le français, l'allemand, l'hindi, l'indonésien, le japonais, le kannada, le malayalam, le polonais, le portugais, l'espagnol et le vietnamien. D'autres langues sont classées dans différentes catégories avec des taux d'erreur de mots élevés (5 à 10 %), bons (10 à 20 % de taux d'erreur de mots) et modérés (25 à 50 %).
La société a déclaré que le modèle a surpassé Google Gemini 2.0 Flash et Whisper Large V3 dans plusieurs langues lors des tests de référence FLEURS et Common Voice.

ElevenLabs a développé le composant de reconnaissance vocale pour sa plateforme d'agent conversationnel IA, qui a été lancée l'année dernière. Cependant, c'est la première fois que l'entreprise publie un modèle de détection vocale autonome . Dans une conversation avec TechCrunch le mois dernier, le PDG Mati Staniszewski a parlé de l'amélioration des modèles de détection vocale.
« Nous voulons mieux comprendre ce que vous dites dans une conversation. Nous travaillons sur des moyens de nous éloigner de la simple génération de contenu, de la compréhension et de la transcription de la parole », a déclaré Staniszewski à l'époque. « Beaucoup de gens disent que la conversion de la parole en texte est un problème résolu. Mais pour de nombreuses langues, c'est assez grave. Nous pensons pouvoir créer de meilleurs modèles de détection de la parole car nous disposons d'équipes internes pour annoter les données et nous donner un retour rapide. »
Le modèle dispose également d'une fonction de journalisation intelligente des intervenants pour vous indiquer qui parle, d'un horodatage au niveau du mot pour des sous-titres précis et d'un marquage automatique des événements sonores comme les rires du public. La startup propose à ses clients un moyen de transcrire directement le contenu vidéo pour ajouter des sous-titres ou des légendes dans son studio.
Scribe ne fonctionne actuellement qu'avec des formats audio préenregistrés. L'entreprise a annoncé qu'elle publierait bientôt une version en temps réel à faible latence du modèle. Cela signifie qu'il n'est pas encore efficace pour les transcriptions de réunions ou la prise de notes vocales.
ElevenLabs propose Scribe à 0,40 $ pour une heure de transcription audio. Bien que le tarif soit compétitif, certains de ses concurrents proposent actuellement un prix inférieur pour les transcriptions audio avec quelques fonctionnalités différenciantes.
techcrunch