ElevenLabs bringt sein eigenes Spracherkennungsmodell auf den Markt

ElevenLabs , ein KI-Startup, das gerade eine Mega-Finanzierungsrunde über 180 Millionen US-Dollar abgeschlossen hat, ist vor allem für seine Fähigkeiten bei der Audiogenerierung bekannt. Das Unternehmen ging mit der Einführung seines ersten eigenständigen Spracherkennungsmodells namens Scribe einen Schritt in eine andere technologische Richtung.
Das Startup, dessen Wert auf 3,3 Milliarden US-Dollar geschätzt wird , hat mit seiner riesigen Stimmenbibliothek vielen anderen Unternehmen dabei geholfen, Spracherkennungsdienste anzubieten. Nun möchte das Unternehmen jedoch in die Spracherkennung einsteigen und mit Unternehmen wie Gladia , Speechmatics , AssemblyAI , Deepgram und den Whisper-Modellen von OpenAI konkurrieren.
Das Scribe-Modell von ElevenLabs unterstützt beim Start über 99 Sprachen. Das Unternehmen kategorisiert über 25 Sprachen in die Kategorie „hervorragende Genauigkeit“ für das Modell, bei dem die Wortfehlerrate weniger als 5 % beträgt. Diese Liste umfasst Englisch (angebliche Genauigkeitsrate von 97 %), Französisch, Deutsch, Hindi, Indonesisch, Japanisch, Kannada, Malayalam, Polnisch, Portugiesisch, Spanisch und Vietnamesisch. Andere Sprachen werden in verschiedene Kategorien mit hoher (5-10 % Wortfehlerrate), guter (10 bis 20 % Wortfehlerrate) und mittlerer (25 bis 50 %) Wortfehlerrate eingestuft.
Das Unternehmen sagte, dass das Modell in den FLEURS- und Common Voice-Benchmarktests in mehreren Sprachen Google Gemini 2.0 Flash und Whisper Large V3 übertraf.

ElevenLabs hatte die Spracherkennungskomponente für seine im letzten Jahr veröffentlichte KI-Konversationsagentenplattform entwickelt. Dies ist jedoch das erste Mal , dass das Unternehmen ein eigenständiges Spracherkennungsmodell herausbringt . In einem Gespräch mit TechCrunch im letzten Monat sprach CEO Mati Staniszewski über die Verbesserung von Spracherkennungsmodellen.
„Wir möchten besser verstehen, was Sie in einem Gespräch sagen. Wir arbeiten daran, uns von der bloßen Inhaltsgenerierung und dem Verstehen und Transkribieren von Sprache zu lösen“, sagte Staniszewski damals. „Viele Leute sagen, dass die Spracherkennung ein gelöstes Problem ist. Aber für viele Sprachen ist es ziemlich schlecht. Wir glauben, dass wir bessere Spracherkennungsmodelle erstellen können, weil wir interne Teams haben, die Daten annotieren und uns schnelles Feedback geben.“
Das Modell verfügt außerdem über eine intelligente Sprecherdiarisierung, die Ihnen sagt, wer spricht, Zeitstempel auf Wortebene für genaue Untertitel und automatisches Tagging von Klangereignissen wie Lachen des Publikums. Das Startup bietet Kunden eine Möglichkeit, Videoinhalte direkt zu transkribieren, um Untertitel oder Bildunterschriften in seinem Studio hinzuzufügen.
Scribe funktioniert derzeit nur mit voraufgezeichneten Audioformaten. Das Unternehmen gab bekannt, dass es in Kürze eine Echtzeitversion des Modells mit geringer Latenz veröffentlichen wird. Das bedeutet, dass es für die Transkription von Besprechungen oder das Aufzeichnen von Sprachnotizen noch nicht geeignet ist.
ElevenLabs verlangt für Scribe 0,40 $ für eine Stunde transkribiertes Audio. Obwohl der Preis konkurrenzfähig ist, bieten einige Konkurrenten derzeit einen niedrigeren Preis für Audiotranskriptionen mit einigen differenzierten Funktionen an.
techcrunch