KI-Tools: Transkription von Audiodateien

Transkription von Audiodateien – Mit diesen KI-Tools funktioniert es am besten

21.04.2026 - 10:45 Uhr

Damit Du Dich nicht mit schlechten Transkriptionen herumschlagen musst, haben wir Software zur Umwandlung von Audiodateien bzw. Tonspuren in Texte getestet.

Früher mussten vor allem Büroangestellte und Journalisten Gesprochenes verschriftlichen. Heute ist der Bedarf deutlich größer. Das liegt auch daran, dass es in Unternehmen und anderen Organisationen immer mehr (virtuelle) Meetings und Konferenzen gibt, deren Verlauf später in Textform vorliegen soll. Allerdings ist die Umwandlung von Audioaufnahmen in Texte – die sogenannte Transkription oder Verschriftlichung – von Hand ziemlich mühsam. Zum Glück existieren inzwischen zahlreiche Softwarelösungen, die das deutlich schneller erledigen können. Diese verwandeln Audiodateien – die meistens als MP3 oder WAV vorliegen – auf Knopfdruck in Texte, die Du in den verbreitetsten Formaten speichern kannst. Vorsicht kann bei Programmen geboten sein, die Dateien zur Weiterverarbeitung in eine Cloud hochladen. Denn besonders bei US-Cloudservices ist eine datenschutzkonforme Verarbeitung nicht unbedingt gewährleistet.

Transkriptionssoftware liefert allgemein in den letzten Jahren eine immer bessere Qualität. Das hat auch mit dem Siegeszug der künstlichen Intelligenz zu tun. Verbesserungen gab es dabei nicht nur bei Erkennungsraten, sondern auch bezüglich Grammatik und Zeichensetzung. Viele Softwarelösungen können inzwischen außerdem die Redebeiträge einzelnen Sprechern zuordnen, Zeitstempel erstellen und neben Audiodateien auch die Tonspur von Videos transkribieren. Manche bieten sogar noch weitere Features. Damit Du das beste Hilfsmittel für Deine Bedürfnisse findest, haben wir einige der beliebtesten Programme zur Umwandlung von Audio in Texte – mit einem via Smartphone geführten Interview – getestet.

ElevenLabs – Unser Transkriptionstestsieger

ElevenLabs ist durch die Generierung von lebensechten KI-Stimmen bekannt geworden. Das Unternehmen hat seine Angebotspalette aber seitdem sukzessive ausgeweitet. So lassen sich inzwischen nicht nur Songs erzeugen und Stimmen klonen, sondern auch Texte in Sprache sowie Sprache in Texte transformieren. Dabei funktioniert der Service als reiner Webdienst im Browser und kommt ohne Registrierung aus. ElevenLabs besticht vor allem durch eine übersichtlich gestaltete Benutzeroberfläche, die hohe Transkriptionsqualität und eine faire Preisgestaltung.
Die Nutzung ist ganz einfach. Klicke zunächst auf die Schaltfläche „Speech to Text“. Gib dann an, um was für eine Audio-Datei es sich handelt. Zur Wahl stehen hier Arztgespräch, Interview oder Telefonkonferenz. Nun musst Du nur noch die Audiodatei hochladen. Schon wenige Minuten danach liefert ElevenLabs die Transkription. Diese lässt sich in zahlreichen Dateiformaten – DOCX, HTML, JSON, PDF, SRT oder TXT – speichern.
Noch wichtiger als die Benutzerfreundlichkeit ist die Transkriptionsqualität. Hier könnte die Erwartungshaltung bezüglich deutscher Tonspuren etwas gedämpft sein. Denn schließlich ist die Benutzeroberfläche auf der Website komplett in englischer Sprache gehalten. Doch in unserem Test kommt ElevenLabs nicht nur ziemlich gut mit deutschsprachigen Audio-Dateien klar. In unserem Vergleichstest rangiert der Service qualitativ sogar auf dem ersten Platz. Die Software hat nicht nur klassische Wörter, sondern auch alle Fachbegriffe erkannt und zutreffend verschriftlicht. Zudem ordnet sie die einzelnen Beiträge den jeweiligen Sprechern korrekt zu und fasst diese gut zusammen. Auch bezüglich Grammatik und Zeichensetzung gibt es nichts zu meckern. Das alles ist keine Selbstverständlichkeit, wie wir noch sehen werden.
Doch wie kostspielig ist der Service? Das Unternehmen wirbt mit einer individuellen Preisgestaltung, die fair wirkt. Für viele dürfte aber ohnehin erst einmal die Gratisversion der Transkriptionssoftware interessant sein. Denn mit dieser lassen sich jeden Monat immerhin zweieinhalb Stunden Audioaufnahmen in Texte umwandeln.
Ist ElevenLabs also der Alleskönner unter den Transkriptionssoftwarelösungen? Nicht ganz. Ein kleiner Makel ist die Tatsache, dass sich der Service nur online via Webbrowser nutzen lässt. Eine lokale Installation auf PCs oder Notebooks ist leider nicht möglich. Im Unterschied zu einigen Konkurrenten fehlen zudem zusätzliche Features für die Weiterverarbeitung von Transkriptionen.
F4 – Verschriftlichungssoftware aus Deutschland für sensible Daten mit Schwächen

Innovative Transkriptionssoftware gibt es auch Made in Germany. Das beweist die Dr. Dresing & Pehl GmbH mit F4. Das in Marburg ansässige Unternehmen ist in diesem Segment bereits seit Jahrzehnten tätig und offerierte kurz nach der Gründung zunächst Tools zur Unterstützung der manuellen Verschriftlichung. Später kamen Programme für die automatisierte Transkription sowie qualitative Textanalyse hinzu. Mittlerweile bieten die Marburger diese Programme alle unter der Marke F4 an.
Ein Vorteil von F4 ist – neben der aufgeräumten und übersichtlichen Benutzeroberfläche – vor allem das hohe Niveau der Datensicherheit. Die Software lässt sich nämlich lokal installieren, sodass sensible Audiodateien Deinen Computer niemals verlassen müssen. Alternativ haben Nutzer auch die Option, Tonspuren auf die Website des Anbieters hochzuladen. Dann erfolgt die Transkription – anders als bei der Konkurrenz, die meistens aus den USA stammt – komplett auf Servern in Deutschland sowie gemäß den strengen Regeln der Datenschutz-Grundverordnung (DSGVO). Der Download der verschriftlichten Dateien ist wahlweise in den Formaten DOCX, RTF oder SRT möglich.
Allerdings enttäuscht F4 ausgerechnet bei der Kernkompetenz, nämlich der Qualität der Transkription. Während die Zuordnung der Beiträge zu einzelnen Sprechern gut funktioniert, schwächelt die Software vor allem bei Fachtermini. So transkribiert F4 in unserem Text „Passkeys“ als „Partys“ oder macht daraus „Tarskis“. Bei der Einzahl „Passkey“ ist das Ergebnis nicht besser. Daraus macht die Software nämlich „Paar Ski“. Die Transkriptionsschwächen beschränken sich nicht nur auf Fachbegriffe. So setzte die Software einzelne Wörter teilweise mehrmals hintereinander – ohne, dass auch der jeweilige Sprecher das getan hätte.
Auch in der B-Note gibt es einige Abzüge. So benötigte F4 für die Erkennung unserer etwa 40-minütigen Aufnahme mit sechs Minuten nicht nur deutlich länger als die Konkurrenz, bei der dieser Vorgang oft nur zwei bis drei Minuten in Anspruch nahm. Es fehlen auch Zusatzfeatures, die andere Programme teilweise bieten. Ärgerlich ist auch, dass der hilfreiche Korrekturmodus nur bei einer lokalen Installation und nicht via Web zur Verfügung steht.
Das alles wäre bei einer Freeware wohl noch zu verschmerzen. Leider lässt sich F4 aber nur 15 Minuten lang kostenlos testen. Wer das Tool installieren möchte, muss sogar doppelt bezahlen. Hier werden nämlich zunächst 149 Euro und mehr für die Lizenz und danach noch Geld für die jeweils benötigten Kontingente fällig. Auch wer auf die Installation auf dem eigenen Computer verzichtet, bezahlt mindestens 25 Euro für die Transkription einer zweistündigen Audioaufnahme.
Whisper AI – Transkription mit KI-Power

Wie der Name bereits andeutet, kommt bei Whisper AI künstliche Intelligenz zum Einsatz. Die Entwicklerfirma ist in diesem Bereich auch einer der Big Player: Denn es handelt sich hier um das Unternehmen OpenAI, das vor allem mit ChatGPT für Furore gesorgt hat. Whisper AI verspricht eine akkurate Verschriftlichung von Audioaufnahmen, wobei gut 680.000 Stunden mit transkribierten Texten der Software als Basis dienen. Auch wenn der Großteil davon in Englisch war, soll Whisper AI auch mit anderen Sprachen sowie bei schlechter Audioqualität gute Ergebnisse liefern.
Positiv zu bewerten ist die Tatsache, dass sich Whisper AI grundsätzlich kostenlos nutzen lässt. OpenAI stellt das Tool nämlich Interessenten als Open-Source-Software zur Verfügung. Diese lässt sich etwa auf der Plattform GitHub herunterladen. Allerdings verfügt diese Gratis-Version nicht über eine grafische Benutzeroberfläche. Stattdessen musst Du Eingaben via Kommandozeile vornehmen. Das ist nicht besonders benutzerfreundlich. Zum Glück gibt es bereits mehrere Unternehmen, die eine Verschriftlichung von Tonaufnahmen via Whisper AI mit einer grafischen Benutzeroberfläche anbieten. Darunter sind sowohl Webservices als auch Programme, die Du auf Deinem Computer installieren kannst.
Zu den bekanntesten Optionen in diesen Bereichen zählen einerseits Cabina.ai und Turboscribe und andererseits Vibe und Whisper Transcribe. Vibe ist für kostenbewusste Nutzer grundsätzlich eine interessante Lösung, da das lokal installierbare Tool komplett gratis ist. Leider verweigerte es auf unseren Computern den Dienst.
Dafür schlug sich Whisper Transcribe – mit dem sich Dateien in den Formaten DOCX, PDF und TXT ausgeben lassen – in unserem Test überzeugend. Selbst bei deutschsprachigen Audiodateien gab es sich keine Blöße. Dabei verschriftlichte die Software selbst Fachtermini sowie die Namen von Unternehmen überwiegend zutreffend. Auch bezüglich der Grammatik bietet die Transkriptionslösung kaum Anlass zur Kritik. Lediglich einige Fragen erkannte sie nicht als solche.
Zudem punktet Whisper Transcribe mit hilfreichen Features und distanziert damit viele Konkurrenten. So ist das Programm etwa in der Lage, automatisiert Gliederungen und Zusammenfassungen zu kreieren sowie Fragen zum Textinhalt zu beantworten. Zudem kann die Software automatisiert Beiträge für Social Media wie LinkedIn oder X erstellen und bei Interviews weitere Fragen vorschlagen.
Der mit all dem verbundene Mehrwert ist allerdings nicht kostenlos zu haben. Der niederländische Anbieter verlangt für die Basisversion – bei jährlicher Zahlungsweise – immerhin 20 US-Dollar. Bei lokaler Installation kostet die Software im Rahmen eines flexibleren Pay-as-you-go-Modells 8 US-Dollar pro Stunde.
Word – Softwaregigant Microsoft enttäuscht

Kann der Softwareriese die Konkurrenz aufmischen? Im Rahmen des von zahlreichen Nutzern verwendeten Microsoft 365 bieten die Redmonder schließlich schon seit geraumer Zeit einen Transkriptionsservice. Der Weg dorthin führt in der Menüleiste der Textverarbeitungssoftware von „Start“ über „Sprache“ und „Diktieren“ zu „Transkribieren“.
Das Verschriftlichungsfeature funktioniert sowohl mit Audio- als auch mit Videodateien. Der Vorgang läuft jedoch nicht lokal ab. Stattdessen erfolgt der Upload auf Microsofts Cloud-Speicherdienst OneDrive. Nach einigen Minuten erscheint die Transkription rechts in einer Randspalte, wo diese sich modifizieren und zum nebenstehenden Dokument hinzufügen lässt. Word kann nicht nur die Redebeiträge einzelnen Sprechern zuordnen, sondern auch die dazugehörige Zeit automatisch angeben.
Word speichert die Transkription standardmäßig mit dem geöffneten Word-Dokument im DOCX-Format. Wenn Du dieses öffnest und wieder „Diktieren“ sowie „Transkribieren“ wählst, erscheint die Verschriftlichung wieder in der rechten Randspalte. Alternativ ist auch die Sicherung in einer separaten Datei möglich. Füge dazu den transkribierten Text in ein leeres Word-Dokument ein und klicke dann auf die Schaltfläche „Zu Dokument hinzufügen“.
Das mag in der Theorie alles gut klingen. In der Praxis enttäuscht das Feature von Word jedoch ziemlich. Das beginnt bereits bei der Zuordnung der einzelnen Redebeiträge eines Sprechers. Hier teilt Word nämlich teilweise sogar einzelne Sätze fälschlicherweise auf. Das wäre wohl noch zu verschmerzen, wenn ansonsten die Transkriptionsqualität stimmen würde. Leider leistet sich die Software von Microsoft jedoch zahlreiche Grammatik- und Zeichensetzungsfehler. Auch bei Fachtermini gibt es einige Ausfälle – beispielsweise interpretiert die Software „Passkey“ mehrfach als „Parskey“. Deshalb ist oft eine recht umfangreiche Nachbearbeitung notwendig.

Transkription: Es muss nicht immer KI oder Software sein

Es ist nicht zwangsläufig erforderlich, auf Software oder künstliche Intelligenz zurückzugreifen, um Audiodateien oder die Tonspuren von Videos in Texte umzuwandeln. Denn es existieren auch einige Dienstleister. Diese setzen oft auf geschulte Mitarbeiter bzw. Freelancer. Einige Behörden, Organisationen oder Unternehmen bevorzugen trotz der immer besseren Softwarequalität von Menschen erstellte Transkripte. Bekannte und auch in Deutschland aktive Unternehmen, die einen solchen Service bieten, sind unter anderem Gotranscript, HappyScribe oder Mentorium.

Umgekehrt kannst Du auch bei diesen oder anderen Transkriptionsdienstleistern als freier Mitarbeiter Geld verdienen. Zur Qualifikation dient in der Regel ein Aufnahmetest. Um diesen zu bestehen, solltest Du nicht nur über die entsprechenden Sprachkenntnisse, sondern auch über einen Computer mit Internetzugang sowie ein gutes Hörvermögen verfügen. Um schnell und effizient zu arbeiten, solltest Du außerdem schnell tippen können.

Reich wird mit solchen Transkriptionsjobs aber niemand. Je nach Plattform und Niveau lässt sich aber immerhin circa ein Euro pro verschriftlichter Audiominute verdienen. Solche Nebeneinkünfte sind nicht zu verachten – vor allem, wenn Auftraggeber Dich öfter mit Transkriptionsjobs beauftragen.

Quelle: PC-WELT