Wie du Texte zum Sprechen bringst
Du hast einen Text geschrieben, der dir am Herzen liegt, aber manche Menschen in deiner Gemeinde oder deinem Bekanntenkreis lesen einfach nicht mehr so gerne lange Texte. Vielleicht sind die Augen müde, oder man hört lieber beim Kochen oder Spazierengehen zu.
Früher hätte ich mich vor ein Mikrofon setzen müssen, um alles einzusprechen. Heute gibt es Werkzeuge wie „Elevenlabs“, die das für uns übernehmen – und zwar so erstaunlich gut, dass es kaum noch nach „Roboter“ klingt. Hier erkläre ich dir Schritt für Schritt, wie du das machen kannst.
Teil 1: Schritt für Schritt zur eigenen Audio-Datei
Geh auf die Webseite von Elevenlabs.io. Du kannst dort erst einmal kostenlos hineinschnuppern. Dafür musst du ein Konto erstellen (Sign up) oder dich mit deinem Konto anmelden (Log in).

Wähle auf der Startseite die Schaltfläche: Sofortige Sprache (oder links im Menü: Text zu Sprache).
Dann kopiere deinen Text (Strg+v) und füge ihn in das in das große Textfeld ein (Strg+v). Aber Achtung:
1. Achte darauf, dass keine komplizierten Tabellen oder kryptische Zeichen drin sind – die KI liest alles vor, was sie sieht.
2. Die Länge des Textes ist bei einem kostenlosen Konto auf 5000 Zeichen begrenzt.
Die Stimme wählen: Klicke auf das Auswahlmenü „Stimme“ neben dem Textfeld. Dort gibt es viele Stimmen. Manche klingen tiefer, manche sanfter. Suche dir eine aus, die zu deinem Text passt. Zum Beispiel: Rachel
Die Einstellungen feinjustieren: Unter der Stimme kannst du weitere Einstellungen anpassen , wie zum Beispiel die Geschwindigkeit.
Erstellen: Klicke auf den Button: „Sprache erstellen„. Nach einem kurzen Moment fängt das Programm an zu lesen und du kannst beim Vorlesen zuhören.
Herunterladen: Wenn dir gefällt, was du hörst, klicke auf das kleine Download-Symbol (der Pfeil nach unten) neben dem Button: „Sprache erstellen“. Jetzt hast du eine MP3-Datei auf deinem Computer, die du verschicken oder auf deine Webseite stellen kannst.
(Vorausgesetzt du bist der Urheber des Textes 🙂
Teil 2: Wenn die KI mit deiner Stimme spricht – So bereitest du dich vor
Du kannst als Stimme auch deine eigene Stimme nutzen.
Hier die Voraussetzungen und meine Tipps für dich:
1. Der richtige „Tarif“
Während das einfache Vorlesen mit fremden Stimmen kostenlos ist, braucht das Klonen der eigenen Stimme ein Abonnement. (https://elevenlabs.io/app/subscription)
- Der Einstieg: Für den Anfang reicht der „Starter“-Plan (kostet etwa 5 Euro im Monat). Damit kannst du das sogenannte „Instant Voice Cloning“ nutzen und monatlich 30.000 Zeichen in Audio umwandeln. Das entspricht etwa 10–12 DIN-A4-Seiten und 30 Minuten Sprechdauer.
- Die Profi-Variante: Wenn du es ganz perfekt haben willst, gibt es den „Creator“-Plan. Hier kannst du ein „Professional Voice Cloning“ machen, das noch viel mehr Details deiner Stimme erfasst und monatlich 100.000 Zeichen.
2. Das Material: Deine Stimme als „Saatgut“
Damit die KI lernen kann, wie du betonst und atmest, braucht sie Futter.
- Die Menge: Für ein gutes Ergebnis solltest du mindestens eine Minute am Stück sprechen (beim Profi-Klon sind es sogar bis zu 30 Minuten).
- Die Qualität: Du brauchst kein High-End-Studio. Ein ruhiges Zimmer reicht. Achte darauf, dass kein Kühlschrank brummt, kein Hund bellt und es nicht zu sehr hallt. Ein einfaches USB-Mikrofon oder sogar ein gutes Headset vom Telefonieren leisten hier gute Dienste.
- Der Inhalt: Lies am besten einen Text vor, der typisch für dich ist. Nimm einen Text, den du mit Wärme und Ruhe liest. Die KI übernimmt nämlich auch deine Stimmung aus der Aufnahme!
3. Der rechtliche Segen
Bevor du deine Stimme hochlädst, musst du bestätigen, dass du auch wirklich du bist. Elevenlabs lässt dich einen kurzen Text vorlesen, um sicherzustellen, dass niemand ohne Erlaubnis die Stimme eines anderen „stiehlt“. Das finde ich sehr beruhigend – es schützt unser digitales Ebenbild.
Mein persönlicher Rat:
Sei beim Aufnehmen ganz du selbst. Versuche nicht, besonders „perfekt“ oder wie ein Nachrichtensprecher zu klingen. Deine Lesenden (und Hörenden) mögen dich wegen deiner Ecken und Kanten. Wenn du beim Aufnehmen lächelst, hört man das später auch in der KI-Stimme.


