Speech-to-Speech

Speech-to-Speech (STS) bezeichnet eine KI-gestützte Technologie, die gesprochene Sprache direkt in eine andere Sprache oder Stimme umwandelt – ohne den Umweg über geschriebenen Text. Dabei wird nicht nur der Inhalt, sondern auch der Stil, die Intonation, Pausen und emotionale Färbung der Originalstimme möglichst realistisch beibehalten. Es gibt zwei Hauptansätze: klassische Pipeline-Modelle, bei denen Sprache zunächst in Text umgewandelt, dann übersetzt und anschließend wieder in Sprache ausgegeben wird, sowie direkte Stimmkonvertierung, bei der die Stimme des Sprechers direkt in eine andere Stimme transformiert wird. Letzteres wird etwa für Echtzeit-Stimmveränderung, Synchronisation, Barrierefreiheit oder Zeugenschutz eingesetzt.

STS-Technologien kommen in vielen Bereichen zum Einsatz: in virtuellen Assistenten, bei internationalen Präsentationen, in der Synchronisation von Filmen und Spielen, in der medizinischen Kommunikation oder im mehrsprachigen Kundendienst. Moderne KI-Tools wie Resemble AIHeyGenElevenLabs oder Meta Voicebox nutzen Deep Learning, um Stimmen in Echtzeit zu analysieren und umzuwandeln. Dabei kommen neuronale Netze zum Einsatz, die auf große Mengen an Sprachdaten trainiert wurden, um Nuancen wie Betonung, Rhythmus und Emotionen zu erfassen.

Für KI-Expertise ist das Verständnis von Speech-to-Speech zentral, da es die Grundlage für viele Anwendungen in der multilingualen Kommunikation, barrierefreien Interaktion und in immersiven Medienerlebnissen bildet. Die Technologie ermöglicht natürlichere, inklusivere und effizientere Kommunikation – über Sprachgrenzen hinweg.

Erstellt mit Copilot unter Nutzung folgender Quellen:
[1] LearnOpenCV – Introduction to Speech to Speech
[2] RAVATAR – What is Speech-to-Speech (STS) Technology?

» E-tivity 5.2: Wissensglossar