Interessieren Sie sich für sie? ANGEBOTE? Sparen Sie mit unseren Gutscheinen WhatsApp o TELEGRAMM!

Microsoft VALL-E imitiert unsere Stimme nach nur 3 Sekunden Sprechen

In nur 3 Sekunden kann eine KI, die Sie noch nie sprechen gehört hat, Ihre Stimme perfekt imitieren. Dies ist die neueste Errungenschaft der künstlichen Intelligenz von Microsoft – das Text-to-Speech-Modell VALL-E, das mit nur 3 Sekunden Sprache die Stimme eines jeden nach Belieben kopieren kann.

Microsoft VALL-E imitiert unsere Stimme nach nur 3 Sekunden Sprechen

Es stammt von DALL E, ist aber auf den Audiobereich spezialisiert, und der Text-zu-Sprache-Effekt wurde populär, nachdem es online veröffentlicht wurde.

Einige Benutzer sagten, dass das Ergebnis erstaunlich sein wird, wenn VALL·E und ChatGPT kombiniert werden. Für andere scheint der Tag, an dem es möglich sein wird, Videoanrufe mit KI zu führen, nicht mehr weit entfernt. Es gibt sogar diejenigen, die scherzen, dass, nachdem sich die KI um die Schriftsteller und Maler gekümmert hat, als nächstes die Synchronsprecher kommen.

Aber wie imitiert VALL·E einen „unerhörten“ Sound in 3 Sekunden?

VALL-E analysiert Audio mit Sprachmodellen. Es synthetisiert Sprache basierend auf „ungehörten“ Klängen der KI, d. h. Zero-Sample-Lernen.

Die traditionelle Text-to-Speech-Lösung ist im Grunde ein Pre-Workout-Modus zusammen mit einer Feinabstimmung. Wenn es in einem Szenario mit einer Nullprobe verwendet wird, führt dies zu einer geringen Ähnlichkeit und Natürlichkeit der erzeugten Sprache.

Auf dieser Grundlage kam VALL-E aus dem Nichts und schlug eine andere Idee als das traditionelle Gesangsmodell vor.

Verglichen mit dem traditionellen Modell, das das Mel-Spektrum zum Extrahieren von Merkmalen verwendet, übernimmt VALL-E die Sprachsynthese direkt als Aufgabe des Sprachmodells, wobei ersteres kontinuierlich und letzteres diskret ist.

Insbesondere der traditionelle Sprachsyntheseprozess ist oft der Pfad „Phonem → Mel-Spektrogramm (Mel-Spektrogramm) → Wellenform“.

Aber VALL -E transformierte diesen Prozess in „Phonem→diskrete Audiocodierung→Wellenform“:

Auch in Bezug auf das Modelldesign ähnelt VALL-E VQVAE. Quantisiert Audio in eine Reihe diskreter Tokens. Der erste Quantisierer ist für die Erfassung des Audioinhalts und der Identitätsmerkmale des Sprechers verantwortlich, während der zweite Quantisierer für die Signalverfeinerung zuständig ist. was natürlicher klingt:

Dann, konditioniert durch den Text und die 3-Sekunden-Audioaufforderung, gibt es autoregressiv eine diskrete Audiocodierung aus:

Aber nicht nur das, neben der Zero-Sample-Sprachsynthese unterstützt VALL-E auch die Sprachbearbeitung und die Erstellung von Sprachinhalten in Kombination mit GPT-3.

Der Umgebungshintergrundsound kann ebenfalls wiederhergestellt werden

Den synthetisierten Stimmeffekten nach zu urteilen, kann VALL-E mehr als nur die Klangfarbe des Sprechers wiederherstellen.

Dabei wird nicht nur die Tonhöhe vor Ort imitiert, sondern auch eine Vielzahl unterschiedlicher Sprechgeschwindigkeiten unterstützt. Dies sind beispielsweise zwei unterschiedliche Sprachgeschwindigkeiten, die VALL-E bereitstellt, wenn derselbe Satz zweimal gesprochen wird, die tonale Ähnlichkeit jedoch immer noch hoch ist:

Gleichzeitig kann auch der Hintergrund-Ambient-Sound des anderen Teilnehmers genau wiederhergestellt werden.

Darüber hinaus kann VALL-E eine Vielzahl von Emotionen des Sprechers nachahmen, einschließlich verschiedener Arten wie z. B. wütend, schläfrig, neutral, Freude und Übelkeit.

Erwähnenswert ist, dass der für das VALL·E-Training verwendete Datensatz nicht besonders groß ist.

Verglichen mit Whisper von OpenAI, das 680.000 Audiotrainingsstunden erforderte und nur mehr als 7.000 Sprecher und 60.000 Trainingsstunden verwendete, übertraf VALL-E vortrainiertes Text-to-Speech in Bezug auf die Ähnlichkeit mit Model YourTTS Text-to-Speech.

Darüber hinaus hat YourTTS während des Tranings die Stimmen von 97 von 108 Sprechern vorab gehört, im eigentlichen Test bleibt es aber immer noch hinter VALL-E zurück.

Zu den Bereichen, in denen es angewendet werden kann:

Es kann nicht nur verwendet werden, um Ihre eigene Stimme nachzuahmen, um beispielsweise Menschen mit Behinderungen dabei zu helfen, ein Gespräch mit anderen zu führen, sondern Sie können es auch verwenden, um für sich zu sprechen, wenn Sie dies nicht möchten. Natürlich kann es auch für Hörbuchaufnahmen verwendet werden.

VALL-E ist jedoch noch nicht Open Source und Sie müssen möglicherweise etwas länger warten, um es auszuprobieren.

Pierpaolo Figuccia
Pierpaolo Figuccia

Nerd, leidenschaftlicher Technik-, Foto- und Videomacher. Und natürlich liebe ich Xiaomi-Produkte!

zeichnen
benachrichtigen
Gast

0 Kommentare
Inline-Feedbacks
Alle Kommentare anzeigen
XiaomiToday.it
Logo