Interessieren Sie sich für sie? ANGEBOTE? Sparen Sie mit unseren Gutscheinen WhatsApp o TELEGRAMM!

ChatGPT ist jetzt ein Assistent, der sehen, hören und sprechen kann

25. September 2023

chatgpt akzeptiert Sprach- und Bildeingaben

ChatGPT, entwickelt von OpenAI, führt neue Funktionen ein, die Ihnen die Interaktion über Sprache und Bilder ermöglichen und bietet eine intuitive Benutzeroberfläche und mehr Möglichkeiten, ChatGPT in Ihr tägliches Leben zu integrieren. In einer aktuellen Ankündigung auf seiner Website hat OpenAI beschlossen, diese neuen Funktionen vorab zu enthüllen. Ebenso betonte er die Vorteile, die sie mit sich bringen, und die Herausforderungen, die sie im wachsenden KI-Markt mit sich bringen.

Themen dieses Artikels:

ChatGPT: Sprachinteraktion

Mit der neuen Sprachfunktion können Benutzer Folgendes tun interaktive Gespräche mit ChatGPT. Dadurch können Sie den Assistenten auch unterwegs nutzen und so das Potenzial des Chatbots steigern. Beispielsweise könnte ein Benutzer ChatGPT bitten, unterwegs eine Kindergeschichte zu erzählen, um die Sache unterhaltsamer zu gestalten.

Eine vom Chatbot erstellte Geschichte

Oder es könnte bei einem Abendessen mit Freunden eine Debatte über ein bestimmtes Thema entstehen; In diesem Fall können Benutzer mithilfe des Bots genaue Informationen erhalten und die Debatte konstruktiv lösen.

Die Sprachtechnologie von ChatGPT verwendet a Erweitertes Text-to-Speech-Modell. In Zusammenarbeit mit professionellen Synchronsprechern ist dieses Modell in der Lage, aus Text und kurzen Sprachproben humanoide Audiodaten zu generieren, wodurch die Interaktion mit ChatGPT noch natürlicher und intuitiver wird. Auch danke an Flüstern, ein von OpenAI entwickeltes Open-Source-Spracherkennungssystem, sind gesprochene Wörter mit großer Präzision in Text übertragenDadurch kann der Chatbot Benutzeranfragen verstehen und effektiv darauf reagieren.

ChatGPT: visuelle Interaktion

Wie oben kann das KI-Modell jetzt Analysieren Sie ein oder mehrere BilderDamit können Benutzer Probleme lösen, Mahlzeiten planen oder komplexe Diagramme analysieren. Beispielsweise könnte ein Benutzer ein Foto des Inhalts seines Kühlschranks einreichen. Daher sollte der Chatbot genutzt werden Analysieren Sie die vorhandenen Lebensmittel und schlagen Sie Rezepte basierend auf diesen Zutaten vor. Außerdem erhalten Sie Schritt-für-Schritt-Anleitungen für die Zubereitung.

Lesen Sie auch: GPT-4: Gemini wird der Rivale von Google sein. Hier sind die Unterschiede

Wenn sich der Benutzer außerdem auf ein bestimmtes Element im Bild konzentrieren muss, Die mobile App von ChatGPT enthält ein Zeichentool Dadurch können Sie bestimmte Bereiche des Bildes hervorheben und so die Kommunikation und Analyse noch präziser und personalisierter gestalten.

Das Bildverständnis wird durch die multimodalen Modelle GPT-3.5 und GPT-4 unterstützt. Diese fortschrittlichen Modelle Sie wenden ihre Sprachkenntnisse auf eine Vielzahl von Bildern an, wie zum Beispiel Fotos, Screenshots und Dokumente die sowohl Text als auch Bilder enthalten und es ChatGPT ermöglichen, den visuellen Kontext genau und detailliert zu verstehen und zu interpretieren.

Das ist erwähnenswert poco OpenAI hat nicht nur das integriert canva sowie DALL-E 3 in ChatGPToder das generative Bildmodell.

Wann und für wen es verfügbar sein wird

In den nächsten zwei Wochen wird OpenAI Sprache und Bilder in ChatGPT für Benutzer implementieren Benutzer mit Plus- und Enterprise-Abonnements.

Die Funktion, die Sprachinteraktion ermöglicht, wird verfügbar sein auf iOS und Android aber nicht in der Webversion, die von den meisten Menschen verwendet wird.

Stattdessen wird die Funktion zur visuellen Interaktion verfügbar sein auf allen Plattformen, also Android, iOS und Web.

Source | OpenAI