Interessieren Sie sich für sie? ANGEBOTE? Sparen Sie mit unseren Gutscheinen WhatsApp o TELEGRAMM!

Was ist Mamba, die Architektur, die darauf abzielt, GPT vollständig zu überwinden? Neue Ära der KI?

18. Januar 2024

Eine digitale Schlange repräsentiert symbolisch die Mamba-Architektur der künstlichen Intelligenz

Heute möchte ich etwas technischer vorgehen. Wir sprechen jeden Tag über künstliche Intelligenz, aber es ist richtig zu wissen, worauf sie basiert und wie sie funktioniert. In diesem Zusammenhang möchte ich Ihnen Folgendes vorstellen Mamba, eine neue Architektur, die verspricht, mich zu verändern Sprachliche Modelle wie wir sie heute kennen. Die Funktionen von Mamba sind im Vergleich zu denen von GPT extrem überlegen, ebenso wie die Möglichkeiten, die es Ihnen bietet.

Mamba ist ein neuer Horizont für künstliche Intelligenz

Die Transformer-Architektur, eingeführt im Jahr 2016 durch den Artikel „Aufmerksamkeit ist alles, was Sie brauchen„von Google stellte einen Durchbruch für Sprachmodelle dar und ermöglichte es ihnen, den Kontext in Interaktionen beizubehalten. Kurz gesagt: Architektur Transformer ist ein KI-Modell, das zum Erstellen von Modellen wie GPT verwendet wird (Generativer vortrainierter Transformator).

WIE DIE TRANSFORMER-ARCHITEKTUR FUNKTIONIERT

Das Herzstück der Transformer-Architektur ist der Mechanismus von „Aufmerksamkeit„Dadurch kann sich das Modell auf bestimmte Teile eines Textes konzentrieren, während es einen anderen generiert oder verarbeitet. Dieser Mechanismus macht Transformers besonders effektiv beim Verständnis des Kontexts und der komplexen Zusammenhänge innerhalb eines Textes. In der Praxis werden Modelle basierend auf der Transformer-Architektur wie GPT verwendet. Sie lernen in zwei Stufen, Sprache zu erzeugen und zu verstehen Die wichtigsten sind: Training (Training) und Inferenz (Textgenerierung).
Während die TAUCHERAUSBILDUNGDas Modell wird an großen Textdatensätzen trainiert, um sprachliche Strukturen, Beziehungen zwischen Wörtern, Kontext usw. zu verstehen. In der Phase von Inferenzverwendet das Modell das Gelernte, um neuen Text zu generieren, Fragen zu beantworten, Sprachen zu übersetzen und andere Sprachverarbeitungsaufgaben auszuführen.

Allerdings könnte die Entstehung von Mamba den Beginn einer neuen Ära markieren. Diese Architektur verspricht es zu sein effizienter, das in der Lage ist, einige wichtige Herausforderungen zu meistern, mit denen aktuelle Modelle wie GPT konfrontiert sind. Konkret machen drei Schlüsselaspekte Mamba zu einer vielversprechenden Architektur:

reduzierte Inferenzkosten: Ein wesentlicher Aspekt von Mamba ist die deutliche Reduzierung der Inferenzkosten. Wie ich bereits sagte, ist Inferenz der Prozess, bei dem ein KI-Modell nach dem Training das Gelernte auf neue Daten anwendet und dabei Text oder Bilder generiert. In komplexen Modellen wie GPT-3 oder GPT-4 kann dieser Prozess hinsichtlich der Rechenressourcen teuer sein. Mamba verspricht es reduzieren Sie diese Kosten um das Fünffache im Vergleich zu Transformer-basierten Modellen, was erhebliche Auswirkungen haben könnte, insbesondere für Anwendungen, die eine schnelle Antwortgenerierung erfordern oder mit großen Datensätzen arbeiten;
Kosten für lineare Aufmerksamkeitsberechnung: Der zweite Vorteil von Mamba betrifft die Effizienz bei der Berechnung der Aufmerksamkeit. Bei Transformer-Modellen die Kosten steigen praktisch (genau auf der Ebene der Macht, es handelt sich nicht um eine Redewendung) mit zunehmender Länge des Textes. Dies bedeutet, dass je länger der Text ist, desto mehr Ressourcen für seine Verarbeitung erforderlich sind, was die Praktikabilität der Modelle in einigen Anwendungen einschränkt. Mamba schlägt eine Lösung vor, bei der Die Kosten wachsen linear im Vergleich zur Größe des Aufmerksamkeitsfensters, was die Verarbeitung langer Texte überschaubarer und rechentechnisch weniger aufwändig macht;
extrem größerer Input: Mamba könnte ein maximales Eingabefenster verarbeiten bis zu 1 Million Tokenn, viel mehr als mit der Transformer-Architektur möglich ist. Das bedeutet, dass Mamba theoretisch Analysieren und verstehen Sie extrem lange Texte, beispielsweise ganze Bücher, Kohärenz und Details im Kontext wahren. Beispielsweise könnte er einen ganzen Roman analysieren und dabei vom Anfang bis zum Ende ein klares Verständnis der Charaktere, der Handlung und der Themen bewahren.

Trotz Mambas Versprechen ist die Krepppapier Raises Zweifel an der Skalierbarkeit, insbesondere im Vergleich zu riesigen Modellen wie GPT-4, das 175 Milliarden Parameter hat. Skalierbarkeit bezieht sich in sehr einfachen Worten auf Die Fähigkeit eines Systems, einen Arbeitsanstieg oder eine Größenzunahme zu bewältigen, ohne an Wirksamkeit zu verlieren. Stellen Sie sich ein kleines Restaurant vor, das mit wenigen Kunden gut zurechtkommt. Wenn das Restaurant beliebter wird und viel mehr Kunden hat, sollte es in der Lage sein, diesen Anstieg ohne Einbußen bei der Service- oder Essensqualität zu bewältigen. Wenn es gelingt, dann ist es „skalierbar“.

Mamba wurde in seinem aktuellen Zustand getestet nur mit 3 Milliarden Parametern. Es bleibt daher ungewiss, ob seine Leistung und Effizienz bei einer Skalierung auf größere Größen beibehalten oder verbessert werden können.