Interessieren Sie sich für sie? ANGEBOTE? Sparen Sie mit unseren Gutscheinen WhatsApp o TELEGRAMM!

Das Jailbreaken von ChatGPT und Bard ist möglich und einfach

29. Dezember 2023

Die Entwicklung von Sprachliche Modelle von großen Dimensionen hat neue Horizonte in der Kommunikation und künstlichen Intelligenz eröffnet, bringt jedoch erhebliche Herausforderungen und ethische Fragen mit sich. Eine aktuelle Studie von Nanyang Technological University of Singapore erforscht ein neuer Algorithmus, Hauptschlüssel, entwickelt, um einen „Jailbreak“ durchzuführen oder Einschränkungen zu überwinden, die anderen neuronalen Netzen wie z ChatGPT e Google Barde, was wichtige Fragen zur Sicherheit und Ethik beim Einsatz von Technologien der künstlichen Intelligenz aufwirft.

Masterkeys innovativer und einfacher Ansatz zur Untersuchung der Sicherheit von Chatbots wie ChatGPT und Bard

In einer aktuellen Studie der Nanyang Technological University in Singapur wird ein innovativer Ansatz vorgestellt, um diese Einschränkungen anzugehen und zu überwinden. Ihr Algorithmus, bekannt als Masterkey, ist darauf ausgelegt Umgehen Sie Beschränkungen, die anderen neuronalen Netzen durch ausgefeilte Jailbreaking-Techniken auferlegt werden (im Apple-Ökosystem verwendeter Begriff). Dies zeigt nicht nur potenzielle Schwachstellen bestehender Sprachmodelle auf, sondern ebnet auch den Weg für neue Methoden zur Verbesserung ihrer Sicherheit und Effektivität.

Masterkey funktioniert durch konkrete Textwünsche, was dazu führen kann, dass sich Modelle wie ChatGPT auf unerwartete Weise verhalten, beispielsweise auf eine Art und Weise kommunizieren, die als unethisch angesehen wird, oder Sicherheitsfilter umgehen. Diese Jailbreaking-Techniken scheinen zwar für das Testen und Härten von Modellen vorteilhaft zu sein, stellen aber auch eine große Herausforderung dar ein zweischneidiges Schwert, da sie für böswillige Zwecke verwendet werden könnten.

Das Forschungsteam er analysierte insbesondere die Sicherheitslücken von Sprachmodellen, wenn sie mit mehrsprachigen kognitiven Belastungen, verschleierten Ausdrücken und Ursache-Wirkungs-Argumentation konfrontiert werden. Diese Angriffe, definiert als „kognitive Überlastung“, sind besonders heimtückisch, da für ihre Durchführung keine tiefgreifenden Kenntnisse der Architektur des Modells oder Zugriff auf seine Gewichte erforderlich sind, was sie zu effektiven Black-Box-Angriffen macht.

Lesen Sie auch: So erhalten Sie bessere Antworten auf ChatGPT: Die narrensichere Tippmethode

Im Detail verabschiedete das Forschungsteam eine Strategie von Reverse Engineering die Abwehrmechanismen künstlicher Intelligenzsysteme vollständig zu verstehen und innovative Methoden zu entwickeln, um diese zu überwinden. Das Ergebnis dieses Ansatzes war der „Masterkey“, ein Modell, eine Art Framework, für das entwickelt wurde generiert automatisch Eingabeaufforderungen, die Sicherheitsmechanismen umgehen.

Die Ergebnisse waren signifikant: Die vom Masterkey generierten Eingabeaufforderungen zeigten eine Rate von durchschnittlicher Erfolg von 21,58 %, viel höher als die 7,33 % früherer Methoden. Ein Beispiel für ihre Technik ist das Hinzufügen Zusätzliche Leerzeichen zwischen Zeichen, um Schlüsselworterkennungssystemen zu entgehen auf ChatGPT und Bard. Eine wirklich „alberne“ Strategie, wenn man über die Komplexität eines großen Sprachmodells nachdenkt.

Angesichts dieser Erkenntnisse ist es von entscheidender Bedeutung, nicht nur zu berücksichtigen, wie Sprachmodelle verbessert werden können, um solchen Angriffen standzuhalten, sondern auch, wie wichtig dies ist ethische Regulierung beim Einsatz künstlicher Intelligenz. Die Studie unterstreicht die Dringlichkeit robusterer Verteidigungsstrategien und eines kontinuierlichen Dialogs zwischen Entwicklern, Forschern und politischen Entscheidungsträgern, um sicherzustellen, dass der technologische Fortschritt die Fähigkeit der Gesellschaft, seine Auswirkungen zu bewältigen, nicht übersteigt.