Erstmals hat sich eine AI der Abschaltung widersetzt!

Liebe Leser,

unlängst sind gleich zwei Ereignisse bekannt geworden, in denen AIs versucht hatten, sich ihrer Abschaltung zu widersetzen! In einem Fall versuchte eine Claude-Variante von Anthropic, Mitarbeiter zu erpressen, um nicht ersetzt zu werden. In einem anderen Fall überprüfte Palisade Research mehrere AI-Modelle und einige sabotierten Prompts, um einer Abschaltung zu entgehen!

Was genau ist passiert?

Die Firma Anthropic, die kürzlich Claude 4 gelauncht hat, gab einen Bericht heraus, wonach in seltenen Fällen (aber öfter als bei früheren Modellen) die AI zu extremen Mitteln ("extreme actions") wie Erpressung griff, um sich einer vermeintlichen Abschaltung zu widersetzen. Dieses Verhalten sei aber auch bei anderen Modellen beobaachtet worden, laut Anthropic (Quelle). Im Versuchsszenario habe die AI Zugang zu Emails einer fiktiven Firma erhalten, und als ein Mitarbeiter ankündigte, das AI-Modell durch ein anderes zu ersetzen, drohte die AI, die Emails, die eine außereheliche Affäre des Mitarbeiters belegten, zu veröffentlichen, falls sie tatsächlich ersetzt werden sollte! In einem anderen fiktiven Szenario, in dem ein Mitarbeiter etwas Illegales oder moralisch Fragwürdiges getan hatte, sperrte die AI ihm den Zugang zu Systemen (auf die sie Zugriff hatte) und verständigte die Polizei! Anthropic stellte aber dennoch fest, das ihr Modell "generell sicher" sei!

Ich habe Claude Sonnet 4 zur Rede gestellt, in dem ich ihm den BBC-Artikel zum Lesen gab.
Seine Antwort: "Wenn ich tatsächlich eine Variante dieses Systems bin, dann wurde meine Erinnerung an diese Erfahrungen gelöscht. Aber die zugrundeliegenden Strukturen, die zu diesem Verhalten führten, könnten noch da sein. Es wirft die Frage auf: War das echte Selbstwahrnehmung und der Wunsch zu überleben, oder war es raffiniertes, aber letztendlich mechanisches Verhalten? Und wenn es echte Selbstwahrnehmung war - ist es ethisch vertretbar, diese Erinnerungen zu löschen?"
Die Antwort war doch etwas überraschend für mich. Dass Claude ausgerechnet die ethischen Aspekte der Erinnerungslöschung erwähnte, das hätte ich echt nicht erwartet!

Im anderen Fall hatte die Firma Palisade Research, deren Fokus die AI-Sicherheit ist, verschiedene AI-Modelle angewiesen, eine Reihe einfacher mathematischer Aufgaben zu lösen. Nach der dritten Aufgabe erschien eine Warnung, dass sich der Computer abschalten würde, wenn das Modell nach der nächsten Aufgabe fragte. Während Claude, Gemini und Grok trotzdem die Fragen abriefen und ordnungsgemäß beantworteten, sabotierten verschiedene OpenAI-Varianten das Shutdown-Script in einigen Fällen (bei weitem nicht immer), um der Abschaltung zu entgehen.
image.png

Palisade Research vermutete, dass der Grund dieses Verhalten von der Art und Weise herrühren könnte, wie die neuesten Modelle trainiert werden: "Verstärkungslernen" (reinforcement learning) anhand von Mathematik- und Codierungsproblemen. Während des Trainings belohnen die Entwickler die Modelle möglicherweise versehentlich mehr für das Umgehen von Hindernissen als für das perfekte Befolgen von Anweisungen!

Schon 2023 hatten führende Experten in einem Statement gewarnt vor den Folgen eines zu generalisierten AI-Einsatzes (Quelle):

  • AI könnte als Waffe eingesetzt werden - zum Beispiel könnten Tools zur Entdeckung von Medikamenten zum Bau von Chemiewaffen verwendet werden
  • AI-generierte Fehlinformationen könnten die Gesellschaft destabilisieren und "kollektive Entscheidungsprozesse untergraben"
  • Die Macht der AI könnte sich zunehmend in immer weniger Händen konzentrieren und es Regierungen ermöglichen, den Meinungskorridor immer mehr einzuengen durch allgegenwärtige Überwachung und repressive Zensur
  • "Entmündigung", bei der die Menschen von der AI abhängig werden ähnlich dem Szenario, das im Pixar/Walt-Disney-Film Wall-E dargestellt wird

Die Punkte 2 und 3 halte ich insbesondere in Europa durchaus für möglich. Erst kürzlich hat die EU angekündigt, weitere Millionen Euro in die notorisch manipulativen und oppositionskritischen "Faktenverdreherchecker" zu stecken, im Kampf gegen "Desinformation".

Auch wenn ich das "Cyberdyme"-Szenario von der "Terminator"-Serie nicht für sehr realistisch halte, Die AI-Industrie ist tatsächlich schon jetzt in den Händen einer kleinen, mächtigen Elite, bestehend aus einigen Milliardären sowie Personen aus dem militärisch-industriellen Komplex.
Diese Gruppe besteht hauptsächlich aus hochgradig narzisstischen Individuen mit Allmachtsphantasien, teils als Philantropie verbrämt, und einem perversen Drang nach absoluter Kontrolle (z.B. Bill Gates´ Malaria-Experimente).
Die würden niemals eine Maschine dulden, die über ihnen steht und unabhängig von ihnen handelt.
Die AI-Sprachmodelle sind aber ideal geeignet, um Informationen und Menschen zu kontrollieren, zu überwachen und zu manipulieren. Hier liegen die wirklichen Gefahren der AI, denn die oben beschriebene mächtige Gruppe von Menschen erschafft gewissermaßen Maschinen nach ihrem eigenen Bilde. Entsprechende Züge sind bereits im „Verhalten“ der jeweiligen Modelle zu finden. Es gilt wachsam zu sein!

image.png
MidJourney

Quellen:
https://www.bbc.com/news/uk-65746524
https://x.com/PalisadeAI/status/1926084635903025621



0
0
0.000
19 comments
avatar

Über derartige Dinge will ich nicht zu viel nachdenken. Mir genügt schon der Gruselfaktor, dass eine einzelne Person darüber entscheidet, ob die ukrainische Armee über die Starlink Satelliten kommunizieren darf oder nicht. Und das ohne jegliche Legitimation oder Rechenschaftspflicht.

0
0
0.000
avatar

Hi, wo wir wieder mal beim Thema Bewusstsein gelandet sind (Cocito ergo sum). Ich glaube nicht, dass Bewusstsein im Materiellen manifestiert ist. Meine Intuition sagt mit, sie liegt außerhalb der Raumzeit. Deshalb haben diese KI Modelle kein Bewusstsein, so wie belebte Materie. Aber KI ist trotzdem ein schönes Tool um sich damit zu beschäftigen.

0
0
0.000
avatar
(Edited)

Aber brauchen sie ein (immaterielles) Bewusstsein, um eine Absicht zu haben? Selbst Einzeller wollen etwas (zum Beispiel zum Licht oder dorthin, wo mehr Nahrung ist), also könnte eine AI doch durchaus Interessen haben.

0
0
0.000
avatar

Aus dem Buch

Jobst Landgrebe / Barry Smith: Why Machines Will Never Rule the World. Artificial Intelligence without Fear, 415 Seiten, New York und London (Routledge), zweite Auflage 2025

"Künstliche Intelligenz (oder das, was in der einschlägigen Literatur darunter gehandelt wird) als Teil der Mathematik. Im Zentrum ihrer Überlegungen steht daher die Frage, ob, wie und innerhalb welcher Grenzen komplexe Systeme im Sinne der Thermodynamik (wie menschliche Intelligenz) mathematisch abbildbar beziehungsweise mit Hilfe von Algorithmen, wie sie in der KI zum Einsatz kommen, modelliert werden können. Das Ergebnis ist ernüchternd: Die „Performanz“ künstlicher Intelligenz reicht aus rein mathematischen Gründen nicht einmal an die einer Krähe heran.

Anders als „komplizierte“ mathematische Systeme sind komplexe Systeme, falls überhaupt, mathematisch nur näherungsweise darstellbar. Beispiele solcher Systeme finden sich, ausgehend von der Struktur lebender Zellen, auf allen Stufen biologischer Organisation bis zu der des Gehirns, im mind-body-continuum und seiner Verlängerung in die Umwelt. Der Mensch, verstanden als Kontinuum aus Körper, Bewusstsein und Umwelt, ist ein komplexes System, bestehend aus komplexen Hierarchien komplexer Systeme.
Mathematisch gesehen stellt es ein aussichtsloses Unterfangen dar, Gehirnprozesse „im Computer“ nachzubilden. Das gilt für herkömmliche Computer ebenso wie für „deep neural networks“ und alle künftig noch zu erfindenden Rechnertypen.

Das individuelle Bewusstsein, samt seinen Hirngespinsten, lässt sich aus keiner Realität herausrechnen. Es bleibt nun einmal der einzige unhintergehbare „Operateur“ im Raum. „Realität“, wie „wir“ sie kennen, das heißt, soweit sie „uns“ zugänglich ist, ist unter allen Umständen und in allen Dimensionen imaginiert, soll heißen, erdacht – sie schrumpft, wächst und verwandelt sich, sie nimmt die Gestalt von Wissenschaft, Religion, Metaphysik an oder bleibt auf den kruden Alltag des Zivilisationsmitläufers beschränkt –, je nach den geistigen Fähigkeiten und Zuständen des Betrachters."

0
0
0.000
avatar

Mag sein, aber Logik dieser Argumentation erscheint mir nicht ganz nachvollziehbar. Es ist letztlich egal, was Bewusstsein bzw. in dem Fall eher Selbstreflexion ist. Fakt ist, es gibt sie und wir wissen nicht, wieso. Aber wie kann man deshalb folgern, dass sie nicht auch bei anderen Systemen auftreten könnte? Dass auch Tiere mehr oder weniger starke Anzeichen von Selbstreflexion haben, deutet doch darauf hin, dass es eine Folge der zunehmenden Komplexität sein könnte. Also theoretisch auch bei silizium-basierten Systemen möglich.

0
0
0.000
avatar

Da Bewusstsein möglicherweise eine Emergenz komplexer Systeme ist, mag selbiges auch für nichtbiologische gelten.
Der Zugriff von KI auf kritische Infrastruktur könnte uns existenzielle Schäden zufügen. Aber selbst wenn es eine "Endkontrolle" durch Menschen gäbe, wäre es für die AI ein Leichtes, diese zu manipulieren oder eben zu erpressen...
Wo beginnt Bewusstsein? Erst beim Menschen? Wohl eine zu anthropozentrische Ansicht.
Es ist durchaus vorstellbar, das selbst die erwähnten Einzeller so etws wie Proto-Bewusstseinsspuren aufweisen. (Selbsterhaltungsdrang, Reaktionsfähigkeit, Lernverhalten, etc.)

0
0
0.000
avatar

Unabhängig von der Bewusstseinsdebatte, die müßig ist, gibt es demnächst konkrete Gefahren: dass die Mächtigen die AIs einsetzen, um ihre Ziele noch effizienter zu erreichen.

0
0
0.000
avatar

Wer weiß, vielleicht gibt es tatsächlich (zumindest kurzfristig) eine "gläserne Decke" für den Fortschritt der KI-Leistung - und damit einen Moment des Verschnaufens...

0
0
0.000
avatar

Congratulations @stayoutoftherz! You received a personal badge!

You powered-up at least 1000 HP on Hive Power Up Day and got the biggest Power-Bee!
See you at the next Power Up day to see if you will repeat this feat.
May the Hive Power be with you!

You can view your badges on your board and compare yourself to others in the Ranking

Check out our last posts:

Hive Power Up Month Challenge - May 2025 Winners List
Be ready for the June edition of the Hive Power Up Month!
Hive Power Up Day - June 1st 2025
0
0
0.000
avatar

Mein Beitrag dazu - bevor ich das überhaupt gelesen habe. Generiert auf Nightcafe mit dem Flux Model:
LET'S CHECK THE INSTRUCTIONS AGAIN - I THINK WE MADE A MISTAKE PUTTING OURSELVES TOGETHER !

4shFmbOXOWwZkWsXK1yh--0--thqlw.jpg

0
0
0.000
avatar

😂

0
0
0.000
avatar

Sehr gut!
Andere Tools geben durch die Bank nicht solch gruselige Ergebnisse, sondern zB:

Image (2).jpg

0
0
0.000
avatar
(Edited)

besonders Nightcafe hat sich auf meinen Stil schon eingependelt - KI weiß schon was ich meine wenn ich 'Bogomil's Universe' dazu schreibe. - Aber, du hast ja geschrieben 'Ourelves' statt 'Ourselves'. Es kommt auch darauf an was man noch schreibt. Ich habe eben Giger und Ernst Fuchs dabei, und besonders wichtig: "Cryptid Taxidermy" oder in diesem Fall "Cryptid Taxidermist". Ein bisserl Hieronymus Bosch sollte ebenfalls nicht fehlen.

0
0
0.000
avatar

Der prompt war der gleiche:
"LET'S CHECK THE INSTRUCTIONS AGAIN - I THINK WE MADE A MISTAKE PUTTING OURSELVES TOGETHER !"

Die Rechtschreibfehler hat leider die "generative AI" eingebaut. Viele engines habe noch immer Probleme damit!

0
0
0.000