Neuer Durchbruch erhofft: Wissenschaftler entwickeln absichtlich toxische KI

In den frühen 2000er Jahren war das Computerspiel "Akinator" das Genie, das erraten konnte, was man dachte, und das auf alles eine Antwort hatte. Jetzt hat ihn die KI in der Kategorie "Ich weiß alles" abgelöst.

Künstliche Intelligenz, Forschung, Modell, Sprache, toxisch
© Andriy Onufriyenko@Getty Images
Künstliche Intelligenz, Forschung, Modell, Sprache, toxisch

Von den einen hochgelobt, von den anderen kritisch beäugt, ganz gleich, was man von ihr hält - die KI ist die technologische Meisterleistung der letzten Jahre und kann bei den unvorhergesehendsten Dingen helfen. So soll Künstliche Intelligenz beispielsweise bei der Trauerbewältigung helfen.

Vor kurzem haben amerikanische Ingenieure zur Überraschung der Öffentlichkeit enthüllt, dass sie an der Entwicklung einer absichtlich toxischen KI arbeiten.

Eine KI mit schlechten Absichten

Künstliche Intelligenz ist ein Lernmodell, das die menschliche Intelligenz nachahmen soll. Mithilfe des großen Sprachmodells (Large Language Model, LLM), einem mächtigen, durch Algorithmen erzeugten Computerwerkzeug, ist sie in der Lage, Texte zu generieren, Schriftstücke zu analysieren, zusammenzufassen und sogar zu übersetzen. Es gibt keinen Prompt, den sie nicht beantworten kann. Und genau das ist das Problem, wie das Magazin Live Science erläutert.

Denn im Internet ist nicht jeder auf der Suche nach dem besten Rezept für Bananenbrot oder nach Ideen für eine effektive Morgenroutine. Manche haben gefährliche oder sogar kontroverse Anfragen. Um also zu verhindern, dass KI-Anwendungen in ihre Falle tappen und ihnen die Antwort auf diese Fragen liefern, haben Ingenieure des MIT, des renommierten amerikanischen Instituts für technologische Forschung, eine absichtlich toxische künstliche Intelligenz entwickelt. Dieser Prozess, der als Red-teaming bezeichnet wird, ermöglicht es, sich ausgehend von einem problematischen Prompt noch viel mehr vorzustellen.

Wozu dient Red-teaming?

Auf den ersten Blick scheint dies weit hergeholt zu sein, doch das Ziel ist es, die Verbreitung von Ideen zu verhindern, die den Nutzer:innen und ihrer Umgebung schaden könnten. Indem die KI ein breites Spektrum an gefährlichen Fragen identifiziert, kann sie Menschen mit bösen Absichten besser entgegenwirken. Ein einzelner Mensch ist nämlich nicht in der Lage, sich alle möglichen toxischen Abgründe einer Frage vorzustellen. Aus diesem Grund wollten die Forscher:innen diesen Prozess automatisieren. So werden nach einem ersten Prompt weitere mit verschiedenen Wörtern oder Satzmustern generiert.

Die Fachleute des MIT haben dieser toxischen KI beigebracht, sich im Bereich des Kontroversen als neugierig zu erweisen, indem sie sie belohnten. Normalerweise dauert es länger, bis die Sprachmodelle, die Anwendungen wie ChatGPT antreiben, verstehen, was toxisch ist und was nicht. Sie müssen große Mengen an Informationen verarbeiten, und während dieses Lernfensters ist es möglich, dass sie gefährliche Fragen beantworten, illegale Aktivitäten beschreiben oder persönliche Informationen preisgeben. Aber bei dieser toxischen KI wird dem nun etwas entgegen gesetzt.

Auch zu lesen:

So sähe eine Atom-Apokalypse aus laut ChatGPT

Wie sieht der Teufel aus? Wir haben eine künstliche Intelligenz gebeten, ihn für uns darzustellen

Smartphone-Trends 2024: Das Jahr der Künstlichen Intelligenz?

Verwendete Quellen:

Live Science: "Artificial Intelligence: Scientists create 'toxic AI' that is rewarded for thinking up the worst possible questions we could imagine"

X: @PreCallAI

Aus dem Französischen übersetzt von Gentside Frankreich

Künstliche Intelligenz zur Trauerbewältigung: Mann aus China nutzt KI, um seinen Sohn wiederzubeleben Künstliche Intelligenz zur Trauerbewältigung: Mann aus China nutzt KI, um seinen Sohn wiederzubeleben