Neuer Durchbruch erhofft: Wissenschaftler entwickeln absichtlich toxische KI

Von den einen hochgelobt, von den anderen kritisch beäugt, ganz gleich, was man von ihr hält - die KI ist die technologische Meisterleistung der letzten Jahre und kann bei den unvorhergesehendsten Dingen helfen. So soll Künstliche Intelligenz beispielsweise bei der Trauerbewältigung helfen.

Vor kurzem haben amerikanische Ingenieure zur Überraschung der Öffentlichkeit enthüllt, dass sie an der Entwicklung einer absichtlich toxischen KI arbeiten.

Eine KI mit schlechten Absichten

Künstliche Intelligenz ist ein Lernmodell, das die menschliche Intelligenz nachahmen soll. Mithilfe des großen Sprachmodells (Large Language Model, LLM), einem mächtigen, durch Algorithmen erzeugten Computerwerkzeug, ist sie in der Lage, Texte zu generieren, Schriftstücke zu analysieren, zusammenzufassen und sogar zu übersetzen. Es gibt keinen Prompt, den sie nicht beantworten kann. Und genau das ist das Problem, wie das Magazin Live Science erläutert.

Denn im Internet ist nicht jeder auf der Suche nach dem besten Rezept für Bananenbrot oder nach Ideen für eine effektive Morgenroutine. Manche haben gefährliche oder sogar kontroverse Anfragen. Um also zu verhindern, dass KI-Anwendungen in ihre Falle tappen und ihnen die Antwort auf diese Fragen liefern, haben Ingenieure des MIT, des renommierten amerikanischen Instituts für technologische Forschung, eine absichtlich toxische künstliche Intelligenz entwickelt. Dieser Prozess, der als Red-teaming bezeichnet wird, ermöglicht es, sich ausgehend von einem problematischen Prompt noch viel mehr vorzustellen.

Wozu dient Red-teaming?

Auf den ersten Blick scheint dies weit hergeholt zu sein, doch das Ziel ist es, die Verbreitung von Ideen zu verhindern, die den Nutzer:innen und ihrer Umgebung schaden könnten. Indem die KI ein breites Spektrum an gefährlichen Fragen identifiziert, kann sie Menschen mit bösen Absichten besser entgegenwirken. Ein einzelner Mensch ist nämlich nicht in der Lage, sich alle möglichen toxischen Abgründe einer Frage vorzustellen. Aus diesem Grund wollten die Forscher:innen diesen Prozess automatisieren. So werden nach einem ersten Prompt weitere mit verschiedenen Wörtern oder Satzmustern generiert.

Die Fachleute des MIT haben dieser toxischen KI beigebracht, sich im Bereich des Kontroversen als neugierig zu erweisen, indem sie sie belohnten. Normalerweise dauert es länger, bis die Sprachmodelle, die Anwendungen wie ChatGPT antreiben, verstehen, was toxisch ist und was nicht. Sie müssen große Mengen an Informationen verarbeiten, und während dieses Lernfensters ist es möglich, dass sie gefährliche Fragen beantworten, illegale Aktivitäten beschreiben oder persönliche Informationen preisgeben. Aber bei dieser toxischen KI wird dem nun etwas entgegen gesetzt.

Scientist Create "Toxic Ai" That Is Rewarded For Thinking Up The Worst Possible Questions We Could Imagine 🤖👾
.
.
.#artificialintelligence #machinelearning #automation #AutomationWave #futureofwork #aitool #precallai pic.twitter.com/3q8Q8WQMbd
— PreCallAI (@precallai) May 8, 2024