KI lernt bei Q*bert zu betrügen, wie es noch kein Mensch zuvor getan hat

Eine KI hat es geschafft, mit dem Besten zu betrügen, was die Menschheit zu bieten hat, nachdem sie im klassischen Arcade-Spiel Q*bert einen Exploit entdeckt und damit gelaufen ist.

Während frühere Iterationen der KI Q*bert richtig spielen würden, entdeckt sie irgendwann beim Erlernen der Funktionsweise des Spiels einen Exploit, mit dem sie wahnsinnige Punkte sammeln kann. Natürlich wiederholt er, wie jeder Spieler, der Punkte jagt, den Vorgang, damit er seine Punktzahl auf die effektivste Weise erhöhen kann.

Im Video unten sehen Sie, wie sich die KI auf den Plattformen durchsetzt. Auf den ersten Blick sieht es so aus, als würde es ziellos zwischen den Plattformen springen. Anstatt den Spielfortschritt in die nächste Runde zu sehen, bleibt Q*bert in einer Schleife stecken, in der alle Plattformen zu blinken beginnen – hier kann die KI dann in einem Punkterausch weitergehen und riesige Punkte sammeln.

WEITERLESEN: Einer der umstrittensten Spielerekorde wurde endlich diskreditiert

Farbe der Windows 10-Taskleiste ändern

Wie die KI den Q*bert-Krieg gewann

Die KI brach den Allzeitrekord für den Titel und erzielte dank ihrer Programmierung des Evolutionsstrategiealgorithmus eine unglaublich hohe Punktzahl. Evolutionsstrategien (ES) unterscheiden sich vom üblichen Reinforcement Learning (RL), das traditionelle KI verwendet, da es aufgrund seines generationsübergreifenden Lernens als skalierbarer angesehen wird.

Jede Lernschleife wird als Generation bezeichnet und setzt ihre Aufgabe fort, bis eine festgelegte Bedingung (in diesem Fall ein Highscore) erfüllt ist. Mit jeder nachfolgenden Generation absorbiert die KI das Wissen der vorherigen Generation und kann daher das gleiche Ziel besser erreichen und übertreffen. Machen Sie weiter und Sie erhalten eine KI, die in ihrer Aufgabe absolut konkurrenzlos ist. Genau das ist hier mit dem Q*bert-Score passiert.

Umrissen in das Papier , das letzte Woche von Forschern der Universität Freiburg veröffentlicht wurde, scheint es, dass der Fehler keine bekannte Größe war. Obwohl sie nicht allzu überrascht sind, den Fehler zu finden, ist es interessant zu sehen, wie die KI dann vorging und lernte, ihn jedes Mal auszunutzen, um ihr Scoring-Potenzial zu maximieren.

WEITERLESEN: Diese künstliche Intelligenz hat gelernt, Super Mario Bros . zu meistern

Um den Fehler zu finden, musste der Agent zunächst lernen, den ersten Level fast abzuschließen – dies geschah nicht auf einmal, sondern mit vielen kleinen Verbesserungen, erklärten die Forscher Das Register . Wir vermuten, dass irgendwann im Training eine der Nachkommenlösungen auf den Fehler gestoßen ist und im Vergleich zu ihren Geschwistern eine viel bessere Punktzahl erreicht hat, was wiederum ihren Beitrag zum Update erhöht – ihr Gewicht war im gewichteten Mittel am höchsten. Dies bewegte die Lösung langsam in den Bereich, in dem immer mehr Nachkommen auf denselben Fehler gestoßen sind.

Wir kennen die genauen Bedingungen, unter denen der Fehler auftritt, nicht; es ist möglich, dass es nur auftritt, wenn der Agent einem suboptimal erscheinenden Muster folgt [zum Beispiel wenn der Agent Zeit verschwendet oder sogar ein Leben verliert]. Wenn dies der Fall wäre, wäre es für Standard-RL extrem schwierig, den Fehler zu finden: Wenn Sie inkrementelle Belohnungen verwenden, lernen Sie Strategien, die schnell zu einer Belohnung führen, anstatt Strategien zu lernen, die für eine Weile nicht viele Belohnungen bringen, und dann plötzlich groß gewinnen.

Siehe verwandte Dragster-Champion Todd Rogers hat nach 35 Jahren gerade seine Krone verloren Diese künstliche Intelligenz lernt seit 17 Tagen, Super Mario Bros 1-2 zu meistern Sehen Sie, wie diese KI in GTA V auf Twitch das Fahren lernt

Trotz der wunderbaren Ergebnisse des Bots sagen die Forscher jedoch nicht, dass dies ein Fall ist, um ES-Lernen gegenüber RL zu fördern. Tatsächlich haben beide Systeme ihre eigenen Probleme und eine Kombination aus beiden wird weitgehend als die beste Option für die Zukunft angesehen.

Die gleiche ES-Methode bei anderen Atari-Spielen brachte nicht annähernd die gleichen positiven Ergebnisse. Auf der anderen Seite ist RL dafür verantwortlich, links, rechts und in der Mitte Rekorde zu brechen, einschließlich des Schlagens des weltbesten GO-Spielers. ES hat jedoch immer noch seinen eigenen Platz in der Sache, und tatsächlich führt Nvidia einen Großteil seines KI-Trainings durch, da es mehr Rechenleistung erfordert, aber über einen längeren Zeitraum bessere Ergebnisse erzielt.

Unabhängig davon, welcher Weg die Zukunft der KI-Entwicklung werden wird, zumindest ist dieser Bot, der das System betrügt, nicht so schlimm wie dieser jetzt in Ungnade gefallener Videospiel-Weltmeister .

**KI lernt bei Q*bert zu betrügen, wie es noch kein Mensch zuvor getan hat**

Wie die KI den Q*bert-Krieg gewann

Interessante Artikel

So blockieren Sie das Windows 10-Upgrade

Die 13 besten Greasemonkey- und Tampermonkey-Benutzerskripte

Tipp Der Redaktion

So erstellen Sie einen Server in Unturned

Wenn Sie mehr Kontrolle über das Spiel haben oder einfach nur den Zugriff auf zufällige Spieler beschränken möchten, können Sie einen Server in Unturned hosten. Beliebte Server sind oft überfüllt, was zu inkonsistenten Verbindungen führt. Wenn Sie sich fragen

Verwandeln Sie den Task-Manager mit der Funktion 'Zusammenfassungsansicht' in ein Widget

Beschreibt, wie der Task-Manager mit der Funktion 'Zusammenfassungsansicht' in ein Widget umgewandelt wird

Dyson 360 Eye im Test: Der ultimative Roboterstaubsauger

Die wenigsten von uns saugen wirklich gerne, deshalb ist die Idee eines Reinigungsroboters so reizvoll. Leider hat die Realität dieses Versprechen noch nicht erfüllt, da die meisten Roboter-Staubsauger kaum mehr als

So machen Sie Ihr Overwatch-Profil privat

Ein teambasiertes Spiel wie Overwatch zu spielen, ist am besten mit Freunden oder Gildenkameraden. Die meiste Zeit landet man jedoch in Pickup Groups (PUGs) mit einer Reihe anonymer Benutzer. Behalten Sie in diesen Fällen Ihr Overwatch-Profil bei

So scannen Sie Lebensmittel in MyFitnessPal

MyFitnessPal enthält eine riesige Lebensmitteldatenbank, mit der Sie Ihre Kalorien im Auge behalten können. Da sich jedoch so viele Artikel in der Datenbank befinden, kann es schwierig sein, den gerade konsumierten Artikel zu finden. Zum Glück ist die

Rokus neue AGB machen es nahezu unmöglich, das Unternehmen zu verklagen

Roku hat eine neue Servicevereinbarung veröffentlicht, die erfordert, dass Sie auf einige Ihrer Grundrechte verzichten, um die Dienste zu nutzen, und die einzige Möglichkeit, sich abzumelden, ist schriftlich.

Apple iPhone 4S Bewertung