Eine KI hat es geschafft, mit dem Besten zu betrügen, was die Menschheit zu bieten hat, nachdem sie im klassischen Arcade-Spiel Q*bert einen Exploit entdeckt und damit gelaufen ist.
Während frühere Iterationen der KI Q*bert richtig spielen würden, entdeckt sie irgendwann beim Erlernen der Funktionsweise des Spiels einen Exploit, mit dem sie wahnsinnige Punkte sammeln kann. Natürlich wiederholt er, wie jeder Spieler, der Punkte jagt, den Vorgang, damit er seine Punktzahl auf die effektivste Weise erhöhen kann.
Im Video unten sehen Sie, wie sich die KI auf den Plattformen durchsetzt. Auf den ersten Blick sieht es so aus, als würde es ziellos zwischen den Plattformen springen. Anstatt den Spielfortschritt in die nächste Runde zu sehen, bleibt Q*bert in einer Schleife stecken, in der alle Plattformen zu blinken beginnen – hier kann die KI dann in einem Punkterausch weitergehen und riesige Punkte sammeln.
WEITERLESEN: Einer der umstrittensten Spielerekorde wurde endlich diskreditiert
Farbe der Windows 10-Taskleiste ändern
Wie die KI den Q*bert-Krieg gewann
Die KI brach den Allzeitrekord für den Titel und erzielte dank ihrer Programmierung des Evolutionsstrategiealgorithmus eine unglaublich hohe Punktzahl. Evolutionsstrategien (ES) unterscheiden sich vom üblichen Reinforcement Learning (RL), das traditionelle KI verwendet, da es aufgrund seines generationsübergreifenden Lernens als skalierbarer angesehen wird.
Jede Lernschleife wird als Generation bezeichnet und setzt ihre Aufgabe fort, bis eine festgelegte Bedingung (in diesem Fall ein Highscore) erfüllt ist. Mit jeder nachfolgenden Generation absorbiert die KI das Wissen der vorherigen Generation und kann daher das gleiche Ziel besser erreichen und übertreffen. Machen Sie weiter und Sie erhalten eine KI, die in ihrer Aufgabe absolut konkurrenzlos ist. Genau das ist hier mit dem Q*bert-Score passiert.
Umrissen in das Papier , das letzte Woche von Forschern der Universität Freiburg veröffentlicht wurde, scheint es, dass der Fehler keine bekannte Größe war. Obwohl sie nicht allzu überrascht sind, den Fehler zu finden, ist es interessant zu sehen, wie die KI dann vorging und lernte, ihn jedes Mal auszunutzen, um ihr Scoring-Potenzial zu maximieren.
WEITERLESEN: Diese künstliche Intelligenz hat gelernt, Super Mario Bros . zu meistern
Um den Fehler zu finden, musste der Agent zunächst lernen, den ersten Level fast abzuschließen – dies geschah nicht auf einmal, sondern mit vielen kleinen Verbesserungen, erklärten die Forscher Das Register . Wir vermuten, dass irgendwann im Training eine der Nachkommenlösungen auf den Fehler gestoßen ist und im Vergleich zu ihren Geschwistern eine viel bessere Punktzahl erreicht hat, was wiederum ihren Beitrag zum Update erhöht – ihr Gewicht war im gewichteten Mittel am höchsten. Dies bewegte die Lösung langsam in den Bereich, in dem immer mehr Nachkommen auf denselben Fehler gestoßen sind.
Wir kennen die genauen Bedingungen, unter denen der Fehler auftritt, nicht; es ist möglich, dass es nur auftritt, wenn der Agent einem suboptimal erscheinenden Muster folgt [zum Beispiel wenn der Agent Zeit verschwendet oder sogar ein Leben verliert]. Wenn dies der Fall wäre, wäre es für Standard-RL extrem schwierig, den Fehler zu finden: Wenn Sie inkrementelle Belohnungen verwenden, lernen Sie Strategien, die schnell zu einer Belohnung führen, anstatt Strategien zu lernen, die für eine Weile nicht viele Belohnungen bringen, und dann plötzlich groß gewinnen.
Siehe verwandte Dragster-Champion Todd Rogers hat nach 35 Jahren gerade seine Krone verloren Diese künstliche Intelligenz lernt seit 17 Tagen, Super Mario Bros 1-2 zu meistern Sehen Sie, wie diese KI in GTA V auf Twitch das Fahren lernt
Trotz der wunderbaren Ergebnisse des Bots sagen die Forscher jedoch nicht, dass dies ein Fall ist, um ES-Lernen gegenüber RL zu fördern. Tatsächlich haben beide Systeme ihre eigenen Probleme und eine Kombination aus beiden wird weitgehend als die beste Option für die Zukunft angesehen.
Die gleiche ES-Methode bei anderen Atari-Spielen brachte nicht annähernd die gleichen positiven Ergebnisse. Auf der anderen Seite ist RL dafür verantwortlich, links, rechts und in der Mitte Rekorde zu brechen, einschließlich des Schlagens des weltbesten GO-Spielers. ES hat jedoch immer noch seinen eigenen Platz in der Sache, und tatsächlich führt Nvidia einen Großteil seines KI-Trainings durch, da es mehr Rechenleistung erfordert, aber über einen längeren Zeitraum bessere Ergebnisse erzielt.
Unabhängig davon, welcher Weg die Zukunft der KI-Entwicklung werden wird, zumindest ist dieser Bot, der das System betrügt, nicht so schlimm wie dieser jetzt in Ungnade gefallener Videospiel-Weltmeister .