Haupt Streaming-Dienste KI lernt bei Q*bert zu betrügen, wie es noch kein Mensch zuvor getan hat

KI lernt bei Q*bert zu betrügen, wie es noch kein Mensch zuvor getan hat



Eine KI hat es geschafft, mit dem Besten zu betrügen, was die Menschheit zu bieten hat, nachdem sie im klassischen Arcade-Spiel Q*bert einen Exploit entdeckt und damit gelaufen ist.

Während frühere Iterationen der KI Q*bert richtig spielen würden, entdeckt sie irgendwann beim Erlernen der Funktionsweise des Spiels einen Exploit, mit dem sie wahnsinnige Punkte sammeln kann. Natürlich wiederholt er, wie jeder Spieler, der Punkte jagt, den Vorgang, damit er seine Punktzahl auf die effektivste Weise erhöhen kann.

Im Video unten sehen Sie, wie sich die KI auf den Plattformen durchsetzt. Auf den ersten Blick sieht es so aus, als würde es ziellos zwischen den Plattformen springen. Anstatt den Spielfortschritt in die nächste Runde zu sehen, bleibt Q*bert in einer Schleife stecken, in der alle Plattformen zu blinken beginnen – hier kann die KI dann in einem Punkterausch weitergehen und riesige Punkte sammeln.

WEITERLESEN: Einer der umstrittensten Spielerekorde wurde endlich diskreditiert

Farbe der Windows 10-Taskleiste ändern

Wie die KI den Q*bert-Krieg gewann

Die KI brach den Allzeitrekord für den Titel und erzielte dank ihrer Programmierung des Evolutionsstrategiealgorithmus eine unglaublich hohe Punktzahl. Evolutionsstrategien (ES) unterscheiden sich vom üblichen Reinforcement Learning (RL), das traditionelle KI verwendet, da es aufgrund seines generationsübergreifenden Lernens als skalierbarer angesehen wird.

Jede Lernschleife wird als Generation bezeichnet und setzt ihre Aufgabe fort, bis eine festgelegte Bedingung (in diesem Fall ein Highscore) erfüllt ist. Mit jeder nachfolgenden Generation absorbiert die KI das Wissen der vorherigen Generation und kann daher das gleiche Ziel besser erreichen und übertreffen. Machen Sie weiter und Sie erhalten eine KI, die in ihrer Aufgabe absolut konkurrenzlos ist. Genau das ist hier mit dem Q*bert-Score passiert.

Umrissen in das Papier , das letzte Woche von Forschern der Universität Freiburg veröffentlicht wurde, scheint es, dass der Fehler keine bekannte Größe war. Obwohl sie nicht allzu überrascht sind, den Fehler zu finden, ist es interessant zu sehen, wie die KI dann vorging und lernte, ihn jedes Mal auszunutzen, um ihr Scoring-Potenzial zu maximieren.

WEITERLESEN: Diese künstliche Intelligenz hat gelernt, Super Mario Bros . zu meistern

Um den Fehler zu finden, musste der Agent zunächst lernen, den ersten Level fast abzuschließen – dies geschah nicht auf einmal, sondern mit vielen kleinen Verbesserungen, erklärten die Forscher Das Register . Wir vermuten, dass irgendwann im Training eine der Nachkommenlösungen auf den Fehler gestoßen ist und im Vergleich zu ihren Geschwistern eine viel bessere Punktzahl erreicht hat, was wiederum ihren Beitrag zum Update erhöht – ihr Gewicht war im gewichteten Mittel am höchsten. Dies bewegte die Lösung langsam in den Bereich, in dem immer mehr Nachkommen auf denselben Fehler gestoßen sind.

Wir kennen die genauen Bedingungen, unter denen der Fehler auftritt, nicht; es ist möglich, dass es nur auftritt, wenn der Agent einem suboptimal erscheinenden Muster folgt [zum Beispiel wenn der Agent Zeit verschwendet oder sogar ein Leben verliert]. Wenn dies der Fall wäre, wäre es für Standard-RL extrem schwierig, den Fehler zu finden: Wenn Sie inkrementelle Belohnungen verwenden, lernen Sie Strategien, die schnell zu einer Belohnung führen, anstatt Strategien zu lernen, die für eine Weile nicht viele Belohnungen bringen, und dann plötzlich groß gewinnen.

Siehe verwandte Dragster-Champion Todd Rogers hat nach 35 Jahren gerade seine Krone verloren Diese künstliche Intelligenz lernt seit 17 Tagen, Super Mario Bros 1-2 zu meistern Sehen Sie, wie diese KI in GTA V auf Twitch das Fahren lernt

Trotz der wunderbaren Ergebnisse des Bots sagen die Forscher jedoch nicht, dass dies ein Fall ist, um ES-Lernen gegenüber RL zu fördern. Tatsächlich haben beide Systeme ihre eigenen Probleme und eine Kombination aus beiden wird weitgehend als die beste Option für die Zukunft angesehen.

Die gleiche ES-Methode bei anderen Atari-Spielen brachte nicht annähernd die gleichen positiven Ergebnisse. Auf der anderen Seite ist RL dafür verantwortlich, links, rechts und in der Mitte Rekorde zu brechen, einschließlich des Schlagens des weltbesten GO-Spielers. ES hat jedoch immer noch seinen eigenen Platz in der Sache, und tatsächlich führt Nvidia einen Großteil seines KI-Trainings durch, da es mehr Rechenleistung erfordert, aber über einen längeren Zeitraum bessere Ergebnisse erzielt.

Unabhängig davon, welcher Weg die Zukunft der KI-Entwicklung werden wird, zumindest ist dieser Bot, der das System betrügt, nicht so schlimm wie dieser jetzt in Ungnade gefallener Videospiel-Weltmeister .

Interessante Artikel

Tipp Der Redaktion

So verdoppeln Sie das Leerzeichen in Google Docs
So verdoppeln Sie das Leerzeichen in Google Docs
Jeder, der seit den 90er Jahren die High School und das College besucht hat, weiß um den doppelten Zeilenabstand mit einer Schriftgröße von 12, um Ihre Aufsätze und andere schriftliche Dokumente etwas länger erscheinen zu lassen. Google Docs verwendet 1.15
Leitfaden zum Free Friv Games Network
Leitfaden zum Free Friv Games Network
Friv ist ein kostenloses Online-Spielenetzwerk mit mehr als 1.000 Spielen, darunter klassische Flash-basierte Spiele. Die einfach zu spielenden Spiele sind bei Kindern und Erwachsenen beliebt.
So löschen Sie alle Fotos vom Amazon Fire Tablet
So löschen Sie alle Fotos vom Amazon Fire Tablet
Das Amazon Fire Tablet ist ein elegantes Gerät, dessen Speicherplatz jedoch nicht sehr beeindruckend ist. Aus diesem Grund müssen Sie wissen, wie Sie Ihren Speicherplatz verwalten, alle unnötigen Dinge löschen und ein Cloud-Backup erstellen. Lesen
Tag-Archiv: Flash Player Firefox wechseln
Tag-Archiv: Flash Player Firefox wechseln
Wie erstelle ich eine benutzerdefinierte Route auf Google Maps?
Wie erstelle ich eine benutzerdefinierte Route auf Google Maps?
Mit dem Google My Maps-Tool können Sie benutzerdefinierte Routen erstellen, wenn Sie Ihre Reise im Voraus planen und während der Fahrt offline darauf zugreifen möchten. Wenn Sie wissen möchten, wie Sie eine benutzerdefinierte Route auf Google Maps erstellen, haben wir es ausführlich beschrieben
So veröffentlichen Sie ein Video erneut auf Instagram
So veröffentlichen Sie ein Video erneut auf Instagram
Veröffentlichen Sie Instagram-Videos erneut als Stories und fügen Sie sie dann als Highlights zu Ihrem Profil hinzu, zeichnen Sie Ihren Bildschirm auf oder verwenden Sie eine App wie Repost für Instagram.
So erweitern Sie Ihren Desktop mit Chromecast
So erweitern Sie Ihren Desktop mit Chromecast
Google Chromecast ist eine der einfachsten Möglichkeiten, Videos von Ihren Gadgets auf Ihrem Fernseher anzusehen. Mit diesem Gerät können Sie auch ohne Smart-TV auf Videoinhalte von Online-Streaming-Websites zugreifen. Von klein auf zuschauen