Das Innenleben von AlphaZero

von Albert Silver
08.12.2018 – AlphaZero, das Programm, das sich selbst das Schachspielen beigebracht hat, sorgt weiter für Aufregung. In einem Artikel in der Dezemberausgabe des renommierten Fachmagazins "Science" geben die Entwickler Einblicke in das Innenleben ihres Programms - und verraten, welche Eröffnung AlphaZero für die beste hält. | Bild: Deep Mind

ChessBase 15 - Premiumpaket ChessBase 15 - Premiumpaket

ChessBase 15 ist die persönliche Schach-Datenbank, die weltweit zum Standard geworden ist. Und zwar für alle, die Spaß am Schach haben und auch in Zukunft erfolgreich mitspielen wollen. Das gilt für den Weltmeister ebenso wie für den Vereinsspieler oder den Schachfreund von nebenan.

Mehr...

Neues über AlphaZero

Als AlphaZero Ende letzten Jahres der Öffentlichkeit vorgestellt wurde, sorgte das für Verblüffung, Bewunderung und Schock. Plötzlich kam Bewegung in die dann doch etwas schwerfällige Welt des Computerschachs, denn das neue Programm stellte Regeln und Überzeugungen in Frage, die Jahrzehnte lang als unverbrüchlich gegolten hatten. Schachspieler in aller Welt wunderten sich, was AlphaZero alles konnte und wohin das führen würde.

Denn hier gab es plötzlich ein Programm, das die gängigen Überzeugungen, wie man solche Programme konstruiert, über den Haufen warf, inklusive der Grundannahme, dass bessere Rechenleistung und größere Rechengeschwindigkeit zu größerer Spielstärke führen. AlphaZero war nicht annähernd so schnell wie Stockfish, das Programm, an dem AlphaZero gemessen wurde, ja, AlphaZero war sogar 900 Mal langsamer, aber spielte dennoch deutlich besser Schach.

Als AlphaZero dem Publikum vorgestellt wurde, ging das Hand in Hand mit der Veröffentlichung eines Artikels, der vielen Experten viele wichtige Dinge aus dem Innenleben des Programms verriet. Trotzdem witterte so mancher immer noch Betrug und es wurde  moniert, das Testmatch zwischen AlphaZero und Stockfish sei alles andere als fair gewesen, da AlphaZero auf einem "Supercomputer" lief, Stockfish jedoch nicht, und man Stockfish im Prinzip verkrüppelt hätte.

AlphaZero: Neue Erkenntnisse über Schach, Shogi und Go

Die Wettkampfbedingungen beim Stockfish - AlphaZero Match

In der Dezemberausgabe 2018 des renommierten Fachmagazins Science erschien jetzt ein weiterer Artikel über AlphaZero, der ein genaueres Licht auf die Bedingungen des Wettkampfs zwischen Stockfish und AlphaZero wirft und mehr über die dabei verwendete Hardware verrät. Im ersten Artikel wurde behauptet, Stockfish wäre auf Hardware mit 64 Threads gelaufen, wodurch das Programm 70 Millionen Stellungen pro Sekunde rechnen konnte. Die Hashtables hätten eine Größe von 32 Megabytes gehabt. Besonders dieses Detail sorgte für Empörung, denn von so kleinen Hashtables hätte Stockfish kaum etwas gehabt. Dann gab es da noch den Wettkampf über 100 Partien mit einer Bedenkzeit von einer Minute pro Zug und zu guter Letzt schließlich auch noch die geheimnisvollen vier TPUs, auf denen AlphaZero lief. Viele Anwender können vielleicht einschätzen, was eine leistungsstarke GPU bedeutet, wohingegen die Wirkungen einer TPU schwer zu messen sind.

Doch wie sich jetzt zeigt, lief Stockfish tatsächlich auf 44 Threads und 44 Cores (zwei 2.2GHz Intel Xeon Broadwell CPUs mit 22 Cores), einer Hashgröße von 32 GB, Syzygy Endspiel-Tablebases, bei einer Bedenkzeit von drei Stunden bis zur Zeitkontrolle und einem Zeitzuschlag von 15 Sekunden pro Zug. Außerdem war Stockfish 8 nicht die einzige Version, die getestet wurde, auch Stockfish 9 hatte Gelegenheit, sein Können zu zeigen. Was AlphaZero und die TPUs angeht, so weisen die Autoren des Artikels darauf hin, dass die Rechenleistung der TPUs zwar nicht genau die gleiche ist wie die eines Titan V, aber ihr doch entspricht. Das ist natürlich viel Rechenleistung, aber keineswegs die eines Supercomputers.

Die Autoren haben das Programm unter unterschiedlichen Testbedingungen geprüft, mit und ohne Eröffnungsbücher. So haben sie in einem Experiment Stockfish den Zugriff auf ein Eröffnungsbuch gestattet, während AlphaZero diesen Zugriff nicht hatte. Ein anderer Test wurde nach den Bedingungen für TCEC-Wettkämpfe durchgeführt, und hier mussten die Programme genau die Eröffnungen spielen, die vor ein paar Jahren in einem TCEC-Superfinale gespielt worden waren. Außerdem traten AlphaZero und Stockfish in Wettkämpfen mit verkürzter Bedenkzeit gegeneinander an, wobei AlphaZero nur ein Drittel der Bedenkzeit oder sogar nur ein Zehntel der Bedenkzeit zur Verfügung hatte, die Stockfish bekam. Sie wollen wissen, wie AlphaZero in einem TCEC-Superfinale gegen Stockfish abgeschnitten hätte? Hier ist die Antwort.

Aber was noch wichtiger ist: alle Partien dieser Wettkämpfe wurden veröffentlicht — mehr als 200 Partien und der englische Großmeister Matthew Sadler hat daraus 20 Partien ausgewählt, die man seiner Ansicht nach gesehen haben muss.

Grafiken, die helfen sollen, zu verstehen, wie das Programm funktioniert

Auch Shogi-Fans kamen zu ihrem Recht. 100 Partien zwischen der Shogi-Version von AlphaZero wurden veröffentlicht, zehn davon hat Yoshiharu Habu, der als "Kasparov" des Shogi gilt, ausgewählt.

Master Class Band 7: Garry Kasparov

Auf dieser DVD geht ein Expertenteam Kasparovs Spiel auf den Grund. In über 8 Stunden Videospielzeit beleuchten die Autoren Rogozenko, Marin, Reeh und Müller vier wesentliche Aspekte von Kasparovs Spielkunst: Eröffnung, Strategie, Taktik und Endspiel.

Mehr...

Ein Shogi-Experte, der sich diese Partien angeguckt hat, war verblüfft. "Ich habe mir ein paar dieser Shogi-Partien angeschaut...und sie sind vollkommen unbegreiflich. Alle bekannten Joseki (Eröffnungen) und Erkenntnisse über Königsicherheit werden ignoriert! In manchen Partien bleibt der König nicht nur im Zentrum stehen, sondern unternimmt das, was im Schach einer Königswanderung ins Zentrum im Mittelspiel entspricht, um am Ende dann wieder in die Ecke zu gehen, wo er sicher steht und seine Seite die Partie schließlich gewinnt. Unglaublich!"

Science veröffentlichte nicht nur den Artikel über AlphaZero, sondern ließ auch Leute wie Murray Campbell zu Wort kommen, einer der führenden Experten bei der Erforschung Künstlicher Intelligenz und eine der Schlüsselfiguren hinter Deep Blue. In einem Editorial verriet Garry Kasparov seine Sicht der Dinge:

(...) Ich gebe zu, dass ich mich gefreut habe, dass AlphaZero einen dynamischen, offenen Stil hat, wie ich. Nach herkömmlicher Auffassung nähern sich die Maschinen der Perfektion mit endlosen, trockenen Manövern, was dann am Ende zu vielen Remispartien führt. Aber ich habe den Eindruck, dass AlphaZero die Aktivität der Figuren höher bewertet als Material, und dass das Programm Stellungen bevorzugt hat, die in meinen Augen riskant aussahen, und in denen man aggressiv spielen musste. Schachprogramme reflektieren meistens, worauf ihre Programmierer besonders viel Wert legen und welche Vorurteile sie haben, aber da sich AlphaZero selber programmiert, würde ich sagen, dass sein Stil die Wahrheit reflektiert. Diese überlegene Spielauffassung hat dazu geführt, dass AlphaZero die besten traditionellen Programme der Welt überflügeln konnte, obwohl AlphaZero weit weniger Stellungen pro Sekunde berechnet. Das Programm ist die Verkörperung des bekannten Mottos, "klüger arbeiten, nicht härter".

AlphaZero zeigt uns, dass Maschinen Experten sein können und nicht nur Werkzeuge für Experten. Erläuterungen sind immer noch ein Problem — AlphaZero macht Schachtrainer erst einmal nicht arbeitslos, aber das vom Programm erzeugte Wissen liefert Informationen, von denen wir alle lernen können.

Eröffnungen

The Berlin Wall

Bologan zeigt auf dieser DVD aus schwarzer Sicht alle Varianten, wie Weiß das Berliner Endspiel vermeidet und natürlich die besten Wege im Berliner Endspiel mit Schwarz in Vorteil zu kommen.

Mehr...

Im ersten Artikel wurde eine Reihe faszinierender Grafiken veröffentlicht, die zeigen, wie sich der Eröffnungsgeschmack von AlphaZero im Verlauf seiner Entwicklung und seiner Testwettkämpfe gegen Stockfish verändert hat. Im aktuellen Artikel werden diese Statistiken farbig angezeigt, und ein grüner Balken weist auf Gewinne und Verluste des Programms in bestimmten Eröffnungen hin.

Faszinierend ist auch die Analyse, welche Folge von 6-Halbzügen das Progamm im Zuge seiner Entwicklung favorisiert, wenn es gegen sich selbst spielt. Anders gesagt, welche Eröffnung mit sechs Halbzügen es für beide Seiten für die beste hält. AlphaZero hat im Laufe seiner schachlichen Entwicklung 700.000 Schritte durchlaufen, und die unten stehenden Grafiken zeigen, welche Eröffnungen AlphaZero nach 50.000 oder 143.000 Entwicklungsschritten für ideal hielt, bis das Programm schließlich die höchste Stufe seiner Entwicklung bei der Eröffnungswahl erreicht hatte und - wir müssen jetzt stark sein - zur Berliner Verteidigung griff.

Die Berliner Verteidigung als logische Entwicklung der Eröffnungstheorie?

Manche werden AlphaZeros Entscheidung für die Berliner Verteidigung als Rückschritt begreifen. Denn nach 608.000 Schritten hat das Programm geglaubt, der klassische Spanier wäre die ideale Eröffnung.

Was man daraus lernen kann

Für Entwickler und Programmierer ist dieser Artikel ein Geschenk des Himmels, denn er beantwortet eine ganze Reihe offener Fragen in Bezug auf die Parameter, die im Training und beim Spielen zum Einsatz kamen und gibt wirklich aufschlussreiche Einblicke in die Innnenwelt von AlphaZero. Was die genaue Implementierung betrifft, so hat Deep Mind, Beispiele für, wie sie es nennen,  Pseudocode veröffentlich, der jedoch ausreicht, um zu erkennen, wie etliche der Algorithmen programmiert werden könnten.

Ist die Debatte um AlphaZero damit zu Ende? Wohl kaum. Denn wie Demis Hassabis vor kurzem erklärt hat, wurde bereits eine neue Version von AlphaZero entwickelt, die stärker ist als die, mit der sich der Artikel beschäftigt. Machen Sie sich auf weitere Neuigkeiten gefasst!

Übersetzung aus dem Englischen: Johannes Fischer


Die Partien von AlphaZero nachspielen

 

Endgame Turbo 5 auf USB Stick

Perfekte Endspielanalysen und einen gewaltigen Elo-Schub für Ihre Engines im Endspiel. Das bringt Ihnen der neue Endspiel Turbo 5.

Mehr...


Links


Albert Silver ist Redakteur und Autor. Er lebt in Rio de Janeiro in Brasilien.

Diskutieren

Regeln für Leserkommentare

 
 

Noch kein Benutzer? Registrieren