Alpha Zero "Vergleich von Orang-Utans mit Äpfeln"

von André Schulz
12.12.2017 – Rechtzeitig zum Beginn der London Chess Classic veröffentlichte die Google Tochter DeepMind einen beachtenswerten Forschungserfolg ihres "Machine learning"-Projekts "Alpha Zero". Das Projekt gewann einen 100-Partien-Wettkampf gegen Stockfish deutlich. Es bleiben allerdings ein paar Fragen offen.

ChessBase 17 - Megapaket - Edition 2024 ChessBase 17 - Megapaket - Edition 2024

ChessBase ist die persönliche Schach-Datenbank, die weltweit zum Standard geworden ist. Und zwar für alle, die Spaß am Schach haben und auch in Zukunft erfolgreich mitspielen wollen. Das gilt für den Weltmeister ebenso wie für den Vereinsspieler oder den Schachfreund von nebenan

Mehr...

Alpha Zero schlägt Stockfish

Die Firma DeepMind Technologies wurde 2010 von Demis Hassabis, Shane Legg und Mustafa Suleyman als Start-up in London gegründet. Im Januar 2014 wurde das Unternehmen vom US-Konzern Google übernommen. Der Kaufpreis ist nicht bekannt, Experten schätzten ihn auf 500 Millionen Dollar. Der neue Firmenname lautet Google DeepMind. Unternehmensziel von DeepMind ist es, "künstliche Intelligenz zu verstehen", wobei man in den Ansätzen der maschinellen Lernfähigkeit die Leistungsfähigkeit des menschlichen Gehirns adaptieren möchte.

Machine learning

Im Oktober 2015 verzeichnete DeepMind einen ersten großen Erfolg im Go-Spiel. Das chinesische Go ist weitaus komplizierter als Schach und erfordert im Besonderen strategische Fähigkeiten. Vorher war es nicht möglich, die Erfordernisse des Go-Spiels mathematisch so umzusetzen, dass Go-Programme mit den besten Go-Spielern mithalten konnten. Durch spezielle Selbstlern-Heuristiken entwickelte sich das DeepMind-Programm AlphaGo aber eigenständig weiter und erreichte schließlich ein so tiefes Verständnis im Go-Spiel, dass es in der Lage war, Go-Profis zu besiegen. Im Oktober 2015 besiegte AlphaGo den mehrfachen Europameister Fan Hui, im März 2016 gewann das Programm gegen den südkoreanischen Profi Lee Sedol, 9. Dan, einen Wettkampf mit 4:1, jeweils unter Turnierbedingungen.

Die Architektur des AlphaGo Programms basiert auf einem Zusammenspiel von zwei neuronalen Netzwerken, einem "policy network" (Regelnetzwerk) zur Bestimmung von Zugkandidaten, und einem "value network" (Bewertungsnetzwerk) zur Bewertung von Positionen. Die beiden Netzwerke sind mit einer Monte-Carlo-Methode zu einer Baumsuche verbunden. Zuvor lernte das Programm mit Hilfe einer Datenbank mit 30 Millionen Zügen, Züge von Menschen vorherzusagen. Im Match gegen Fan Hui lief AlphaGo auf einem Rechnerverbund von 1202 CPUs und 178 GPUs und nutzte 40 "search threads." Im folgenden Match gegen Lee Sedol standen 1.920 CPUs und 280 GPUs zur Verfügung. Für die vorherige rechenintensive Lernphase wurde die Google Cloud Plattform mit ihren Tensor Processing Units (TPUs, ASICs für die Software-Sammlung TensorFlow) eingesetzt.

Im Mai 2017 spielte AlphaGo beim "Wuzhen Future of Go Summit 2017" in Wuzhen, China gegen den Weltranglistenersten Ke Jie und gewann drei Partien. Außerdem gewann das Programm gegen fünf führende Go-Spieler, die sich während der Partie beraten durften.

Die nächste Entwicklungsstufe war das Programm AlphaGo Zero, deren Entwicklungsergebnisse im Oktober 2017 von DeepMind publiziert wurden. AlphaGo Zero startete mit reduzierter Hardware-Struktur bei Null. Das heißt, das Programm besaß keinerlei Vorwissen über das Go-Spiel und kannte nur die Spielregeln. Trainiert wurde es allein durch Spiel gegen sich selbst.  Als Hardware wurden vier Tensor Processing Units verwendet. Mit Hilfe von TensorFlow war AlphaGo Zero nach drei Tagen besser als die vorherige AlphaGo Version, die den besten Menschen im Go geschlagen hatte - und AlphaGo Zero besiegte seinen Vorgänger glatt mit 100:0.

DeepMind's Video zu AlphaGo Zero

Vom Go zum Schach

Einer der Gründer von DeepMind, Demis Hassabis, war in seiner Jugend ein guter Schachspieler und so überrascht es nicht, dass sich DeepMind als nächstes dem Schachspiel zuwandte. Schach gilt seit Beginn der Computerentwicklung als der Prüfstein für KI. Bei den London Chess Classic 2017 trat das Unternehmen als Sponsor auf. Die Eröffnungsfeier fand in der Londoner Google-Zentrale statt. Pünktlich zur Eröffnung des Turniers veröffentlichte Google DeepMind dann einen weiteren Durchbruch bei der "Erforschung der künstlichen Intelligenz". In einem Wettkampf über 100 Partien besiegte das neue Schachprogramm der Firma, Alpha Zero, das Programm Stockfish mit 28:0 Siegen bei 72 Remis (64:36, Remisen mitgezählt). 2017 traten zwar Houdini und Komodo mit ihren aktuellen Versionen im Finale der inoffiziellen Computerschach-Weltmeisterschaft TCEC gegeneinander an, aber im Vorjahr hatte Stockfish dieses Turnier gewonnen und generell Stockfish gilt als Messlatte in der Computerschach-Szene.

Wie AlphaGo Zero startete auch Alpha Zero bei Null, das heißt, ihm wurden nur die Regeln des Schachspiels vorgegeben. Dann lernte es durch das Spiel gegen sich selber und entwickelte in nur vier Stunden eine Spielstärke, mit der Alpha Zero in der Lage war, Stockfish mit großem Vorsprung zu schlagen.

In der Geschichte des Computerschachs fand der letzte große Entwicklungssprung vor etwas mehr als zehn Jahren statt, als Fabien Letouzey mit seinem Schachprogramm "Fruit" einen neuen Ansatz bei der Baumsuche veröffentlichte. Vasik Rajlich entwickelte diesen Ansatz signifikant weiter. Sein Programm Rybka wurde später dekompiliert, der Code von einer Reihe von Programmierern als Ausgangsbasis für eigene Weiterentwicklungen genutzt. Die Grundlage aller dieser Programm ist eine optimierte Alpha-Beta-Suche, bei der anhand bestimmter Bewertungsgrundlagen (Material, Entwicklungsmöglichkeiten, Königssicherheit, Felderbeherrschung, etc) die jeweils besten Züge für beide Seiten ermittelt werden. Je mehr Varianten man im Suchbaum als irrelevant eliminieren kann, je effizienter die Suche ist, desto tiefer kann das Programm in die entscheidende Hauptvariante hineingehen. Das Programm mit der tieferen Suche gewinnt gegen die anderen. Die Remisquote im Computerspitzenschach ist jedoch sehr hoch.

Alpha Zero verfolgt einen ganz anderen Ansatz, eine Monte-Carlo-Baumsuche. An jeder Stelle spielt das Programm eine Serie von Partien gegen sich selber, ausgehend von der jeweiligen Position und zählt die Ergebnisse zu einer Bewertung zusammen. Der Ansatz wurde von den Autoren in ihrer Veröffentlichung "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" (s.u,) genauer beschrieben.

Für eine Lernphase (Training) nutzte Alpha Zero 5.000 "first-generation" TPUs aus dem Google Hardware-Park, um Partien gegen sich selber zu spielen. 64 "second-generation" TPUs wurden für das Training des neuronalen Netzwerkes verwendet. Schon nach vier Stunden Training war Alpha Zero in der Lage, besser als Stockfish zu spielen.

In der Trainingsphase spielte Alpha Zero auch Wettkämpfe gegen Stockfish, jeweils über 100 Partien und ausgehend von zehn häufig gespielten Eröffnungen, jeweils 50 Partien mit Weiß und 50 Partien mit Schwarz. Die meisten dieser Wettkämpfe gewann Alpha Zero, aber nicht alle: Im Damengambit unterlag das Programm mit Schwarz mit 1:2 bei 47 Remispartien. In der Grünfeld-Verteidigung (von Deep Mind fälschlicherweise als "Königsindisch" betitelt) unterlag Alpha Zero mit 0:2 bei 48 Remis. In der Sizilianischen Kan-Variante ("Sizilianische Verteidigung") unterlag es mit 3:7 bei 40 Remis. Bei umgekehrter Farbverteilung gewann Alpha Zero jeweils deutlich.

Bild: DeepMind

Das "austrainierte" Alpha Zero-Programm spielte dann einen 100-Partien-Wettkampf gegen Stockfisch, wobei es selber einen Rechner mit vier TPUs nutzte, während Stockfish auf einer Hardware mit "64 threads" lief. Von den 28 gewonnenen Partien gegen Stockfish in diesem Match gewann Alpha Zero bemerkenswerte 25 Partien mit den weißen Steinen, aber nur drei Partien mit den schwarzen Steinen. Das ist ein sehr ungewöhnliches Ergebnis. Üblicherweise beträgt der statistische Unterschied zwischen Weiß und Schwarz im Schach 55%. Bei ebenfalls durchgeführten Wettkämpfen in Go und Shogi war das Ergebnis der Partien mit den weißen und den schwarzen Steinen nicht annähernd so unausgeglichen.

Bild: DeepMind

Das Ergebnis entspricht übrigens einem Erfolg von 65% oder einem Elo-Unterschied von ca. 130 Punkten. Das ist der Unterschied in der Spielstärke von Magnus Carlsen im Vergleich mit einem Spieler von Elo 2700.

Reaktion und Rezeption

Die internationale Pressereaktion war enthusiastisch, vergleichbar mit der Reaktion, als Deep Blue vor 20 Jahren seinen Wettkampf gegen Garry Kasparov gewann. Damals stieg der Kurs der IBM-Aktie. Google DeepMind wäre über ein solches Ergebnis für den Mutterkonzern sicher auch nicht unglücklich. Die Reaktion war aber naturgemäß auch ausgesprochen unkritisch. Tenor: Ein großer Supercomputer hat sich mal eben in ein paar Stunden Schach beigebracht und ist jetzt besser als das beste Schachprogramm. Die Menschheit ist auf dem Weg (wohin?) ein gutes Stück weiter gekommen. Und das ist ja auch der Eindruck, der mit der Veröffentlichung erweckt werden sollte. 

Tore Romstad vom Stockfish-Team hat sich auf Chess.com folgendermaßen zum Wettkampf geäußert:

"Das Wettkampfergebnis ist wenig aussagekräftig, da die Wahl der Bedenkzeit von einer Minute pro Zug ebenso seltsam ist wie die gewählten Einstellungen der Stockfisch-Parameter. Bei einer festen Bedenkzeit von einer Minute pro Zug kann Stockfish sein Zeitmanagement nicht optimal nutzen, da es an den kritischen Stellen nicht genug Zeit zur Berechnung zur Verfügung hat. Die verwendete Stockfish-Version ist zudem ein Jahr alt, arbeitete mit weit mehr Suchvorgängen, als jemals getestet wurde und hatte für diese Menge an Suchvorgängen deutlich zu wenig Hashtables zur Verfügung . Unter normalen Bedingungen wäre die Menge an Remisen signifikant höher.

Alpha Zero hätte anderseits zweifelsfrei noch besser spielen können, wenn man mehr Zeit in die Entwicklung investiert hätte, obwohl die Angabe, "vier Stunden lernen", angesichts des massiven Hardwareeinsatzes hochgradig irreführend ist. Wie auch immer. Der Wettkampf ist, wie Romstad es nannte, ein Vergleich von "Orang-Utans mit Äpfeln". Auf der einen Seite spielt ein kommerzielles Programm, das für normale PCs entwickelt wurde, auf der anderen Seite spielt ein Programm, das im Rahmen eines Forschungsprojekts entwickelt wurde, und das auf einer Maschine, die für den Normalverbraucher nicht zugänglich ist und auch absolut unerschwinglich wäre.

Tore Romstad räumt ein, dass der Vergleich zwischen zwei völlig unterschiedlichen Ansätzen im Computerschach aber durchaus seinen Reiz hat und vielleicht bessere Impulse für künftige Weiterentwicklungen bietet als der bisherige Wettlauf im Computerschach, bei dem ein Programm mit den gleichen Rechen-Methoden nur etwas besser ist als ein anderes.

Für Schachspieler, die mit Computerprogrammen arbeiten, werde der erzielte Durchbruch des Forschungsprogramm Alpha Zero allerdings zumindest kurzfristig keinerlei Nutzen bieten, weil keine adäquate Hardware dafür zur Verfügung stehe. Für die Schachprogrammierer seien die Erkenntnisse aus dem Projekt eher desillusionierend. Selbst wenn ein Alpha Zero-Programm einmal auf gebräuchlicher Hardware laufen sollte, dann bleibt die erforderliche leistungsstarke Entwicklungsumgebung unerschwinglich. Sollte es aber vielleicht einmal ein Open-Source Projekt geben, das gemeinsam die notwendige Rechenkraft leistet, dann würde dies das Ende der individuellen und unterschiedlichen Schachprogramme bedeuten, so wie wir diese bisher kannten.

Fazit

Dem DeepMind Team ist mit dem Alpha Zero-Projekt ein bemerkenswerter Erfolg gelungen. Es wurde gezeigt, dass man mit der Monte-Carlo-Methode innerhalb kurzer "Lern"zeit eine gewaltige Spielstärke im Schach erreichen kann - wenn man zum Lernen die Google Cloud mit 5000 TPUs zur Verfügung hat. Der Vergleich mit Stockfish hinkt leider an vielen Stellen. Das Stockfish-Programm lief auf einer Parallel-Hardware, mit dem der das Programm, wenn man Tore Romstad richtig interpretiert, nur wenig anfangen kann. Die Vergleichbarkeit der eingesetzten Hardware ist unklar. Der Wettkampf wurde ohne Eröffnungsbuch und ohne Endspiel-Tablebases durchgeführt, beides integrale Bestandteile eines Programms wie Stockfish. Die gewählte Bedenkzeit ist im Schach, besonders im Computerschach, völlig unüblich, sogar unsinnig.

Von den 100 Partien des Wettkampfes hat DeepMind nur zehn Gewinnpartien von Alpha Zero veröffentlicht, leider auch ohne Informationen über Suchtiefen und Bewertungen.

 

Links:

Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm...

David Silver,1 Thomas Hubert,1 Julian Schrittwieser,1 Ioannis Antonoglou,1 Matthew Lai,1 Arthur Guez,1 Marc Lanctot,1 Laurent Sifre,1 Dharshan Kumaran,1 Thore Graepel,1
Timothy Lillicrap,1 Karen Simonyan,1 Demis Hassabis1

1 DeepMind, 6 Pancras Square, London N1C 4AG.
These authors contributed equally to this work.

TPU Tensor Processing Unit (Wikipedia)...

Tensor Flow (Wikipedia)...

 


André Schulz, seit 1991 bei ChessBase, ist seit 1997 der Redakteur der deutschsprachigen ChessBase Schachnachrichten-Seite.

Diskutieren

Regeln für Leserkommentare

 
 

Noch kein Benutzer? Registrieren