Alpha Zero: Partien unter der Lupe

von Conrad Schormann
14.12.2017 – Mit seinem Machine learning Projekt "Alpha Zero" sorgte die Google-Tochter kürzlich für große Aufmerksamkeit. Nach einer kurzen Lernphase war das Programm imstande, das beste PC-Prgramm Stockfish zu schlagen. Conrad Schormann hat sich die Partien angeschaut. (Foto: Google)

ChessBase 14 Download ChessBase 14 Download

ChessBase 14 ist die persönliche Schach-Datenbank, die weltweit zum Standard geworden ist. Und zwar für alle, die Spaß am Schach haben und auch in Zukunft erfolgreich mitspielen wollen. Das gilt für den Weltmeister ebenso wie für den Vereinsspieler oder den Schachfreund von nebenan.

Mehr...

Eine Revolution? Ein Muster ohne Wert? Ein PR-Coup? Die Meinungen gingen weit auseinander, nachdem das Schachprogramm AlphaZero der Google-Tochter DeepMind das Schachprogramm Stockfish vermöbelt hatte: 64:36 nach 100 Partien. Die Debatte läuft noch, und wir werden sie an dieser Stelle nicht auflösen können, weil viele Unbekannte im Spiel sind. Aber immerhin kennen wir 10 der 100 Partien, und die sind es allemal Wert, so aufbereitet zu werden, dass sich auch Schachspieler unter 3.400 Elo ein Bild davon machen können, was passiert ist.

Erfahrung ist beim Schach ein wesentlicher Faktor. In dieser Hinsicht war Stockfish seinem Gegner weit voraus. Zusammen mit seinen etwa gleichstarken Kollegen Houdini und Komodo repräsentiert es den vorläufigen Gipfel einer jahrzehntelangen Entwicklung, die die Maschinen in Spielstärkesphären geführt hat, die dem Menschen verschlossen bleiben. Auch AlphaZero repräsentiert den Gipfel einer jahrelangen Entwicklung maschinellen Lernens, aber mit Schach hatte es sich bislang nicht beschäftigt. Vier Stunden spielte AlphaZero im stillen Kämmerlein gegen sich selbst, tüftelte aus, was beim Schach gut ist (Stonewall) und was nicht (Französisch), dann stand das Match gegen Stockfish auf dem Programm.

Für eine Revolution der Eröffnungstheorie ist AlphaZero ein ernsthafter Kandidat. Allein die zehn von DeepMind ausgewählten Partien zeigen, dass einige Abspiele der Damenindischen Verteidigung wahrscheinlich neu bewertet werden müssen. Im klassischen Dameninder (1.d4 Sf6 2.c4 e6 3.Sf3 b6 4.g3 Lb7 5.Lg2 Le7 6.0-0 0-0) zog es 7.d5, im moderneren ...La6-Dameninder (1.d4 Sf6 2.c4 e6 3.Sf3 b6 4.g3 La6) zog es 5.Dc2 c5 6.d5. Beide Bauernopfer führen zu ähnlichen Strukturen, die im menschlichen Turnierschach seit Jahrzehnten als wenig ergiebig für Weiß gelten. Nun sieht es stark danach aus, als habe AlphaZero während seiner vierstündigen Studienzeit Wege gefunden, das weiße Spiel signifikant zu verstärken.

Ein Muster ohne Wert ist AlphaZero womöglich auch, zumindest für den Moment. Nicht weniger als „die Welt zu einem besseren Ort machen“ ist das Unternehmensziel von DeepMind, und auf dem Weg zu diesem Ziel dürfte Schach allenfalls eine Zwischenetappe sein, um maschinelles Lernen zu verbessern. Es wäre kein Wunder, würde AlphaZero nun eingemottet, und seine Schöpfer beschäftigten sich fortan mit größeren Problemen wie Weltfrieden, Weltgesundheit oder globaler Energieversorgung. Aber längst diskutieren Programmierer, wie sich auf Basis erschwinglicher Hardware ein AlphaZero für Normalverbraucher erschaffen lässt. Das „ob“ steht schon nicht mehr zur Debatte.

Ein PR-Stunt war AlphaZero eher nicht. Wer PR macht, der veranstaltet Pressekonferenzen, versendet Mitteilungen und trommelt auf allen Kanälen. DeepMind hat sein erstes Papier zu AlphaZero im Internet versteckt (https://arxiv.org/pdf/1712.01815.pdf, eine ausführlichere Version soll folgen) und das Projekt auf seiner Website nicht einmal erwähnt. Erst seit kurzem finden sich dort die zehn ausgewählten Partien.

Am ehesten sieht es danach aus, als sei AlphaZero/Schach aus DeepMind-Perspektive ein kleines Experiment für Zwischendurch gewesen. Dafür sprechen auch die unausgegorenen Wettkampfbedingungen. Als Schachspieler hätten wir uns gewünscht, dass sich AlphaZero maximalen Widerstands erwehren muss. Stattdessen bekam es einen kastrierten Stockfish vorgesetzt, eine ein Jahr alte Version mit Mini-Hashtables und ohne Eröffnungsbuch, obwohl das Programm nicht darauf ausgelegt ist, Stellungen nahe der Grundstellung gut zu verstehen. Die Bedenkzeitregelung (1 min/Zug) negierte Stockfishs Fähigkeit, in kritischen Positionen lange zu rechnen und einfache Entscheidungen schnell zu treffen.

Houdini 6 Pro

Houdini 6 macht dort weiter, wo sein Vorgänger aufgehört hat: die neue Version legt bei der Spielstärke noch einmal 60 Elo-Punkte oben drauf. Damit ist Houdini wieder das beste Schachprogramm, das es derzeit auf dem Markt gibt.

Mehr...

Das ist schade, ändert aber nichts an dem Umstand, dass das Schach bemerkenswert war. Nach Maschine sahen weite Phasen der von AlphaZero vorgetragenen Partien nicht aus. „Ich habe mich immer gefragt, was passiert, wenn höhere Wesen auf der Erde landen und uns zeigen, wie sie Schach spielen. Jetzt weiß ich es“, sagte Magnus' Carlsens Sekundant Peter Heine-Nielsen, nachdem er die zehn Partien gesehen hatte.

Also, schauen wir mal rein:

 

 

 

 

 



Conrad Schormann, gelernter Tageszeitungsredakteur, betreibt in Überlingen am Bodensee ein Büro für Redaktion und Kommunikation. Fürs Schachspielen hat er zu wenig Zeit, was auch daran liegt, dass er so gerne darüber schreibt, sei es für Chessbase, im Reddit-Schachforum oder für sein Schach-Lehrblog Perlen vom Bodensee...

Discussion and Feedback Join the public discussion or submit your feedback to the editors


Diskutieren

Regeln für Leserkommentare

 
 

Noch kein Benutzer? Registrieren

kikouyou kikouyou 13.01.2018 01:37
wo können wir die remis partie von alphazero gegen stockfisch sehen?
Danke sehr.
Klataro Klataro 21.12.2017 02:04
Ist ja witzlos ganz ohne Eröffungsbuch, dafür sind normale Schachprogramme doch gar nicht ausgelegt. Zudem noch Bedenkzeit beschnitten. Ist klar, dass es so eindeutig ausgeht. Natürlich will Google zeigen, wie überlegen Alpha-Zero ist. Alles in Allem eher ein reiner Marketingag ohne wirklichen Wert, Schach ist dafür ja ideal - wäre ja auch Fatal, wenn Alpha-Zero gegen ein herkömmliches Schachprogramm nicht so perfekt ausgesehen hätte, da geht's ja letztlich um Milliardensummen. Den Ansatz an sich finde ich gut, d.h. selbstsändiges Lernen nur mit dem Wissen der Regeln. Das kann man ja auf beliebige Bereiche ausweiten (Wirtschaft, Börse usw.) - was dann natürlich auch gefährlich wird, aber das ist dann ein anders Thema.
1