Schachprogramme: Wie viele "lebende Punkte"?

25.08.2003 – Shredder 7 und Brutus haben kürzlich durch Turniersiege bei Menschenturnieren auf sich aufmerksam gemacht. Der amerikanische Statistiker Jeff Sonas hat die Leistungen verschiedener Programme gegen Menschen und untereinander verglichen und seine Beobachtungen veröffentlicht. In einem kritischen Kommentar zu Sonas hat Chrilly Donninger, der selber in Statistik promoviert hat, darauf hingewiesen, dass es bei der Sonas-Betrachtung einige Fehlinterpretationen gibt. Diese entstehen durch die Elo-Formel, die Remise gegen schwächere Spieler unterschätzt. Anekdote am Rande: Was bedeutet Elo auf ungarisch? Jeff Sonas: How strong are the top chess programs?...Kritischer Kommentar von Donninger zu Sonas...

ChessBase 14 Download ChessBase 14 Download

ChessBase 14 ist die persönliche Schach-Datenbank, die weltweit zum Standard geworden ist. Und zwar für alle, die Spaß am Schach haben und auch in Zukunft erfolgreich mitspielen wollen. Das gilt für den Weltmeister ebenso wie für den Vereinsspieler oder den Schachfreund von nebenan.

Mehr...

Anmerkungen zu Jeff Sonas
Von Chrilly Donninger

 Ich habe meinen Doktor in Statistik gemacht. Ich möchte daher zum Artikel von Jeff Sonas als Statistiker - und nicht als Schachprogrammierer - eine paar Anmerkungen machen.
 
Die Elozahl ist der Maximum-Likelihood (wahrscheinlichste) Schätzer der wahren Spielstärke. Selbst wenn man annimmt, dass das statistische Modell von Elo stimmt, ist das also nur ein Schätzer und kein wahres Mass (das ist bei allen statistischen Größen so). Bei nur 11 Spielen wie im Falle von Brutus hat dieses Mass eine sehr hohe Varianz/Streuung. Der wahre Wert kann vom Schätzer weit entfernt sein. Man muss - wenn man statistisch sauber arbeitet - daher immer ein Konfidenzintervall angeben, in dem der Schätzer mit 95 bzw 99% Wahrscheinlichkeit liegt. Die Schweden machen das.
Ich kann aus den Stegreif nicht die Grösse des Intervalls sagen, aber es kommt dann höchstwahrscheinlich kein signifikanter Unterschied zwischen den Top-Programmen heraus.
Das ist auch die normale statistische Vorgangsweise: Man stellt die Null-Hypothese auf: Z.B. Alle Top-Programme sind gleich stark. Diese These bestätigt oder widerlegt man. Der Schätzer/die Elo-Zahl alleine sagt zur Beanwortung dieser Frage gar nichts aus. 
 
Die wichtigere Frage ist aber: Erfüllen Programme die Annahmen des Elo-Modells und insbesondere erfüllen die untersuchten Partien das Modell.
 
Das Elo-Modell geht davon aus, dass das Ergebnis eines Matches eine Normalverteilte Zufallsvariable mit 100 Elo Varianz ist. Die 100 Elo Varianz sind eine Definition von Arpad Elo aus der sich dann die Elo-Zahlen/Differenzen ergeben. Die Normalverteilung ist eine relativ willkürliche Annahme. Elo hat Untersuchungen gemacht, ob diese Annahme stimmt. Aber letztendlich ist die Normalverteilung einfach ein Liebkind der Statistik. Sie hat sehr schöne statistische Eigenschaften.
Man muss sich aber fragen: Haben Schachprogramme diesselbe Streuung wie Menschen? Haben insbesondere Partien zwischen Schachprogrammen und Menschen dieselbe Verteilung wie die zwischen Menschen? Das Spiel Mensch gegen Maschine hat auch andere Gesetzmässigkeiten wie die zwischen Menschen und auch wie die zwischen Computern. Hat Kasparov 2800 Elo, wenn er gegen Computer spielt? Jedenfalls hatten Spezialisten wie Dieter Steinwender in der Vergangenheit wesentlich mehr Anti-Computer wie menschliche Elo.
 
Ich kann diese Fragen nicht beantworten. Aber bevor man diese Fragem nicht ernsthaft überprüft - es gibt statistische Tests dafür - kann man schwer mit Elo-Zahlen argumentieren.
 
Der wichtigse Punkt ist aber: Es ist bekannt, dass die Normalverteilung in den Schwänzen die Wahrscheinlichkeiten unterschätzt. Mit anderen Worten: Beim Spiel zweier sehr unterschiedlich starker Spieler werden insbesondere die Remischancen des schwächeren Spielers unterschätzt. Besonders auf GM Niveau gibt es einen breiten Remis-Bereich. Kasparov spielt daher nicht gegen 2500 Elo Spieler. Das würde ihm seine Elo-Zahl ruinieren.
 
Genau diesen Effekt hat Sonas gemessen. Wenn seine Daten etwas aussagen dann dies: Je stärker die menschlichen Gegner, desto höher die Elo-Zahl des Programmes. Nicht Shredder ist schwächer geworden, sondern die Gegner waren in Argentinien schwächer.
 
Elo-Anekdote:
In den Wiener Schachverlag ist einmal eine ungarische Dame gekommen. Sie möchte ein Buch für ihren Ehemann kaufen. Er hat 2300 lebende Punkte.
Wir waren zunächst ratlos, was 2300 lebende Punkte sind. Aber Dank Thomas Mally´s Sprachenkenntnisse habe wir das herausbekommen.
"Elo" (ausgesprochen El´ö) heisst auf Ungarisch "Lebend, lebendig". Die gute Frau hat nicht gewusst, dass ihr gebürtiger Landsmann Arpad Elo gemeint ist und sie hat den Begriff ins Deutsche übersetzt.
 
 

 

 


Discussion and Feedback Join the public discussion or submit your feedback to the editors


Diskutieren

Regeln für Leserkommentare

 
 

Noch kein Benutzer? Registrieren