Anmerkungen zu Jeff Sonas
Von Chrilly Donninger
Ich habe meinen Doktor in Statistik gemacht. Ich möchte daher
zum Artikel von Jeff Sonas als Statistiker - und nicht als
Schachprogrammierer - eine paar Anmerkungen machen.
Die Elozahl ist der Maximum-Likelihood (wahrscheinlichste)
Schätzer der wahren Spielstärke. Selbst wenn man annimmt, dass das
statistische Modell von Elo stimmt, ist das also nur ein Schätzer und kein
wahres Mass (das ist bei allen statistischen Größen so). Bei nur 11 Spielen
wie im Falle von Brutus hat dieses Mass eine sehr hohe Varianz/Streuung. Der
wahre Wert kann vom Schätzer weit entfernt sein. Man muss - wenn man
statistisch sauber arbeitet - daher immer ein Konfidenzintervall angeben, in
dem der Schätzer mit 95 bzw 99% Wahrscheinlichkeit liegt. Die Schweden machen
das.
Ich kann aus den Stegreif nicht die Grösse des Intervalls
sagen, aber es kommt dann höchstwahrscheinlich kein signifikanter Unterschied
zwischen den Top-Programmen heraus.
Das ist auch die normale statistische Vorgangsweise: Man stellt
die Null-Hypothese auf: Z.B. Alle Top-Programme sind gleich stark. Diese These
bestätigt oder widerlegt man. Der Schätzer/die Elo-Zahl alleine sagt zur
Beanwortung dieser Frage gar nichts aus.
Die wichtigere Frage ist aber: Erfüllen Programme die Annahmen
des Elo-Modells und insbesondere erfüllen die untersuchten Partien das Modell.
Das Elo-Modell geht davon aus, dass das Ergebnis eines Matches
eine Normalverteilte Zufallsvariable mit 100 Elo Varianz ist. Die 100 Elo
Varianz sind eine Definition von Arpad Elo aus der sich dann die Elo-Zahlen/Differenzen
ergeben. Die Normalverteilung ist eine relativ willkürliche Annahme. Elo hat
Untersuchungen gemacht, ob diese Annahme stimmt. Aber letztendlich ist die
Normalverteilung einfach ein Liebkind der Statistik. Sie hat sehr schöne
statistische Eigenschaften.
Man muss sich aber fragen: Haben Schachprogramme diesselbe
Streuung wie Menschen? Haben insbesondere Partien zwischen Schachprogrammen
und Menschen dieselbe Verteilung wie die zwischen Menschen? Das Spiel Mensch
gegen Maschine hat auch andere Gesetzmässigkeiten wie die zwischen Menschen
und auch wie die zwischen Computern. Hat Kasparov 2800 Elo, wenn er gegen
Computer spielt? Jedenfalls hatten Spezialisten wie Dieter Steinwender in der
Vergangenheit wesentlich mehr Anti-Computer wie menschliche Elo.
Ich kann diese Fragen nicht beantworten. Aber bevor man diese
Fragem nicht ernsthaft überprüft - es gibt statistische Tests dafür - kann man
schwer mit Elo-Zahlen argumentieren.
Der wichtigse Punkt ist aber: Es ist bekannt, dass die
Normalverteilung in den Schwänzen die Wahrscheinlichkeiten unterschätzt.
Mit anderen Worten: Beim Spiel zweier sehr unterschiedlich starker Spieler
werden insbesondere die Remischancen des schwächeren Spielers unterschätzt.
Besonders auf GM Niveau gibt es einen breiten Remis-Bereich. Kasparov spielt
daher nicht gegen 2500 Elo Spieler. Das würde ihm seine Elo-Zahl ruinieren.
Genau diesen Effekt hat Sonas gemessen. Wenn seine Daten etwas
aussagen dann dies: Je stärker die menschlichen Gegner, desto höher die
Elo-Zahl des Programmes. Nicht Shredder ist schwächer geworden, sondern die
Gegner waren in Argentinien schwächer.
Elo-Anekdote:
In den Wiener Schachverlag ist einmal eine ungarische Dame
gekommen. Sie möchte ein Buch für ihren Ehemann kaufen. Er hat 2300 lebende
Punkte.
Wir waren zunächst ratlos, was 2300 lebende Punkte sind. Aber
Dank Thomas Mally´s Sprachenkenntnisse habe wir das herausbekommen.
"Elo" (ausgesprochen El´ö) heisst auf Ungarisch "Lebend,
lebendig". Die gute Frau hat nicht gewusst, dass ihr gebürtiger Landsmann
Arpad Elo gemeint ist und sie hat den Begriff ins Deutsche übersetzt.