Schachprogramme: Wie viele "lebende Punkte"?

25.08.2003 – Shredder 7 und Brutus haben kürzlich durch Turniersiege bei Menschenturnieren auf sich aufmerksam gemacht. Der amerikanische Statistiker Jeff Sonas hat die Leistungen verschiedener Programme gegen Menschen und untereinander verglichen und seine Beobachtungen veröffentlicht. In einem kritischen Kommentar zu Sonas hat Chrilly Donninger, der selber in Statistik promoviert hat, darauf hingewiesen, dass es bei der Sonas-Betrachtung einige Fehlinterpretationen gibt. Diese entstehen durch die Elo-Formel, die Remise gegen schwächere Spieler unterschätzt. Anekdote am Rande: Was bedeutet Elo auf ungarisch? Jeff Sonas: How strong are the top chess programs?...Kritischer Kommentar von Donninger zu Sonas...

Fritz 21

Ihr persönlicher Schachtrainer - Egal, ob Sie Ihre ersten Schritte in die Welt des Vereinsschachs machen oder bereits auf Turnierniveau spielen: Mit FRITZ trainieren Sie effizienter, intelligenter und individueller als je zuvor.
FRITZ ist mehr als nur eine Schach-Engine – es ist eine Trainingsrevolution! Egal, ob Sie Ihre ersten Schritte in die Welt des Vereinsschachs machen oder bereits auf Turnierniveau spielen: Mit FRITZ trainieren Sie effizienter, intelligenter und individueller als je zuvor.

Mehr...

Anmerkungen zu Jeff Sonas
Von Chrilly Donninger

Ich habe meinen Doktor in Statistik gemacht. Ich möchte daher zum Artikel von Jeff Sonas als Statistiker - und nicht als Schachprogrammierer - eine paar Anmerkungen machen.

Die Elozahl ist der Maximum-Likelihood (wahrscheinlichste) Schätzer der wahren Spielstärke. Selbst wenn man annimmt, dass das statistische Modell von Elo stimmt, ist das also nur ein Schätzer und kein wahres Mass (das ist bei allen statistischen Größen so). Bei nur 11 Spielen wie im Falle von Brutus hat dieses Mass eine sehr hohe Varianz/Streuung. Der wahre Wert kann vom Schätzer weit entfernt sein. Man muss - wenn man statistisch sauber arbeitet - daher immer ein Konfidenzintervall angeben, in dem der Schätzer mit 95 bzw 99% Wahrscheinlichkeit liegt. Die Schweden machen das.

Ich kann aus den Stegreif nicht die Grösse des Intervalls sagen, aber es kommt dann höchstwahrscheinlich kein signifikanter Unterschied zwischen den Top-Programmen heraus.

Das ist auch die normale statistische Vorgangsweise: Man stellt die Null-Hypothese auf: Z.B. Alle Top-Programme sind gleich stark. Diese These bestätigt oder widerlegt man. Der Schätzer/die Elo-Zahl alleine sagt zur Beanwortung dieser Frage gar nichts aus.

Die wichtigere Frage ist aber: Erfüllen Programme die Annahmen des Elo-Modells und insbesondere erfüllen die untersuchten Partien das Modell.

Das Elo-Modell geht davon aus, dass das Ergebnis eines Matches eine Normalverteilte Zufallsvariable mit 100 Elo Varianz ist. Die 100 Elo Varianz sind eine Definition von Arpad Elo aus der sich dann die Elo-Zahlen/Differenzen ergeben. Die Normalverteilung ist eine relativ willkürliche Annahme. Elo hat Untersuchungen gemacht, ob diese Annahme stimmt. Aber letztendlich ist die Normalverteilung einfach ein Liebkind der Statistik. Sie hat sehr schöne statistische Eigenschaften.

Man muss sich aber fragen: Haben Schachprogramme diesselbe Streuung wie Menschen? Haben insbesondere Partien zwischen Schachprogrammen und Menschen dieselbe Verteilung wie die zwischen Menschen? Das Spiel Mensch gegen Maschine hat auch andere Gesetzmässigkeiten wie die zwischen Menschen und auch wie die zwischen Computern. Hat Kasparov 2800 Elo, wenn er gegen Computer spielt? Jedenfalls hatten Spezialisten wie Dieter Steinwender in der Vergangenheit wesentlich mehr Anti-Computer wie menschliche Elo.

Ich kann diese Fragen nicht beantworten. Aber bevor man diese Fragem nicht ernsthaft überprüft - es gibt statistische Tests dafür - kann man schwer mit Elo-Zahlen argumentieren.

Der wichtigse Punkt ist aber: Es ist bekannt, dass die Normalverteilung in den Schwänzen die Wahrscheinlichkeiten unterschätzt. Mit anderen Worten: Beim Spiel zweier sehr unterschiedlich starker Spieler werden insbesondere die Remischancen des schwächeren Spielers unterschätzt. Besonders auf GM Niveau gibt es einen breiten Remis-Bereich. Kasparov spielt daher nicht gegen 2500 Elo Spieler. Das würde ihm seine Elo-Zahl ruinieren.

Genau diesen Effekt hat Sonas gemessen. Wenn seine Daten etwas aussagen dann dies: Je stärker die menschlichen Gegner, desto höher die Elo-Zahl des Programmes. Nicht Shredder ist schwächer geworden, sondern die Gegner waren in Argentinien schwächer.

Elo-Anekdote:

In den Wiener Schachverlag ist einmal eine ungarische Dame gekommen. Sie möchte ein Buch für ihren Ehemann kaufen. Er hat 2300 lebende Punkte.

Wir waren zunächst ratlos, was 2300 lebende Punkte sind. Aber Dank Thomas Mally´s Sprachenkenntnisse habe wir das herausbekommen.

"Elo" (ausgesprochen El´ö) heisst auf Ungarisch "Lebend, lebendig". Die gute Frau hat nicht gewusst, dass ihr gebürtiger Landsmann Arpad Elo gemeint ist und sie hat den Begriff ins Deutsche übersetzt.

Diskutieren

SHOP

SHOP

Schachprogramme: Wie viele "lebende Punkte"?

ONLINE SHOP

Eröffnungslexikon 2026

Diskutieren

Fritz 21

Slawisch- und Halbslawisch Powerbase 2026

Slawisch- und Halbslawisch- Powerbook 2026

Sidestep the Sicilian with 2.b3 - surprise weapon in 60 Minutes

Eine Eröffnungswaffe gegen Sizilianisch Teil 2: 2…e6 & Nebenvarianten

Eine Eröffnungswaffe gegen Sizilianisch! Band 1 & 2

Master your Technique Vol.3 - Practical Techniques you must know

ChessBase Magazin Extra 231

Ihre Einstellungen zu Cookies für diese Website

SHOP

SHOP

Schachprogramme: Wie viele &quot;lebende Punkte&quot;?

ONLINE SHOP

Diskutieren

Ihre Einstellungen zu Cookies für diese Website

Schachprogramme: Wie viele "lebende Punkte"?