Brauchen Schachspieler und Wissenschaftler Intelligenz?

von Bruno Wiesend
24.02.2022 – Der Statistiker Bruno Wiesend berichtet in diesem Beitrag über eine wissenschaftliche Kontroverse zu einer Untersuchung über den "Einfluss von Intelligenz und Übung auf die Entwicklung von Fähigkeiten". Der Autor hält die Ergebnisse der Untersuchung aufgrund von methodischen Fehlern für falsch. | Foto: Pixabay

ChessBase 18 - Megapaket ChessBase 18 - Megapaket

Das Wissen, das Du jetzt brauchst!
Die neue Version 18 bietet völlig neue Möglichkeiten für Schachtraining und Analyse: Stilanalyse von Spielern, Suche nach strategischen Themen, Zugriff auf 6 Mrd. LiChess-Partien, Download von chess.com mit eingebauter API, Spielervorbereitung durch Abgleich mit LiChess-Partien, eingebaute Cloud-Engine u.v.m..

Mehr...

Brauchen Schachspieler und Wissenschaftler Intelligenz?

Schach ist ein altes Kriegsspiel. Zwei Menschen treten auf einem standardisierten Schlachtfeld, dem Schachbrett, gegeneinander an. Der Bessere gewinnt. Emanuel Lasker lobte das "Prinzip der Gerechtigkeit" im Schach (Lasker 1925/2010). "Es besteht keine Notwendigkeit für unaufhörliches Networking und unermüdliche Selbstvermarktung", um an die Spitze zu gelangen (Howard, 2009). Schach ist eine Wissenschaft, die das Interesse anderer Wissenschaftler geweckt hat. Aufgrund der Fülle der in großen Datenbanken erfassten Daten und des zuverlässigen Bewertungssystems, das nach seinem Erfinder Arpad E. Elo (Elo, 1978/2008) benannt wurde, ist es ein wichtiges Gebiet im Bereich der Kompetenzforschung, einem Teilbereich der kognitiven Psychologie. Schachspieler werden auf einer kontinuierlichen Skala bewertet, die von etwa 1.000 Elo-Punkten für Anfänger bis zu etwa 2.850 Punkten für den derzeit besten Spieler, Magnus Carlsen, reicht. Durchschnittliche Vereinsspieler haben etwa 1.600 Punkte. Spieler mit mehr als 2.000 Punkten werden gewöhnlich als Experten bezeichnet. Großmeister werden mit 2.500 Punkten oder mehr bewertet. Wer eine Turnierpartie gewinnt, verliert oder unentschieden spielt, gewinnt oder verliert Elo-Punkte, abhängig von der Bewertung des Gegners. 

Am 2. Juli 2019 akzeptierte die Redaktion der Proceedings of the National Academy of Sciences of the United States of America (PNAS) einen Artikel mit dem Titel "The joint influence of intelligence and practice on skill development throughout the life span" (Der gemeinsame Einfluss von Intelligenz und Übung auf die Entwicklung von Fähigkeiten über die gesamte Lebensspanne), der von Vaci, Edelsbrunner, Stern, Neubauer, Bilalić & Grabner verfasst wurde. Sie hatten 90 Schachspieler aus Österreich in einer Längsschnittstudie verfolgt. Es erregte meine Aufmerksamkeit, weil ich mit einigen der wissenschaftlichen Studien der beiden Autoren vertraut war, die die Forschung teilweise entworfen, die Daten analysiert und das Papier geschrieben hatten, Nemanja Vaci und sein Doktorvater Merim Bilalić.

Es begann alles im Dezember 2015. Sie hatten den Artikel mit dem Titel "Is Age Really Cruel to Experts? Compensatory Effects of Activity" (Vaci, Gula & Bilalić, 2015), der in Psychology and Aging, einer von Experten begutachteten Fachzeitschrift der renommierten American Psychological Association, veröffentlicht wurde. Ich war verblüfft, als ich die Kurven in ihrer Abb. 5 B sah. Sie hatten die kubische Funktion verwendet, um die Entwicklung der Schachfertigkeit über die Lebensspanne zu erfassen. Es ist bekannt, dass alle kubischen Funktionen rotationssymmetrisch sind, aber ihre Kurven waren es nicht. Es war nicht klar, wie sie sie hergestellt hatten. Der späte kubische Anstieg war nicht vorhanden. Das war nicht der einzige Fehler in dieser Arbeit. Ich reichte 2016 einen Kommentar bei Psychology and Aging ein, und später eine detaillierte Überarbeitung. Nach einem Jahr der Analyse, des Schreibens und einer langen Zeit des Wartens sagte mir der Chefredakteur: "Kurz gesagt, ich glaube, dass Ihre Kritik berechtigt ist, aber dass die Darstellung Ihrer Argumente viel zu kompliziert und schwer nachvollziehbar ist". Er forderte eine weitere umfassende Überarbeitung. Ich lehnte ab und sagte ihm, dass es für beide Seiten zu mühsam sei, so vorzugehen, und dass er die Leserschaft von Psychology and Aging in seinen eigenen Worten informieren solle, was er nie tat. Da die Autoren zu diesem Zeitpunkt Mitarbeiter der Alpen-Adria-Universität Klagenfurt waren, habe ich die Österreichische Agentur für wissenschaftliche Integrität (ÖAWI) gebeten, diesen Fall zu prüfen. Alle österreichischen Universitäten sind ordentliche Mitglieder der ÖAWI. Das zuständige Mitglied der wissenschaftlichen Kommission der ÖAWI hat zwei externe Experten um ihre Meinung gebeten. Deren Namen nannte er nicht. Er sagte mir, die Experten hätten argumentiert, dass die Kurven offensichtlich falsch seien, aber es gebe keinen Beweis für eine absichtliche Falschdarstellung. Meine Ergebnisse wurden auf ChessBase News unter dem Titel "Researching age-related decline" (Wiesend, 2020) veröffentlicht. 

Eine andere Arbeit erregte meine Aufmerksamkeit. Es gibt eine anhaltende Kontroverse über geschlechtsspezifische Unterschiede in der Schachfertigkeit. Die besten männlichen Schachspieler sind deutlich stärker als die besten weiblichen Spieler. Die beliebteste Erklärung ist die "Partizipationsratenhypothese" von Bilalić, Smallbone, McLeod & Gobet (2009). Ihr Artikel wurde in der renommierten Zeitschrift Proceedings of the Royal Society B veröffentlicht. Sie stellten fest, dass 96% des Unterschieds auf die einfache Tatsache zurückzuführen sind, dass mehr Männer als Frauen Schach spielen. Die Studie von Bilalić et al. (2009) fand nicht nur in der Schachszene, sondern auch in Zeitungen, Zeitschriften und den sozialen Medien breite Zustimmung. Sie verhalf Bilalić zum Gewinn des Wissenschaftspreises der Karpow-Schachakademie im Jahr 2009. Die Menschen freuen sich offensichtlich am meisten, wenn renommierte Wissenschaftler bestätigen, was sie schon immer wussten. Ich habe mir diese Studie genauer angesehen und festgestellt, dass die Argumentation von Bilalić et al. (2009) ein Zirkelschluss ist. Was ihr Ergebnis sein sollte, war eigentlich ihre Prämisse. Außerdem hatten sie eine fehlerhafte Näherungsmethode verwendet, um die erwarteten und tatsächlichen Unterschiede in der Bewertung zu berechnen. Nur auf diese Weise konnten sie ihr 96%-Ergebnis erreichen. Meine Erkenntnisse wurden auf ChessBase News veröffentlicht und von der Physikerin und Philosophin Vera Spillner kommentiert (Spillner/Wiesend, 2019).

Die Vorteile von Networking

PNAS ist eine der renommiertesten wissenschaftlichen Fachzeitschriften. Sie wird in einem Atemzug mit Nature und Science genannt. Im Jahr 2020 erhielt sie mehr als 17 000 direkte Einreichungen. Die Annahmequote lag bei nur 14 %. PNAS kann es sich leisten, "die hochwertigsten und bedeutendsten Forschungsarbeiten der Welt" auszuwählen und von den Autoren oder ihren Geldgebern eine Publikationsgebühr von 2.575 Dollar für einen "regulären Forschungsartikel" zu verlangen sowie einen Aufschlag von mindestens 2.400 Dollar, um ihn sofort und frei über die Open-Access-Option (PNAS Author Center) zugänglich zu machen. Die Veröffentlichung in PNAS ist ein Privileg, das den besten Wissenschaftlern der Welt vorbehalten ist.

Der Artikel von Vaci et al. (2019) war in der Tat etwas Besonderes. Sie behaupteten gezeigt zu haben, dass "leistungsfähigere Menschen mehr von der gleichen Menge an Lernaktivität profitieren". Sie widersprachen Ericssons "extremer ökologischer Sichtweise", der die Bedeutung angeborener Begabung geleugnet hatte, und postulierten, dass es nur "absichtliches Üben" - definiert als mühsames, nicht nur vergnügliches Üben, z. B. das Studium von Büchern - braucht, um selbst Weltklasseleistungen zu erzielen (Ericsson, Krampe und Tesch-Römer, 1993). K. Anders Ericsson war einer der produktivsten und einflussreichsten, aber auch am meisten kritisierten Kompetenzforscher. Sein schärfster Gegner war David Zachary Hambrick. Ericsson und Hambrick warfen sich gegenseitig vor, falsch zu arbeiten (Hambrick, Macnamara & Oswald, 2020). Ihr Streit wurde in einer Reihe von Antworten und Widerlegungen ausgefochten. Ericssons letzte Antwort wurde am 24. Juni 2020 online in Psychological Research veröffentlicht (Ericsson, 2021), eine Woche nachdem er im Alter von 72 Jahren gestorben war. Der New York Times-Journalist Steven Kurutz schrieb einen gut recherchierten Nachruf, in dem er Hambrick als Ericssons Kritiker bezeichnete (Kurutz, 2020). 

Hambricks Sichtweise deckt sich mit der Argumentation von Vaci et al. (2019). Ich war überrascht, als ich feststellte, dass er deren Papier herausgegeben hatte. Hambrick war ein vom PNAS Editorial Board eingeladener Gastredakteur. Die Autoren haben keinen Interessenkonflikt angegeben. Eine Google-Suche ergab jedoch die folgenden Verbindungen. Die Liste erhebt keinen Anspruch auf Vollständigkeit.

  • Hambrick und Bilalić waren Mitverfasser des Artikels mit dem Titel "Psychological Perspectives on Expertise", der in Frontiers in Psychology veröffentlicht wurde (Campitelli, Connors, Bilalić & Hambrick, 2015). Gemäß den PNAS-Redaktions- und Zeitschriftenrichtlinien "entsteht ein konkurrierendes Interesse aufgrund einer persönlichen Verbindung, wenn Sie gebeten werden, als Herausgeber oder Gutachter eines Manuskripts zu fungieren, zu dessen Autoren eine Person gehört, mit der Sie innerhalb der letzten 48 Monate in Verbindung standen, z. B. als Dissertationsbetreuer (oder -berater), Postdoc-Mentor (oder -Mentee) oder Koautor einer Arbeit." Die Arbeit von Vaci et al. (2019) wurde am 6. November 2018 zur Begutachtung eingereicht.
     
  • Bilalić & Vaci waren Koautoren eines Kapitels in The Science of Expertise, einem Buch, das 2017 von Hambrick, Campitelli & Macnamara herausgegeben wurde.
     
  • Hambrick schrieb eine Rezension über The Neuroscience of Expertise, ein von Bilalić herausgegebenes Buch. Er lobte es als "die erste umfassende Behandlung dieses Forschungsgebiets".
     
  • Hambrick bearbeitete den Artikel mit dem Titel "Restricting Range Restrictions Conclusions", der von Vaci, Gula & Bilalić verfasst und in Frontiers in Psychology veröffentlicht wurde (Vaci et al., 2014). Sie wurde von Fred Oswald und Fernand Gobet begutachtet. Gobet und Oswald sind Koautoren zahlreicher Veröffentlichungen mit Hambrick. Gobet ist der Doktorvater von Bilalić und Campitelli. 
     
  • Hambrick und Campitelli sind Chefredakteure und Mitbegründer der Zeitschrift The journal of Expertise. Roland H. Grabner, der gemeinsam mit Bilalić die Hauptautorenschaft an Vaci et al. (2019) innehat, ist einer der beratenden Redakteure. Gobet ist einer der Mitherausgeber.

Gemäß den PNAS-Richtlinien hätte Hambrick es ablehnen müssen, die Arbeit von Vaci et al. (2019) zu bearbeiten. Das PNAS Editorial Board hätte Hambrick nicht als Gastredakteur einladen dürfen. 

Eine Längsschnittstudie, die auf einem Stichprobenfehler beruhte

Grabner, Stern & Neubauer (2007) hatten 90 Schachspieler aus Österreich mit Tests zur figuralen, numerischen, verbalen und allgemeinen Intelligenz untersucht. IQ-Tests (Intelligenzquotient) werden in der Kompetenzforschung häufig als Proxy-Maß für angeborene oder erworbene kognitive Fähigkeiten verwendet. Sie fanden heraus, dass eine höhere Spielstärke in erster Linie mit höheren Werten bei der numerischen Intelligenz verbunden war. Vaci et al. (2019) sammelten die Elo-Werte und die Anzahl der pro Jahr gespielten Turnierspiele aller Spieler, die an der Studie von Grabner et al. (2007) teilgenommen hatten - als Proxy für alle Arten von Training (!). Während Ratings und Spiele von 1994 bis 2016 in einem 6-Monats-Rhythmus erfasst wurden, wurden die IQ-Tests nur einmal in den Jahren 2003 und 2004 durchgeführt. Vaci et al. (2019) nahmen an, dass die IQ-Werte über den gesamten Beobachtungszeitraum von 22 Jahren konstant bleiben würden. Diese Annahme muss bezweifelt werden. Grabner et al. (2007) testeten die fluide Intelligenz (Gf). Die Cattell-Horn-Caroll-Theorie besagt, dass die Gf den biologischen, vererbten Teil der allgemeinen Intelligenz darstellt - z. B. die Verarbeitungsgeschwindigkeit oder die Kapazität des Arbeitsgedächtnisses -, während die kristallisierte Intelligenz (Gc) auf Wissen basiert und durch Bildung und Erfahrung erworben wird. Die Gf erreicht im frühen Erwachsenenalter einen Höhepunkt, bevor sie aufgrund des Einflusses des Alterns auf die funktionellen neurobiologischen Prozesse stetig abnimmt. Gc hingegen nimmt zu oder bleibt stabil bis zum Alter von etwa 70 Jahren, wenn es ebenfalls zu sinken beginnt (McArdle, Ferrer-Caja, Hamagami, & Woodcock, 2002). Mit anderen Worten: Intelligenz ist eine Variable, während Vaci et al. (2019) sie als Konstante verwendeten. Sie haben das Kunststück vollbracht, eine Längsschnittstudie auf der Grundlage einer einzigen Beobachtung durchzuführen. 

Campitelli & Gobet (2011) bezeichneten die Studie von Grabner et al. (2007) als "die einzige, die eine signifikante Korrelation zwischen Schachfertigkeit und allgemeinen kognitiven Fähigkeiten gefunden hat". Ericsson (2014) vermutete stattdessen, dass "ein selektives Engagement von hoch angesehenen Schachspielern mit höheren IQ-Werten zu der beobachteten signifikanten Korrelation beigetragen haben könnte", da Grabner et al. (2007) ihre Teilnehmer "durch Ankündigungen in österreichischen Schachklubs und lokalen Turnieren rekrutiert hatten, die die Möglichkeit boten, Informationen über ihre Intelligenz und Persönlichkeitsprofile zu erhalten". 

Abbildung 1 A ist eine Reproduktion von Grabner et al.'s (2007) Abb. 1, rechtes oberes Feld. Ich habe das Online-Tool WebplotDigitizer (Ankit Rohatgi, 2019) verwendet, um die Rohdaten zu extrahieren, die Vaci et al. (2019) ihrer Studie zugrunde gelegt hatten. Die Anzahl der Teilnehmer war 89 statt 90.

Abbildung 1. A: Reproduktion von Grabner et al. (2007), Abb. 1, rechtes oberes Feld. B: Wahrscheinlichkeitsdichtekurve der numerischen Intelligenzwerte. r, Korrelationskoeffizient; M, Mittelwert; SD, Standardabweichung.

Das Legendenfeld in Abbildung 1 B zeigt, dass die replizierten Daten hervorragend mit den Originaldaten übereinstimmen. Es ist bemerkenswert, dass Spieler mit extrem hohen numerischen IQ-Werten von 130 oder mehr eine so große Bandbreite an Elo-Werten aufwiesen, die von weit unterdurchschnittlich bis hin zum Meisterniveau reichte (Abbildung 1 A). Der Shapiro-Wilk-Test ergab, dass die IQ-Werte nicht normalverteilt waren. Die Wahrscheinlichkeitsdichtekurve bestätigte eine bimodale Verteilung mit zwei Maxima bei IQ 98 und 126 (Abbildung 1 B). Grabner et al. (2007) hatten offensichtlich zwei verschiedene Gruppen von Teilnehmern rekrutiert: Eine kleine Gruppe mit einem durchschnittlichen numerischen IQ-Wert und eine große Gruppe mit einem weit überdurchschnittlichen Wert. Mit anderen Worten: Der "eindeutige moderate Zusammenhang" zwischen numerischer Intelligenz und dem Elo-Rating von Grabner et al. (2007), der Vaci et al. (2019) als Ausgangspunkt diente, war ein Artefakt, das aus einer Verzerrung der Stichprobe aufgrund von "Selbstselektion" resultierte. Ericssons Vermutung war richtig. 

Natürliches Schachtalent ist nicht mit Hilfe von IQ-Tests messbar. Bilalić, McLeod & Gobet (2007) testeten eine Elite-Teilstichprobe von 23 Kindern und stellten fest, dass "Intelligenz kein signifikanter Faktor für die Schachfertigkeit war, und dass sie, wenn überhaupt, dazu tendierte, negativ mit der Schachfertigkeit zu korrelieren".

Verstoß gegen die Unabhängigkeitsvermutung

Vaci et al. (2019) lehnten es ab, die Rohdaten öffentlich zugänglich zu machen, "um die Privatsphäre der an der Studie beteiligten Personen zu schützen". Sie widersprechen sich selbst, wenn sie erwähnen, dass "alle Teilnehmer schriftlich ihr Einverständnis gegeben haben, dass ihre Daten für Forschungszwecke verwendet und in anonymer Form veröffentlicht werden können". 

Ich habe eine Zufallsstichprobe von 90 Schachspielern aus der deutschen Datenbank gezogen, die Vaci & Bilalić (2017) zum Download angeboten hatten. Alle von ihnen waren seit 15 Jahren oder länger aktiv. Ihre Ratings wurden pro Jahr gemittelt und die Summe der gespielten Turnierpartien pro Jahr wurde berechnet. Die deutsche Datenbank erfasst keine IQ-Werte, aber das ist nicht notwendig, um den Kardinalfehler im Modell von Vaci et al. (2019) zu demonstrieren. Abbildung 2 - die dem Modell von Vaci et al. (2019), Abb. 1 - zeigt die Rohdaten. Die deskriptiven Daten im rechten Teil beider Abbildungen zeigen, dass die Stichprobe mit der ursprünglichen Stichprobe der Autoren vergleichbar war. 

Abbildung 2. Rohdaten und angepasste Kurven einer Stichprobe von 90 Schachspielern. Abkürzungen der deskriptiven Statistiken wie in Vaci et al. (2019), Abb. 1, angegeben. Nobs, Anzahl der Beobachtungen; Practice, gespielte Turnierpartien pro Jahr.

Der Zusammenhang zwischen einer unabhängigen Variable - auch fixer Effekt genannt - wie dem Alter und einer abhängigen Variable wie dem Elo-Rating kann durch Kurvenanpassung visualisiert werden. Bei der Regressionsanalyse werden definierte mathematische Funktionen zur Anpassung von Geraden oder Kurven an Datensätze nach der "Methode der kleinsten Quadrate" verwendet. Solche Korrelationen sind oft komplex. Eine einzige Funktion reicht nicht aus, um sie zu erfassen. Vaci et al. (2015) verwendeten die kubische Funktion. Die rote Kurve in Abbildung 2 wurde mit ihrem Modell ermittelt. Kubische Funktionen sind für Schachkurven offensichtlich ungeeignet. Schachspieler zeigen kein "Schwanengesang-Phänomen" ('swan-song phenomenon’) im Alter. Die verallgemeinerte additive Modellierung (GAM) ist eine Weiterentwicklung der klassischen Ein-Funktions-Methode. Sie verwendet "Glättungssplines", die in einer komplexen mathematischen Operation als Summe von gewichteten "Basisfunktionen" berechnet werden. Das Ergebnis ist eine Linie, die dem Trend der Daten folgt, unabhängig davon, wie nichtlinear oder kurvenreich er ist. Die schwarze Linie in Abbildung 2 wurde mit dem GAM-Modell von Vaci et al. (2019) ermittelt. 

Ein Grundprinzip der Regressionsanalyse - das sowohl für den klassischen Ansatz als auch für die GAM gilt - ist die "Unabhängigkeitsannahme". Mehrere Beobachtungen pro Person - die Teilnehmer von Vaci et al. (2019) hatten im Durchschnitt etwa 20 Beobachtungen - sind nicht unabhängig, sondern korreliert, da jeder Schachspieler sein individuelles Fähigkeitsniveau hat. Daher ist es notwendig, jeden Spieler als eine separate Einheit zu behandeln und in einem ersten Schritt individuelle Kurven zu berechnen. Dies geschieht mit Hilfe von Zufallseffekten. Die Gesamtkurven sind die Mittelwerte aller individuellen Kurven zu einem bestimmten Zeitpunkt oder Alter. Klassische Modelle mit zufälligen Effekten werden als "lineare gemischte Effekte" (LME) bezeichnet, während GAM zu GAMM (generalized additive mixed modeling) erweitert wird. Der Begriff "gemischt" steht für die Kombination von festen und zufälligen Effekten. 

Bodo Winter schreibt in seinem Tutorium zur LME-Modellierung: "Wenn Sie die Unabhängigkeitsannahme verletzen, ist die Hölle los" (Winter, 2013), und in Vaci et al. (2019) ist die Hölle los. Sie verwendeten die Open-Source-Programmiersprache R (R-Kernteam, 2021) und die "Tensormodellierung" in GAM, die im R-Paket mgcv (Wood, 2017) implementiert ist, um den Einfluss der festen Effekte Alter, Anzahl der gespielten Spiele, numerischer IQ-Wert und deren Interaktionen auf die abhängige Variable Elo-Rating zu bewerten. Sie hielten sich im Prinzip an den R-Code, den Jacolien van Rij in einem ihrer Tutorials veröffentlicht hatte (van Rij, 2015a). Der Unterschied bestand darin, dass van Rij zufällige Effekte einbezog, während Vaci et al. (2019) dies nicht taten. Vaci hätte van Rijs Tutorials kennen müssen, da er mit ihr ein Buchkapitel zum selben Thema verfasst hat (van Rij, Vaci, Wurm & Feldman, 2018). Vaci et al. (2019) benutzten ihr Paket itsadug (van Rij, Wieling, Baayen & van Rijn, 2017) zumindest zum Plotten aller ihrer Zahlen.

Ich habe das Modell von Vaci et al. (2019) verwendet, um die Stichprobe von 90 Spielern zu analysieren (Abbildung 3 A). In einem zweiten Durchlauf (Abbildung 3 B) wurden ihrem R-Code gemäß van Rij (2015a und b) "zufällige Glättungen" hinzugefügt.

Abbildung 3. A: Die Zufallsstichprobe von 90 Spielern wurde mit dem R-Code von Vaci et al. (2019) analysiert, und B: in einem zweiten Durchlauf nach Hinzufügen von "zufälligen Glättungen".

Tensormodelle visualisieren nichtlineare Interaktionen als "Oberflächenplots" (Abbildung 3, linke Felder). Die dritte Dimension - zusätzlich zu Alter und Praxis - wird durch die Farbpalette dargestellt, wobei hellere Farben niedrigere und dunklere Farben höhere Ratingwerte darstellen. Die Pfeile in den linken Feldern zeigen an, welche Glättungen in den rechten Feldern aufgetragen sind. Die Ähnlichkeit zwischen Abbildung 3 A, linkes Feld, und Vaci et al. (2019), Abb. 3 B, linkes Feld, ist offensichtlich. Die Bewertung stieg signifikant an, wenn 60 statt 20 Spiele pro Jahr gespielt wurden. Nach Hinzufügen von Zufallseffekten hatte das Spielen von mehr oder weniger Spielen jedoch eine moderate Auswirkung auf die Spielstärke in der Kindheit und Jugend - in Perioden, in denen die Bewertung ohnehin steigt -, aber keine im Erwachsenenalter und im hohen Alter (Abbildung 3 B). Die schwarzen Konturlinien der konstanten Ratingwerte verlaufen in diesem Fall fast senkrecht.

Wie kann man diese Ergebnisse interpretieren? Erstens: Stärkere Spieler sind im Turnierschach aktiver (Abbildung 3 A). Je stärker sie sind, desto mehr Spaß haben sie an dem, was sie gut können und in dem sie erfolgreich sind. Zweitens hat die Turnierpraxis keinen signifikanten Einfluss auf die individuelle Spielstärke (Abbildung 3 B). Würden stärkere Spieler die gleiche Anzahl von Partien spielen wie schwächere Spieler, wären ihre Bewertungen immer noch höher (Spillner/Wiesend, 2019). Es muss also einen anderen kausalen Faktor als die Turnierpraxis geben. Ericsson würde es "absichtliches Üben" nennen, während andere von "Talent" sprechen. Talent und absichtliches Üben sind in gewisser Weise Synonyme. Es braucht Talent, um bewusst zu üben. Natur und Erziehung" sind hoffnungslos miteinander verwoben. Selbst IQ-Tests sind anfällig für Übungseffekte. Es ist eine "Milliarden-Dollar-Industrie" entstanden, die ihren Kunden eine Verbesserung der psychometrischen Tests verspricht, die häufig zur Einstufung von Bewerbern verwendet werden (Hayes, Petrov & Sederberg, 2015). Das Institute of Psychometric Coaching in Australien behauptet zum Beispiel, dass "der Test zum Zahlenverständnis der Teil der psychometrischen Tests ist, in dem man innerhalb kurzer Zeit die größte Verbesserung erzielen kann." Kompetenzforscher sind mit dem Dilemma konfrontiert, trennen zu müssen, was nicht trennbar ist. Sie überschreiten die Grenze zur Pseudowissenschaft, wenn ihre Behauptungen nicht falsifizierbar sind, wie der ungelöste Streit zwischen Ericsson und Hambrick zeigt. Man kann im Nachhinein immer argumentieren, dass die Qualität der Praxis nicht den Kriterien einer "bewussten Praxis" entsprach.

Vaci et al. (2019) postulierten einen kausalen Zusammenhang zwischen Turnierpraxis, numerischer Intelligenz und Spielstärke, der sich als illusorisch erwies. Eine der zentralen Lehren der Statistik lautet: "Korrelation impliziert keine Kausalität". Sie fanden heraus, dass die Hinzufügung von Wechselwirkungen zwischen Alter, Training und numerischer Intelligenz zu ihrem Modell die "erklärte Abweichung" von 10,7 % auf 47,0 % verbesserte (Vaci et al., 2019, Tabelle 1). Sie schlugen vor, dass Persönlichkeitsmerkmale oder das Alter, in dem die Teilnehmer einem Schachclub beitraten, die restlichen 53 % erklären würden. Sie wussten nicht, dass die "erklärte Abweichung" ein Maß für die "Anpassungsgüte" ist. Sie quantifiziert die Übereinstimmung zwischen den tatsächlichen und den angepassten Elo-Werten. Ein Wert von 100 % bedeutet eine perfekte Anpassung. Die erklärte Abweichung stieg von 33 % in Abbildung 3 A auf 99 % in Abbildung 3 B, als "zufällige Glättungen" zu ihrem R-Code hinzugefügt wurden. Die geringe erklärte Abweichung von nur 47 % ist der Beweis für ihr analytisches Versagen. Vaci et al. (2019) teilten nur den angenehmen Teil der Informationen, erwähnten aber nicht den unangenehmen. 

Anhang

Ich habe ein Manuskript bei PNAS eingereicht, in dem ich ausführlich erkläre, warum und wie der Artikel von Vaci et al. (2019) seine Leserschaft falsch informiert. Nach einigen anfänglichen Schwierigkeiten gelang es mir, das Manuskript durch das PNAS Submission System zu schleusen. Als die Software mich nach meinen Zugehörigkeiten fragte, gab ich "independent scientist" ein. Als ich aufgefordert wurde, drei Gutachter vorzuschlagen, wählte ich nach dem Zufallsprinzip drei Autoren aus, die in diesem Bereich tätig waren. Autoren schlagen in der Regel ihre Freunde vor, die demselben akademischen Stammbaum angehören oder mit ihnen an anderen Publikationen mitgearbeitet haben, wie Vaci et al. (2014) zeigen. Die Zeitschriften geben ihre Namen in der Regel nicht bekannt. 

Der Chefredakteur von PNAS teilte mir eine Woche später mit, dass der Redaktionsausschuss mein Manuskript abgelehnt habe, weil "die Wahrscheinlichkeit, dass eine eingehende Überprüfung zur Veröffentlichung führt, gering ist". PNAS ist Mitglied des Committee On Publication Ethics (COPE). Ich bat COPE, diesen Fall zu beurteilen, und äußerte Bedenken wegen persönlicher Beziehungen zwischen Herausgeber und Autoren. COPE hat über 12.000 Mitglieder - akademische Zeitschriften und ihre Redakteure - aus allen Bereichen der Wissenschaft (Wikipedia). Es ist die führende ethische Institution in der akademischen Welt. Die Mitgliedschaft bei COPE dient wissenschaftlichen Zeitschriften als Nachweis für ihr Engagement für höchste ethische Standards. COPE bat PNAS um eine Stellungnahme. Die Leiterin der PNAS-Redaktion für Ethik legte einen zusammenfassenden Bericht vor, in dem sie erklärte, dass "die wissenschaftlichen Probleme mit dem Artikel von zwei sachverständigen Mitgliedern des PNAS-Redaktionsausschusses geprüft wurden, die keine eindeutigen Hinweise auf Fehlverhalten fanden". Sie erklärte außerdem, dass sie die Autoren zu der Situation befragt hätten, die wiederum jegliche konkurrierenden Interessen verneint hätten. PNAS stellte fest, dass "keine Aktualisierungen des Papiers notwendig waren". COPE teilte mir mit, dass "nach Prüfung der Bedenken und der Antwort des Mitglieds der Unterausschuss für Erleichterung und Integrität zu dem Schluss kam, dass die Zeitschrift ein angemessenes Verfahren zur Behandlung der Bedenken gegen die Veröffentlichung angewandt hat".

Referenzen

Ankit Rohatgi, WebPlotDigitizer Version: 4.2, April, 2019. https://automeris.io/WebPlotDigitizer 

Bilalić, M. (2017). The Neuroscience of Expertise, Cambridge University Press.

Bilalić, M., McLeod, P., & Gobet, F. (2007). Does chess need intelligence? - A study with young chess players. Intelligence, 35(5), 457–470 

Bilalic, M., Smallbone, K., McLeod, P., & Gobet, F. (2009). Why are (the best) women so good at chess? Participation rates and gender differences in intellectual domains. Proceedings Biological Sciences, 276, 1161-1165. 

Campitelli, G., Connors, M. H., Bilalić, M., & Hambrick, D. Z. (2015). Psychological perspectives on expertise. Frontiers in psychology, 6, 258.

Campitelli, G., Gobet, F. (2011). Deliberate Practice: Necessary But Not Sufficient. Current directions in psychological science 20 (5), 280-285.

Elo, A. E. (2008). The Rating of Chessplayers, Past & Present. Bronx, NY: Ishi Press International. (originally published in 1978)

Ericsson, K. A., Krampe R. T., Tesch-Roemer, C. (1993). The role of deliberate practice in the
acquisition of expert performance. Psychol. Rev. 100, 363–406.

Ericsson, K. A. (2021). Given that the detailed original criteria for deliberate practice have not changed, could the understanding of this complex concept have improved over time? A response to Macnamara and Hambrick (2020). Psychological Research 85:1114–1120

Ericsson, K. A. (2014). Why expert performance is special and cannot be extrapolated from studies of performance in the general population: A response to criticisms. Intelligence, 45, 81-103.

Grabner, R. H., Stern, E., Neubauer A. C. (2007). Individual differences in chess expertise: A psychometric investigation. Acta Psychol. (Amst.) 124, 398–420.

Hambrick, D.Z., Macnamara, B. N. & Oswald, F.L, (2020). Is the Deliberate Practice View Defensible? A Review of Evidence and Discussion of Issues. Frontiers in Psychology 2020; 11: 1134.

Hambrick, D.Z., Campitelli, G., Macnamara, B.N., (2017). The Science of Expertise: Behavioral, Neural, and Genetic Approaches to Complex Skill, New York, NY: Routledge.

Hayes, T. R., Petrov, A. A. , and Sederberg, P. B. (2015). Do We Really Become Smarter When Our Fluid-Intelligence Test Scores Improve? Intelligence. 48: 1–14. 

Howard, R.W. (2009). Individual differences in expertise development over decades in a complex intellectual domain. Memory & Cognition 37 (2), 194-209

Kurutz, S. (2020). Anders Ericsson, Psychologist and ‘Expert on Experts, Dies at 72, The New York Times, July 2, 2020.

Lasker E., ‘Lasker’s Manual of Chess’. Russell Enterprises 2010. Milford CT USA, pp. 182-184. 

McArdle, J. J., Ferrer-Caja, E., Hamagami, F. & Woodcock, R. W. (2002). Comparative longitudinal structural analyses of the growth and decline of multiple intellectual abilities over the life span. Developmental Psychology, 38, 115-142.

R Core Team (2021). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL https://www.R-project.org/.

van Rij, J, (2015a). Visualization of nonlinear interactions. 

van Rij, J, (2015b). Overview GAMM analysis of time series data. 

J van Rij, N Vaci, LH Wurm, LB Feldman. Alternative quantitative methods in psycholinguistics: 
Implications for theory and design. ‘Word Knowledge and Word Usage: a Cross-disciplinary Guide to the Mental Lexicon’, edited by Vito Pirrelli, Ingo Plag, and Wolfgang U. Dressler, Chapter 3. (2018)

van Rij J, Wieling M, Baayen R, van Rijn H (2017). “itsadug: Interpreting Time Series and Autocorrelated Data Using GAMMs.” R package version 2.3.

Spillner, V. / Wiesend, B. (2019). (Why) are men better chess players than women? ChessBase News.

Vaci, N., Gula, B., & Bilalić, M. (2014). Restricting range restricts conclusions. Frontiers in 
Psychology, 5, 569. 

Vaci, N., Gula, B., & Bilalić, M. (2015). Is Age Really Cruel to Experts? Compensatory Effects of Activity. Psychology and Aging, 30, 740-754. 

Vaci, N. , Bilalić´ M. (2017). Chess databases as a research vehicle in psychology: Modeling large
data. Behav. Res. Methods 49, 1227–1240.

Vaci, N., Edelsbrunner, P., Stern, E., Neubauer, A.C., Bilalić´, M., & Grabner, R.H. (2019). The Joint Influence of Intelligence and Practice on Skill Development Throughout the Lifespan. Proc Natl Acad Sci USA 116 (37):18363-18369.

Wiesend, B., Researching Age-Related Decline, ChessBase News, 2020.

Winter, B., (2013). Linear models and linear mixed effects models in R with linguistic applications. 

Wood, S.N. (2017) Generalized Additive Models: An Introduction with R. Chapman and Hall/CRC.

 


Jahrgang 1955 aus Münchner. Bruno Wiesend hat in pharmazeutischer Chemie promoviert und kam 1980 anlässlich des Kandidatenfinales Hübner gegen Kortschnoi zum Schach. Beste DWZ: 2097 in 2005. Derzeit als Spieler nicht mehr aktiv, ist er dem Schach aber dennoch treu geblieben und befasst sich als Zahlenfan gerne mit mit statistischen Auswertungen und Kurvenanpassung.

Diskutieren

Regeln für Leserkommentare

 
 

Noch kein Benutzer? Registrieren