Die Qualität wissenschaftlicher Arbeit sollte eigentlich mit der praktischen und sozialen Relevanz eines Themas steigen. Leider ist das Gegenteil der Fall, und wenn eine bestimmte Fragestellung oder wissenschaftliche Disziplin von hinreichender Wichtigkeit ist, dann unterliegt sie nahezu zwangsläufig der Politisierung. Ab einer hinreichenden Wichtigkeit des Themas läuft Wissenschaft Gefahr, dass politische Lagerbildung die Diskussionen um die Sache und insbesondere die wissenschaftliche Methode völlig überschattet. Ein Beispiel dafür liefert der Artikel ‚Inferring change points in the spread of COVID-19 reveals the effectiveness of interventions‘, erschienen auf dem Olymp wissenschaftlicher Publikation, in der Science, und dann diskutiert in der FAZ.
Ich habe dieses Wochenende das Privileg und Vergnügen, auf einen größeren Sportwettkampf zu gehen (auch noch als Teilnehmer), so dass ich zu meinem Aufreger des Tages leider nur einen schnellen Ab- (und natürlich Ver-)riss liefern kann. Der sollte es aber tun, um aufzuzeigen, warum der Artikel in der Science eigentlich nichts aussagt, und warum die Verwendung solcher Studien den öffentlichen Diskurs nicht informiert sondern eher ein Abgleiten in einen pathologischen Wissenschaftsbetrieb ist.
Fangen wir mit dem Artikel in der FAZ an. Neben einer Betrachtung, dass bei einer Zeitverzögerung zwischen Ereignis und Beobachtung die Beobachtung natürlich das Geschehen vor einer Zeit und nicht das gegenwärtige reflektiert, dürfte vor allem ein Satz dem Leser im Gedächtnis bleiben: „Während die Absage von Großveranstaltungen ab dem 8. März und die Schließung von Schulen, Kinderbetreuung und Läden ab dem 16. März bereits zu einer deutlichen Abschwächung des Wachstums führten, brachte erst die Kontaktsperre ab dem 23. März die Kehrtwende hin zu fallenden Infektionszahlen.“ Das kann man gar nicht viel anders lesen als eine Beobachtung, dass die „Maßnahmen“ notwendig und richtig waren und Leute, die das anders sehen mindesten unrecht hatten, vielleicht auch „Covidioten“ (ein Begriff, den die FAZ ja durchaus benutzt) waren und sind. Aber gibt der Artikel in der Science das wirklich her?
Modellierung vom 2. März bis 21. April
Der Science-Artikel versucht, das SARS-CoV‑2 Infektionsgeschehen in Deutschland bis zum 21. April zu modellieren. Ich habe selber die Basisreproduktionszahl der gemeldeten Infektionszahlen für verschiedene Länder abgeschätzt und hier veröffentlicht. Welches Modell man auch nimmt, man sieht eine drastische Abflachung der Ausbreitungsdynamik über den März, und beispielsweise die Zahlen der Robert-Koch-Instituts erzählen die gleiche Geschichte wie meine. Soweit, so gut. Zu den Ursachen und der Interpretation dieses Ergebnisses ist damit aber noch nichts gesagt.
Der Science-Artikel versucht nun, Regimewechsel (im Sinne der „regime shifts“ der Statistik) in der Ausbreitungsdynamik von SARS-CoV‑2 im März zu finden. Es wird also davon ausgegangen, dass es Zeitabschnitte gibt, innerhalb derer die Ausbreitungsdynamik gleich blieb, und am Wechsel dieser Zeitabschnitte die Ausbreitungsdynamik sich abrupt ändert.
Dabei nimmt der Artikel die Zeit vom 2. bis 15. März als erste Phase an, die für die Abschätzung der Ausbreitungsdynamik ohne Maßnahmen dient. Danach versucht er, abrupte Wechsel der Ausbreitungsdynamik vom 16. März bis zum 21. April abzuschätzen. Er verwendet dabei die nationalen gemeldeten Fallzahlen Deutschlands.
Fünfeinhalb Beobachtungen pro Variable: Das wird nichts
Jeder, der schon einmal irgendwelche mathematische Modellierung von Zeitreihen betrieben hat, sieht sofort ein Problem: Für die erste Phase der initialen Ausbreitungsdynamik werden vierzehn Tage, also vierzehn Datenpunkte verwendet. Für die zweite Phase, innerhalb derer Regimewechsel erkannt werden sollen, werden 37 Tage, also Datenpunkte, verwendet. Sollen darin drei Regimewechsel erkannt werden, dann müsste also jedes Regime im Durchschnitt 9 Tage dauern und Erkenntnisse über die Ausbreitungsdynamik dieses Regimes könnten auf nur 9 Datenpunkte gestützt sein, und das auch nur, wenn alle Regimes gleich lange dauern würden.
Es gibt nun Faustregeln, dass für jede abzuschätzende Variable mindestens – je nachdem wie konservativ man ist – 10, 20 oder auch 50 Datenpunkte verwendet werden sollen. Dabei kann man um so aggressiver sein, also weniger Datenpunkte verwenden, je besser man die Mechanismen des abzuschätzenden Systems versteht. Die Abschätzung des Luftwiderstands aus der Fallgeschwindigkeit eines fallenden Gegenstands benötigt weniger Messungen als eine sinnvolle Wettervorhersage. Manche der Variablen in dem Artikel sind in ihrer Schätzung voneinander abhängig. Sagen wir also zugunsten der Autoren, dass pro Regime wirklich nur eine Variable abgeschätzt werden soll, die Basisreproduktionszahl oder eine äquivalente Variable. Dazu kommen natürlich die ermittelten Zeitpunkte der Regimewechsel als weitere Variablen. Damit hätte man für ein Modell mit drei Regimewechseln plus der Initialphase also fünf Basisreproduktionszahlen und vier Kalenderdaten, mithin neun Variablen abzuschätzen. Dafür stehen aber nur 51 Beobachtungen zur Verfügung, also fünfeinhalb Beobachtungen pro Variable. Das wird nichts.
Die tatsächlich effektiv vorhandene Zahl der Datenpunkte ist dabei noch geringer als die 51 täglichen Beobachtungen, denn die gemeldeten Fallzahlen sind durch unterschiedliche lange Zeitintervalle zwischen Infektion, Test und Meldung einerseits geglättet und andererseits periodischen und einzelnen Wandlungen wie Wochenenden und dem Osterwochenende unterworfen. (Über die Zahl der effektiv vorhandenen Variablen kann man unterschiedlicher Ansicht sein, wie auch über die der effektiv vorhandenen Datenpunkte, aber die Größenordnungen bleiben, so dass sich am Argument nichts ändert.)
Die Sünde der Überanpassung
Die Abschätzung von mathematischen Modellen der Wirklichkeit mit zu wenigen Beobachtungen im Vergleich zu den geschätzten erklärenden Variablen ist eine klassische statistische Sünde, die als Überanpassung oder overfitting bekannt ist. Das Problem dabei ist, dass durch die große Zahl der Variablen man für nahezu alle möglichen Beobachtungen ein Modell bekommt, das exzellent zu den Beobachtungen passt, deswegen suggeriert, dass die Wahl des Modells angemessen sei, in Wirklichkeit aber praktisch keinen Erklärungswert hat und bei der Anwendung auf die Zukunft spektakulär versagt.
Um das Problem mit Beispielen zu illustrieren: Die Zahlen aus dem März und April zeigen ja eine stetige (wenn man etwas tiefpassfiltert und tägliche kleine Sprünge als Messfehler und dergleichen ansieht) Verringerung der Basisreproduktionszahl. So eine stetige Verringerung kann man mit jedem beliebigen Modell bekommen, das für die 51 in Frage stehenden Tage eine stetige Verringerung liefert. Das könnte ein Modell sein, das die Verringerung mit dem Erreichen einer Herdenimmunität (und dementsprechend einer hohen Dunkelziffer) erklärt, aber auch ein astrologisches Modell, das sich auf die Wanderung der Sonne durch den Tierkreis bezieht, oder ein astronomisches, das die verlangsamte Ausbreitungsdynamik mit der Sonnenscheindauer pro Tag erklärt, würden funktionieren. Gibt man denen dann ebenfalls neun Variable, die angepasst werden können, dann erhält man eine praktisch perfekte Anpassung des Modells an die vorliegenden Daten und eine Bestätigung der Theorie, mit der man das Modell aufgestellt hat, egal ob das jetzt die Wirksamkeit der „Maßnahmen“, die Herdenimmunität, die Astrologie oder die Astronomie sind. Die Aussagekraft dieser Bestätigung ist logischerweise exakt Null, und es wäre naiv, sich davon tatsächlich bestätigt zu sehen und Entscheidungen auf dieser Bestätigung aufzubauen.
„The elephant in the room“: Die Dunkelziffer
Der Artikel diskutiert die Wichtigkeit der Abschätzung der Verzögerung zwischen Infektion, Test und Meldung des positiven Testergebnisses, aber er geht nicht auf das ein, was die Amerikaner „the elephant in the room“ nennen, das offensichtliche große Problem, das niemand ansprechen will. Im Fall der Ausbreitungsdynamik von SARS-CoV‑2 ist das die Dunkelziffer von Menschen, die infiziert waren oder sind, aber nicht getestet wurden oder werden. Nachdem manche Studien für manche Gegenden zu Ergebnissen gekommen sind, dass mehr als fünfzigmal so viele Menschen infiziert sein könnten als positiv getestet werden, andere aber auf viel kleinere Dunkelziffern kommen, muss jedes Modell der gemeldeten Ausbreitungszahlen zwangsläufig eben das sein: ein Modell der gemeldeten Zahlen, nicht der wirklichen.
Damit wäre eine Veränderung der Durchführung von Tests eine ganz wesentlicher Faktor in der Dynamik der gemeldeten Zahlen. Insbesondere könnte die enorme Ausbreitungsdynamik im frühen März auch schlicht dem Umstand geschuldet sein, dass Tests anfänglich sehr knapp waren, dann aber immer mehr verfügbar wurden, bis wir jetzt an dem Punkt sind, an dem die aufgebaute Testkapazität gar nicht genutzt wird. (Ich habe darauf bei meinen Schätzungen auch immer hingewiesen.) Die Artikel beschäftigt sich mit diesem Problem nicht.
Das Vertrauen in den Wissenschaftsbetrieb schwindet bei erheblichen Teilen der Bevölkerung zusammen mit dem Vertrauen in die Politik
Die Autoren kommen in ihrem Artikel zu der Schlussfolgerung, dass die „Maßnahmen“ Wirkung gezeigt hätten, und dass Vorsicht bei dem Ausstieg aus ihnen angezeigt sei. Das ist aber eine direkte Folge der Annahmen, mit denen das Modell spezifiziert wurde. Wenn über den März die beobachtete Ausbreitungsdynamik sich massiv verlangsamt hat (was den Autoren bei der Spezifikation des Modells vermutlich bekannt war), und wenn man als Bayes’sche a‑priori-Annahme einsetzt, dass ein Regimewechsel mit der Verhängung der Kontaktsperre eintrat, dann wird man zwangsläufig und natürlich eine Wirksamkeit der Kontaktsperre finden, vollkommen unabhängig davon, ob die tatsächlich gegeben ist. Daraus sollte man dann doch keine politischen Handlungsempfehlungen ableiten.
Verschlimmert wird die Haltlosigkeit der gegebenen Empfehlungen (die richtig oder falsch sein mögen, aber in dem vorgelegten Modell keine Begründung finden können) durch zweierlei Dinge. Erstens kommt ein Artikel mit ganz erheblichen Schwächen, die seine Aussagekraft weitgehend entwerten, in die Science, eine der prestigeträchtigsten wissenschaftlichen Zeitschriften überhaupt, und die Autoren arbeiten an einem renommierten Max-Planck-Institut. Dadurch erhält der Artikel, und insbesondere seine Empfehlungen, für welche die gespaltene Öffentlichkeit sich interessiert, einen ganz erheblichen, aber unverdienten Vertrauensvorschuss. Zweitens sorgt die Verwendung von sophistizierten (der Anglizismus sei mir wegen seiner schönen Doppeldeutigkeit gestattet) mathematischen Methoden, in diesem Fall der Markov-Chain-Monte-Carlo-Methode, für einen Respekt des Publikums und der Wissenschaftsredaktionen in den Tageszeitungen. Eine Methode mit einem solchen Namen, die dazu noch erhebliche Rechenleistung erfordert, muss ja sinnvolle Ergebnisse liefern. Tut sie aber nicht, wenn die Datenlage so ist, dass schon eine gewöhnliche Wald-und-Wiesen-Regression mangels Daten überfordert wäre.
Keine gute Entwicklung
Jedenfalls wären die meisten Leser mit Schulmathematik als Hintergrund wohl damit überfordert, eine Kritik abzuliefern, und reagieren entweder mit Akzeptanz oder mit Wissenschaftsverdruss, was weitgehend davon abhängen dürfte, wie sie zu allgemeinen politischen Entwicklungen stehen, und nicht von spezifisch wissenschaftlichen oder statistischen Ansichten, die sie nicht haben. Auf diese Weise tragen derartige Artikel wenig zum Erkenntnisgewinn und weniger zur Entwicklung einer sinnvollen Politik bei, aber viel dazu, dass das Vertrauen in den Wissenschaftsbetrieb bei erheblichen Teilen der Bevölkerung zusammen mit dem Vertrauen in die Politik schwindet. Das ist keine gute Entwicklung.
Zum Abschluss noch eine Literaturempfehlung. Die Markov-Chain-Monte-Carlo-Methode und ihre Verwandten sind in der Tat sehr interessant und nützlich für geeignete Anwendungen (zu denen die Auswertung von zwei Monaten gemeldeter Infektionszahlen aus den dargelegten Gründen nicht gehört). Ein sehr schönes, wenn leider auch nicht preiswertes Buch dazu und zu verwandten Methoden ist Beyond the Kalman Filter: Particle Filters for Tracking Applications von Branko Ristic et al. Es beschäftigt sich mit solchen Methoden vorwiegend im Kontext der Abschätzung der Bewegung von Luft- oder Seefahrzeugen aus Radardaten, mit offensichtlichen militärischen Anwendungen, aber die Methoden funktionieren auch für ganz andere Zwecke, sei es Kommunikationstechnik, sei es quantitative Finanz. (Wie immer ist das kein Affiliate Link und ich verdiene nichts an der Empfehlung.)