Über­an­ge­passt: Die patho­lo­gi­sche Wissenschaft

In der Sci­ence erschien ein Arti­kel, der mit einem kom­ple­xen mathe­ma­ti­schen Ver­fah­ren die Ver­än­de­rung der Aus­brei­tungs­dy­na­mik von SARS-CoV‑2 abschätzt. Er kommt zu dem Ergeb­nis, dass die Kon­takt­sper­re eine wesent­li­che Wir­kung gehabt habe, und emp­fiehlt Vor­sicht bei der Locke­rung der „Maß­nah­men“. Das wur­de auch gleich von der Wis­sen­schafts­re­dak­ti­on der FAZ auf­ge­schnappt. Lei­der begeht der Arti­kel mit der Ver­wen­dung eines so kom­ple­xen Modells mit zahl­rei­chen Varia­blen bei einer sehr gerin­gen Daten­ba­sis von zwei Mona­ten täg­li­cher Beob­ach­tun­gen den klas­si­schen Sta­tis­tik­feh­ler der Über­an­pas­sung. Das führt dazu, dass das Ergeb­nis nicht von den Daten bestimmt wird, son­dern von den Annah­men der Autoren. Ein astro­lo­gi­sches Modell wür­de genau­so über­zeu­gend wir­ken­de Ergeb­nis­se lie­fern. Die Unter­füt­te­rung poli­ti­scher Ent­schei­dun­gen durch Arti­kel mit wis­sen­schaft­li­chem Anspruch, aber dün­nen wis­sen­schaft­li­chen Ergeb­nis­sen, trägt zum Ver­trau­ens­ver­lust des Wis­sen­schafts­be­triebs bei.

Die Qua­li­tät wis­sen­schaft­li­cher Arbeit soll­te eigent­lich mit der prak­ti­schen und sozia­len Rele­vanz eines The­mas stei­gen. Lei­der ist das Gegen­teil der Fall, und wenn eine bestimm­te Fra­ge­stel­lung oder wis­sen­schaft­li­che Dis­zi­plin von hin­rei­chen­der Wich­tig­keit ist, dann unter­liegt sie nahe­zu zwangs­läu­fig der Poli­ti­sie­rung. Ab einer hin­rei­chen­den Wich­tig­keit des The­mas läuft Wis­sen­schaft Gefahr, dass poli­ti­sche Lager­bil­dung die Dis­kus­sio­nen um die Sache und ins­be­son­de­re die wis­sen­schaft­li­che Metho­de völ­lig über­schat­tet. Ein Bei­spiel dafür lie­fert der Arti­kel ‚Infer­ring chan­ge points in the spread of COVID-19 reve­als the effec­ti­ve­ness of inter­ven­ti­ons‘, erschie­nen auf dem Olymp wis­sen­schaft­li­cher Publi­ka­ti­on, in der Sci­ence, und dann dis­ku­tiert in der FAZ.

Ich habe die­ses Wochen­en­de das Pri­vi­leg und Ver­gnü­gen, auf einen grö­ße­ren Sport­wett­kampf zu gehen (auch noch als Teil­neh­mer), so dass ich zu mei­nem Auf­re­ger des Tages lei­der nur einen schnel­len Ab- (und natür­lich Ver-)riss lie­fern kann. Der soll­te es aber tun, um auf­zu­zei­gen, war­um der Arti­kel in der Sci­ence eigent­lich nichts aus­sagt, und war­um die Ver­wen­dung sol­cher Stu­di­en den öffent­li­chen Dis­kurs nicht infor­miert son­dern eher ein Abglei­ten in einen patho­lo­gi­schen Wis­sen­schafts­be­trieb ist.

Fan­gen wir mit dem Arti­kel in der FAZ an. Neben einer Betrach­tung, dass bei einer Zeit­ver­zö­ge­rung zwi­schen Ereig­nis und Beob­ach­tung die Beob­ach­tung natür­lich das Gesche­hen vor einer Zeit und nicht das gegen­wär­ti­ge reflek­tiert, dürf­te vor allem ein Satz dem Leser im Gedächt­nis blei­ben: „Wäh­rend die Absa­ge von Groß­ver­an­stal­tun­gen ab dem 8. März und die Schlie­ßung von Schu­len, Kin­der­be­treu­ung und Läden ab dem 16. März bereits zu einer deut­li­chen Abschwä­chung des Wachs­tums führ­ten, brach­te erst die Kon­takt­sper­re ab dem 23. März die Kehrt­wen­de hin zu fal­len­den Infek­ti­ons­zah­len.“ Das kann man gar nicht viel anders lesen als eine Beob­ach­tung, dass die „Maß­nah­men“ not­wen­dig und rich­tig waren und Leu­te, die das anders sehen min­des­ten unrecht hat­ten, viel­leicht auch „Covidio­ten“ (ein Begriff, den die FAZ ja durch­aus benutzt) waren und sind. Aber gibt der Arti­kel in der Sci­ence das wirk­lich her?

Model­lie­rung vom 2. März bis 21. April

Der Sci­ence-Arti­kel ver­sucht, das SARS-CoV‑2 Infek­ti­ons­ge­sche­hen in Deutsch­land bis zum 21. April zu model­lie­ren. Ich habe sel­ber die Basis­re­pro­duk­ti­ons­zahl der gemel­de­ten Infek­ti­ons­zah­len für ver­schie­de­ne Län­der abge­schätzt und hier ver­öf­fent­licht. Wel­ches Modell man auch nimmt, man sieht eine dras­ti­sche Abfla­chung der Aus­brei­tungs­dy­na­mik über den März, und bei­spiels­wei­se die Zah­len der Robert-Koch-Insti­tuts erzäh­len die glei­che Geschich­te wie mei­ne. Soweit, so gut. Zu den Ursa­chen und der Inter­pre­ta­ti­on die­ses Ergeb­nis­ses ist damit aber noch nichts gesagt.

Der Sci­ence-Arti­kel ver­sucht nun, Regime­wech­sel (im Sin­ne der „regime shifts“ der Sta­tis­tik) in der Aus­brei­tungs­dy­na­mik von SARS-CoV‑2 im März zu fin­den. Es wird also davon aus­ge­gan­gen, dass es Zeit­ab­schnit­te gibt, inner­halb derer die Aus­brei­tungs­dy­na­mik gleich blieb, und am Wech­sel die­ser Zeit­ab­schnit­te die Aus­brei­tungs­dy­na­mik sich abrupt ändert.

Dabei nimmt der Arti­kel die Zeit vom 2. bis 15. März als ers­te Pha­se an, die für die Abschät­zung der Aus­brei­tungs­dy­na­mik ohne Maß­nah­men dient. Danach ver­sucht er, abrup­te Wech­sel der Aus­brei­tungs­dy­na­mik vom 16. März bis zum 21. April abzu­schät­zen. Er ver­wen­det dabei die natio­na­len gemel­de­ten Fall­zah­len Deutschlands.

Fünf­ein­halb Beob­ach­tun­gen pro Varia­ble: Das wird nichts

Jeder, der schon ein­mal irgend­wel­che mathe­ma­ti­sche Model­lie­rung von Zeit­rei­hen betrie­ben hat, sieht sofort ein Pro­blem: Für die ers­te Pha­se der initia­len Aus­brei­tungs­dy­na­mik wer­den vier­zehn Tage, also vier­zehn Daten­punk­te ver­wen­det. Für die zwei­te Pha­se, inner­halb derer Regime­wech­sel erkannt wer­den sol­len, wer­den 37 Tage, also Daten­punk­te, ver­wen­det. Sol­len dar­in drei Regime­wech­sel erkannt wer­den, dann müss­te also jedes Regime im Durch­schnitt 9 Tage dau­ern und Erkennt­nis­se über die Aus­brei­tungs­dy­na­mik die­ses Regimes könn­ten auf nur 9 Daten­punk­te gestützt sein, und das auch nur, wenn alle Regimes gleich lan­ge dau­ern würden.

Es gibt nun Faust­re­geln, dass für jede abzu­schät­zen­de Varia­ble min­des­tens – je nach­dem wie kon­ser­va­tiv man ist – 10, 20 oder auch 50 Daten­punk­te ver­wen­det wer­den sol­len. Dabei kann man um so aggres­si­ver sein, also weni­ger Daten­punk­te ver­wen­den, je bes­ser man die Mecha­nis­men des abzu­schät­zen­den Sys­tems ver­steht. Die Abschät­zung des Luft­wi­der­stands aus der Fall­ge­schwin­dig­keit eines fal­len­den Gegen­stands benö­tigt weni­ger Mes­sun­gen als eine sinn­vol­le Wet­ter­vor­her­sa­ge. Man­che der Varia­blen in dem Arti­kel sind in ihrer Schät­zung von­ein­an­der abhän­gig. Sagen wir also zuguns­ten der Autoren, dass pro Regime wirk­lich nur eine Varia­ble abge­schätzt wer­den soll, die Basis­re­pro­duk­ti­ons­zahl oder eine äqui­va­len­te Varia­ble. Dazu kom­men natür­lich die ermit­tel­ten Zeit­punk­te der Regime­wech­sel als wei­te­re Varia­blen. Damit hät­te man für ein Modell mit drei Regime­wech­seln plus der Initial­pha­se also fünf Basis­re­pro­duk­ti­ons­zah­len und vier Kalen­der­da­ten, mit­hin neun Varia­blen abzu­schät­zen. Dafür ste­hen aber nur 51 Beob­ach­tun­gen zur Ver­fü­gung, also fünf­ein­halb Beob­ach­tun­gen pro Varia­ble. Das wird nichts.

Die tat­säch­lich effek­tiv vor­han­de­ne Zahl der Daten­punk­te ist dabei noch gerin­ger als die 51 täg­li­chen Beob­ach­tun­gen, denn die gemel­de­ten Fall­zah­len sind durch unter­schied­li­che lan­ge Zeit­in­ter­val­le zwi­schen Infek­ti­on, Test und Mel­dung einer­seits geglät­tet und ande­rer­seits peri­odi­schen und ein­zel­nen Wand­lun­gen wie Wochen­en­den und dem Oster­wo­chen­en­de unter­wor­fen. (Über die Zahl der effek­tiv vor­han­de­nen Varia­blen kann man unter­schied­li­cher Ansicht sein, wie auch über die der effek­tiv vor­han­de­nen Daten­punk­te, aber die Grö­ßen­ord­nun­gen blei­ben, so dass sich am Argu­ment nichts ändert.)

Die Sün­de der Überanpassung

Die Abschät­zung von mathe­ma­ti­schen Model­len der Wirk­lich­keit mit zu weni­gen Beob­ach­tun­gen im Ver­gleich zu den geschätz­ten erklä­ren­den Varia­blen ist eine klas­si­sche sta­tis­ti­sche Sün­de, die als Über­an­pas­sung oder over­fit­ting bekannt ist. Das Pro­blem dabei ist, dass durch die gro­ße Zahl der Varia­blen man für nahe­zu alle mög­li­chen Beob­ach­tun­gen ein Modell bekommt, das exzel­lent zu den Beob­ach­tun­gen passt, des­we­gen sug­ge­riert, dass die Wahl des Modells ange­mes­sen sei, in Wirk­lich­keit aber prak­tisch kei­nen Erklä­rungs­wert hat und bei der Anwen­dung auf die Zukunft spek­ta­ku­lär versagt.

Um das Pro­blem mit Bei­spie­len zu illus­trie­ren: Die Zah­len aus dem März und April zei­gen ja eine ste­ti­ge (wenn man etwas tief­pass­fil­tert und täg­li­che klei­ne Sprün­ge als Mess­feh­ler und der­glei­chen ansieht) Ver­rin­ge­rung der Basis­re­pro­duk­ti­ons­zahl. So eine ste­ti­ge Ver­rin­ge­rung kann man mit jedem belie­bi­gen Modell bekom­men, das für die 51 in Fra­ge ste­hen­den Tage eine ste­ti­ge Ver­rin­ge­rung lie­fert. Das könn­te ein Modell sein, das die Ver­rin­ge­rung mit dem Errei­chen einer Her­den­im­mu­ni­tät (und dem­entspre­chend einer hohen Dun­kel­zif­fer) erklärt, aber auch ein astro­lo­gi­sches Modell, das sich auf die Wan­de­rung der Son­ne durch den Tier­kreis bezieht, oder ein astro­no­mi­sches, das die ver­lang­sam­te Aus­brei­tungs­dy­na­mik mit der Son­nen­schein­dau­er pro Tag erklärt, wür­den funk­tio­nie­ren. Gibt man denen dann eben­falls neun Varia­ble, die ange­passt wer­den kön­nen, dann erhält man eine prak­tisch per­fek­te Anpas­sung des Modells an die vor­lie­gen­den Daten und eine Bestä­ti­gung der Theo­rie, mit der man das Modell auf­ge­stellt hat, egal ob das jetzt die Wirk­sam­keit der „Maß­nah­men“, die Her­den­im­mu­ni­tät, die Astro­lo­gie oder die Astro­no­mie sind. Die Aus­sa­ge­kraft die­ser Bestä­ti­gung ist logi­scher­wei­se exakt Null, und es wäre naiv, sich davon tat­säch­lich bestä­tigt zu sehen und Ent­schei­dun­gen auf die­ser Bestä­ti­gung aufzubauen.

„The ele­phant in the room“: Die Dunkelziffer

Der Arti­kel dis­ku­tiert die Wich­tig­keit der Abschät­zung der Ver­zö­ge­rung zwi­schen Infek­ti­on, Test und Mel­dung des posi­ti­ven Test­ergeb­nis­ses, aber er geht nicht auf das ein, was die Ame­ri­ka­ner „the ele­phant in the room“ nen­nen, das offen­sicht­li­che gro­ße Pro­blem, das nie­mand anspre­chen will. Im Fall der Aus­brei­tungs­dy­na­mik von SARS-CoV‑2 ist das die Dun­kel­zif­fer von Men­schen, die infi­ziert waren oder sind, aber nicht getes­tet wur­den oder wer­den. Nach­dem man­che Stu­di­en für man­che Gegen­den zu Ergeb­nis­sen gekom­men sind, dass mehr als fünf­zig­mal so vie­le Men­schen infi­ziert sein könn­ten als posi­tiv getes­tet wer­den, ande­re aber auf viel klei­ne­re Dun­kel­zif­fern kom­men, muss jedes Modell der gemel­de­ten Aus­brei­tungs­zah­len zwangs­läu­fig eben das sein: ein Modell der gemel­de­ten Zah­len, nicht der wirklichen.

Damit wäre eine Ver­än­de­rung der Durch­füh­rung von Tests eine ganz wesent­li­cher Fak­tor in der Dyna­mik der gemel­de­ten Zah­len. Ins­be­son­de­re könn­te die enor­me Aus­brei­tungs­dy­na­mik im frü­hen März auch schlicht dem Umstand geschul­det sein, dass Tests anfäng­lich sehr knapp waren, dann aber immer mehr ver­füg­bar wur­den, bis wir jetzt an dem Punkt sind, an dem die auf­ge­bau­te Test­ka­pa­zi­tät gar nicht genutzt wird. (Ich habe dar­auf bei mei­nen Schät­zun­gen auch immer hin­ge­wie­sen.) Die Arti­kel beschäf­tigt sich mit die­sem Pro­blem nicht.

Das Ver­trau­en in den Wis­sen­schafts­be­trieb schwin­det bei erheb­li­chen Tei­len der Bevöl­ke­rung zusam­men mit dem Ver­trau­en in die Politik

Die Autoren kom­men in ihrem Arti­kel zu der Schluss­fol­ge­rung, dass die „Maß­nah­men“ Wir­kung gezeigt hät­ten, und dass Vor­sicht bei dem Aus­stieg aus ihnen ange­zeigt sei. Das ist aber eine direk­te Fol­ge der Annah­men, mit denen das Modell spe­zi­fi­ziert wur­de. Wenn über den März die beob­ach­te­te Aus­brei­tungs­dy­na­mik sich mas­siv ver­lang­samt hat (was den Autoren bei der Spe­zi­fi­ka­ti­on des Modells ver­mut­lich bekannt war), und wenn man als Bayes’sche a‑prio­ri-Annah­me ein­setzt, dass ein Regime­wech­sel mit der Ver­hän­gung der Kon­takt­sper­re ein­trat, dann wird man zwangs­läu­fig und natür­lich eine Wirk­sam­keit der Kon­takt­sper­re fin­den, voll­kom­men unab­hän­gig davon, ob die tat­säch­lich gege­ben ist. Dar­aus soll­te man dann doch kei­ne poli­ti­schen Hand­lungs­emp­feh­lun­gen ableiten.

Ver­schlim­mert wird die Halt­lo­sig­keit der gege­be­nen Emp­feh­lun­gen (die rich­tig oder falsch sein mögen, aber in dem vor­ge­leg­ten Modell kei­ne Begrün­dung fin­den kön­nen) durch zwei­er­lei Din­ge. Ers­tens kommt ein Arti­kel mit ganz erheb­li­chen Schwä­chen, die sei­ne Aus­sa­ge­kraft weit­ge­hend ent­wer­ten, in die Sci­ence, eine der pres­ti­ge­träch­tigs­ten wis­sen­schaft­li­chen Zeit­schrif­ten über­haupt, und die Autoren arbei­ten an einem renom­mier­ten Max-Planck-Insti­tut. Dadurch erhält der Arti­kel, und ins­be­son­de­re sei­ne Emp­feh­lun­gen, für wel­che die gespal­te­ne Öffent­lich­keit sich inter­es­siert, einen ganz erheb­li­chen, aber unver­dien­ten Ver­trau­ens­vor­schuss. Zwei­tens sorgt die Ver­wen­dung von sophis­ti­zier­ten (der Angli­zis­mus sei mir wegen sei­ner schö­nen Dop­pel­deu­tig­keit gestat­tet) mathe­ma­ti­schen Metho­den, in die­sem Fall der Mar­kov-Chain-Mon­te-Car­lo-Metho­de, für einen Respekt des Publi­kums und der Wis­sen­schafts­re­dak­tio­nen in den Tages­zei­tun­gen. Eine Metho­de mit einem sol­chen Namen, die dazu noch erheb­li­che Rechen­leis­tung erfor­dert, muss ja sinn­vol­le Ergeb­nis­se lie­fern. Tut sie aber nicht, wenn die Daten­la­ge so ist, dass schon eine gewöhn­li­che Wald-und-Wie­sen-Regres­si­on man­gels Daten über­for­dert wäre.

Kei­ne gute Entwicklung

Jeden­falls wären die meis­ten Leser mit Schul­ma­the­ma­tik als Hin­ter­grund wohl damit über­for­dert, eine Kri­tik abzu­lie­fern, und reagie­ren ent­we­der mit Akzep­tanz oder mit Wis­sen­schafts­ver­druss, was weit­ge­hend davon abhän­gen dürf­te, wie sie zu all­ge­mei­nen poli­ti­schen Ent­wick­lun­gen ste­hen, und nicht von spe­zi­fisch wis­sen­schaft­li­chen oder sta­tis­ti­schen Ansich­ten, die sie nicht haben. Auf die­se Wei­se tra­gen der­ar­ti­ge Arti­kel wenig zum Erkennt­nis­ge­winn und weni­ger zur Ent­wick­lung einer sinn­vol­len Poli­tik bei, aber viel dazu, dass das Ver­trau­en in den Wis­sen­schafts­be­trieb bei erheb­li­chen Tei­len der Bevöl­ke­rung zusam­men mit dem Ver­trau­en in die Poli­tik schwin­det. Das ist kei­ne gute Entwicklung.

Zum Abschluss noch eine Lite­ra­tur­emp­feh­lung. Die Mar­kov-Chain-Mon­te-Car­lo-Metho­de und ihre Ver­wand­ten sind in der Tat sehr inter­es­sant und nütz­lich für geeig­ne­te Anwen­dun­gen (zu denen die Aus­wer­tung von zwei Mona­ten gemel­de­ter Infek­ti­ons­zah­len aus den dar­ge­leg­ten Grün­den nicht gehört). Ein sehr schö­nes, wenn lei­der auch nicht preis­wer­tes Buch dazu und zu ver­wand­ten Metho­den ist Bey­ond the Kal­man Fil­ter: Par­tic­le Fil­ters for Track­ing Appli­ca­ti­ons von Bran­ko Ristic et al. Es beschäf­tigt sich mit sol­chen Metho­den vor­wie­gend im Kon­text der Abschät­zung der Bewe­gung von Luft- oder See­fahr­zeu­gen aus Radar­da­ten, mit offen­sicht­li­chen mili­tä­ri­schen Anwen­dun­gen, aber die Metho­den funk­tio­nie­ren auch für ganz ande­re Zwe­cke, sei es Kom­mu­ni­ka­ti­ons­tech­nik, sei es quan­ti­ta­ti­ve Finanz. (Wie immer ist das kein Affi­lia­te Link und ich ver­die­ne nichts an der Empfehlung.)