Hans-Hermann Dubben

Hans-Peter Beck-Bornholdt

Der Hund, der Eier legt

Erkennen von Fehlinformation durch Querdenken

Inhaltsverzeichnis

Zitat

Vorwort

Ohne Panik positiv

Wir backen uns eine Schlagzeile

Statistik für Kuchenesser

Über Zufälle und Ursachen: ein Leukämieszenario

Ein Unglück kommt selten allein

Zufall oder Zustand

Mehr oder weniger Alkohol am Steuer

Eine heilige Kuh

Herausforderung zum Schussfolgern

Quadratisch, praktisch, gut

Neue Besen kehren gut! – Oder?

Unsinn mit Niveau

Mit der Schrotflinte in den Porzellanladen

Die unerträgliche Leichtigkeit der Signifikanz

«Ergebnisse» wie Sand am Meer

Kompost oder Komposition

Reiseroulette mit alten Autos

Von Spekulanten und Scharfschützen

Ein Spiel mit gezinkten Würfeln

Heute mal ganz ausgelassen

Reden ist Silber, Schweigen ist Gold

Heiße Luft?

Hitzefrei

Land in Sicht!

Was ich nicht weiß, macht mich nicht heiß

Not macht erfinderisch

Wo bleibt das Negative?

Auf Spurensuche

Modeerscheinungen in der Wissenschaft

Das Negative des Positiven

... es wäre doch so einfach!

Fußball, Zufall, Sensationen

Kerzen, Kabel, Kaffeekränzchen

Das Fußballstadion als Rouletteschüssel

Tischfußball

Die Bundesliga

Den Letzten beißen die Hunde

Der zarteste Versuch, seit es Schokolade gibt

Keine Schwalbe macht noch keinen Herbst

Im Nebel nach Überseh

Der Übersehfehler

Jubiläum eines beliebten Irrtums

Die Sichtverderber

Kleine Wirkung, großer Aufwand

Wer suchet, der findet

Die Qual vor der Wahl

(Un)heimliche Verluste

Mit der Wahrheit lügen

Daten auf der Streckbank

... es wirkt

Sehhilfe

Do it yourself

Die Ursache aus Anlass des Grundes

Kein Rauch ohne Feuer

Der Sonne Bahn lenkt der Hahn

Zu viel des Guten?

Der Segen der globalen Erwärmung

Von Schnäbeln und Vögeln

Der Hutskandal

Babylonische Sprachverwirrung

Keiner versteht mich

Vom Original zum Lehrsatz: das Stille-Post-Prinzip

Computermärchen

Das Genuesische Zepter

Lady Dis Baseballkappe

Wahlkreistango, kriminelle Vereinigungen und krebsresistente Linkshänder

Der Hund, der Eier legt

Kriminelle Vereinigung

Schwimmen wie ein Fisch ...

Zweimal verloren und doch gewonnen

Alles wird besser, obwohl sich nichts verändert

Hurra: Gesunde gesünder als Kranke

Rotwein und tot sein

Gleichheit durch blinden Zufall

Warten statt starten

Viel Blech ist noch lange kein Auto

Mit Sicherheit daneben

Das Orakel von Elphi

Ratte beim Tango

Aufruf zum Kaffeekränzchen

Nur jeder zweite Mann ein Mensch?

Mit Logik keine Panik

Alles egal, oder?

Irren ist menschlich

Schwamm ist ein vorzügliches Material ...

Dank

Anhang

I. Wie viele Zufallsergebnisse kann man erwarten?

II. Maximale Inzidenzen

III. Medianwert und 95-Prozent-Vertrauensbereich

IV. Prüfgröße und Fehler erster Art (p-Wert)

V. Auflösung der Manipulationsaufgaben von Seite 170

VI. Auflösung des Kartenspiels

Literatur

Register

Eigentlich weiß man nur, wenn man wenig weiß;

mit dem Wissen wächst der Zweifel.

Johann Wolfgang von Goethe

Vorwort

Die Wahrheit triumphiert nie,

ihre Gegner sterben nur aus.

Max Planck

 

Irren ist menschlich. Durch Versuch und Irrtum erkennen wir unsere Welt. Einige Irrtümer allerdings schaffen trotz klarer Widerlegungen den Sprung ins Lehrbuch. Einmal in Büchern oder Köpfen angelangt, können sie kaum noch korrigiert werden.

Unser Buch beschreibt eine Auswahl dieser Irrtümer, ihre Entstehung, ihre Resistenz gegen Widerlegungen und ihre Ausbreitungsmechanismen. Die Forschung ist gegenwärtig eher darauf angelegt, Quantität zu produzieren. Allein in den biomedizinischen Fachzeitschriften werden jährlich mehrere Millionen Artikel veröffentlicht, von denen die meisten wertlos sind. Qualität in Form von soliden Ergebnissen ist nicht gefragt. Eine unüberschaubare Flut von Desinformation begräbt die tatsächlich neuen Erkenntnisse unter sich und behindert den wissenschaftlichen Fortschritt. Wir wollen dazu beitragen, dass dies nicht so bleibt.

 

Zusammengerechnet blicken wir auf 60 Berufsjahre in der biomedizinischen Forschung zurück. Zeit genug, um reichlich eigene Fehler zu begehen und auf eigene Trugschlüsse hereinzufallen. Die meisten der in diesem Buch dargestellten Fehler haben wir vom Prinzip her selbst irgendwann begangen. Da aber unsere Forschungsergebnisse nicht so bedeutend sind, sind unsere Irrtümer zu belanglos, um hier ausgebreitet zu werden. Bedeutendere Wissenschaftler haben da ganz einfach Bedeutenderes geleistet. Deshalb berichten wir im Wesentlichen über die viel wichtigeren, weil einflussreicheren Trugschlüsse anderer Wissenschaftler. Außerdem ist es bekanntlich viel einfacher, vor der Tür anderer zu kehren, als sich an die eigene Nase zu fassen.

Dieses Buch ist unvollständig, denn die Vielfalt der Irrtümer ist grenzenlos. Viele der hier aufgeschriebenen Gedanken haben andere bereits vor uns gedacht, doch sind sie nur selten beherzigt worden. Wir sind dennoch überzeugt, dass diese Einführung in die Zwickmühlen der Forschung brisant und unterhaltsam ist. Brisant vor allem deshalb, weil die Grenze zwischen Irrtum und Wissenschaftsbetrug nicht immer eindeutig verläuft.

Der Text hat Risiken und Nebenwirkungen. Wir weisen auch dann auf Probleme hin, wenn wir keine Lösung anbieten können. Trotz vordergründig vergnüglicher Darreichungsform birgt dieses Buch die Gefahr nachhaltiger Verunsicherung, steigert allerdings gleichzeitig die Kritikfähigkeit.

Der Hund, der Eier legt entstand aus dem Skriptum unserer Vorlesung «Vom Irrtum zum Lehrsatz», die wir am Fachbereich Medizin der Universität Hamburg gehalten haben und die 1996 mit dem «Fischer-Appelt-Preis für hervorragende Leistungen in der akademischen Lehre» ausgezeichnet wurde.

 

Hamburg, im April 1997

 

 

Wir danken unseren Lesern für die vielen wertvollen Hinweise. Auch weiterhin sind wir an Kritik und Anregungen sehr interessiert (E-Mail: dubben@uke.uni-hamburg.de oder bebo@uke.unihamburg.de; Postadresse: Universitätsklinikum Hamburg-Eppendorf, Martinistraße 52, 20246 Hamburg).

Dem Rowohlt Verlag danken wir für die Gelegenheit, unser Buch für diese Neuauflage zu ergänzen, zu aktualisieren und zu korrigieren.

 

Hamburg, im Juli 2006

Ohne Panik positiv

Aussagekraft von Früherkennungsuntersuchungen

Gesundheit bezeichnet den Zustand eines Menschen, der nicht häufig genug untersucht wurde.

Dirk Maxeiner und Michael Miersch

 

Trugschlüsse und Irrtümer sind ansteckend wie Windpocken, und wie ansteckende Krankheiten breiten sie sich aus. Wer eine Infektion überstanden hat, ist danach häufig immun gegen erneuten Befall, und wer einen Trugschluss erst einmal erkannt hat, fällt auf ihn nicht mehr so leicht herein. Mit diesem Buch möchten wir Ihre Widerstandskraft gegen Irrtümer und Trugschlüsse stärken.

Sie sind soeben aus einem herrlichen Urlaub in einem fernen exotischen Land zurückgekehrt. Es ist touristisch noch fast unerschlossen und Sie haben sich prächtig erholt. Während Ihres Aufenthalts haben Sie erfahren, dass es dort eine seltene Erkrankung gibt, die Canine Ovorhoe, auch Bellsucht genannt. Die Ansteckungsgefahr für Touristen ist zwar gering, dennoch entschließen Sie sich, bei Ihrem Arzt einen Test durchführen zu lassen, da die Heilungschancen bei einer Früherkennung deutlich besser sind als nach dem Ausbruch der Krankheit. Ein paar Tage nach der Untersuchung ruft Ihr Arzt Sie an und offenbart Ihnen, dass Ihr Test positiv ist. Es sind also Hinweise auf eine Canine Ovorhoe gefunden worden. Ihr Arzt gibt Ihnen zusätzlich folgende Informationen:

1. Zur Zuverlässigkeit des Tests sagt er Ihnen, dass durch ihn die Bellsucht bei 99 von 100 Menschen, die von ihr infiziert sind, erkannt wird – nur einer wird übersehen. In 99 Prozent der Untersuchungen Erkrankter liefert der Test also ein positives und richtiges Ergebnis, in 1 Prozent der Fälle ein negatives und falsches. Andererseits werden von 100 Nichtinfizierten 98 auch als gesund erkannt. Nur zwei geraten fälschlich in den Verdacht, krank zu sein (und zu denen möchten Sie gehören). Der Test liefert also in 98 Prozent der Untersuchungen Gesunder ein negatives und richtiges Ergebnis, in 2 Prozent ein positives und falsches.

2. Über die Bellsucht erfahren Sie, dass sie nur etwa bei jedem tausendsten Touristen, der in dem exotischen Land war, auftritt, sich aber zunächst durch keine Symptome zu erkennen gibt.

3. Da Ihr Testergebnis positiv war, ist zur weiteren Abklärung ein kleiner chirurgischer Eingriff unter Narkose erforderlich, verbunden mit einem dreitägigen Klinikaufenthalt.

Der Test identifiziert mit 99-prozentiger Sicherheit die Erkrankten und mit 98-prozentiger Sicherheit die Gesunden. Er ist also sehr zuverlässig. Und er ist bei Ihnen positiv ausgefallen. Besteht Grund, sich ernsthafte Sorgen zu machen? Sie setzen sich in den Sessel, erholen sich vom ersten Schock und überlegen sich das Ganze in Ruhe. Wie groß ist die Wahrscheinlichkeit, dass Sie an Caniner Ovorhoe leiden? Bitte kreuzen Sie an:

 

Da mein Testergebnis positiv ist, bin ich mit folgender Wahrscheinlichkeit (in Prozent) bellsüchtig:

 

□ 99

□ 98

□ etwa 95

□ etwa 50

□ etwa 5

□ 2

□ 1

 

Sie werden hoffentlich nicht in Panik geraten und, bevor Sie eine Operation überhaupt in Erwägung ziehen, auf einer Wiederholung des Tests bestehen. Hier die Überlegungen dazu (da man bei vielen Zahlen leicht durcheinander gerät, haben wir die Tabelle 1 – siehe Seite 19 – erstellt):

Nehmen wir an, dass sich 100 100 Menschen, aus dem exotischen Land zurückgekehrt, diesem Test unterziehen. Da sich nur jeder Tausendste angesteckt hat, sind unter den Getesteten ungefähr 100 Kranke und 100 000 Gesunde zu erwarten. Bei 99 der 100 Bellsüchtigen wird die Infektion durch den Test korrekt festgestellt und bei einem fälschlich übersehen (99-prozentige Sicherheit, die Erkrankten zu erkennen). Von den 100 000 Nichtinfizierten stuft der Test 98 000 richtig als gesund ein (98-prozentige Sicherheit, die Gesunden zu erkennen), den Rest, das heißt 2000 gesunde Menschen, irrtümlicherweise als krank. Insgesamt wurden 99 + 2000 = 2099 Menschen mit einem positiven Testergebnis erschreckt. Die Wahrscheinlichkeit, dass Sie mit Ihrem positiven Test zu den 99 tatsächlich Bellsüchtigen gehören, beträgt 99/​2099 = 0,0472 beziehungsweise 4,72 Prozent oder etwa 5 Prozent. Diese Zahl ist die Lösung in unserem Wahrscheinlichkeitsquiz. In der Regel wird ein wesentlich höheres Risiko erwartet. Sollten auch Sie falsch getippt haben, dann befinden Sie sich in guter Gesellschaft. Wir haben auf Tagungen und Seminaren dieselbe Frage gestellt und anonym beantworten lassen. Egal ob wir Apotheker, niedergelassene Ärzte, Medizinstudenten, Patientenberater oder medizinische Laien befragten: Das Antwortspektrum war immer sehr ähnlich. Nur etwa jeder zehnte Befragte gab die richtige Antwort. Weit über die Hälfte schätzte die Erkrankungswahrscheinlichkeit viel zu hoch (über 90 Prozent) ein. Vermutlich lassen sich die meisten durch die hohe Zuverlässigkeit des Tests (99 Prozent und 98 Prozent) beirren, während die geringe Ansteckungswahrscheinlichkeit übersehen wird. Erschütternd ist dabei, dass dies für Wissenschaftler, die zum Teil als Spezialisten für prädiktive Tests angesehen werden, genauso gilt wie für Laien.

Sie lassen den Test nach einiger Zeit wiederholen.1 Jeder gute Mediziner hätte Ihnen das ohnehin vorgeschlagen. Mit Bedauern teilt Ihnen der Arzt mit, das Ergebnis sei wieder positiv. Was nun? Die Überlegungen dazu sind dieselben wie oben, nur mit anderen Zahlen. Wir erstellen wieder eine Tabelle, die Tabelle 2: Nehmen wir an, dass sich alle 2099 Personen mit positivem Ergebnis im ersten Test, genauso besorgt wie Sie, erneut untersuchen lassen. Da der Test auch in der zweiten Runde bei Kranken mit 99-prozentiger Sicherheit ein positives Ergebnis liefert, können wir davon ausgehen, dass er von den 99 Bellsüchtigen 98 als infiziert und einen wieder fälschlich als gesund einstuft. Von den 2000 gesunden Menschen werden jetzt 1960 (= 98 Prozent) richtig für gesund befunden. Beim Rest, 2000  1960 = 40 Gesunden, besteht auch nach diesem zweiten Test Bellsuchtverdacht, weil ihr Ergebnis fälschlich positiv ausfällt. Diesmal erhalten insgesamt 98 + 40 = 138 der Untersuchten ein positives Testergebnis. Die Wahrscheinlichkeit, zu den 98 tatsächlich Erkrankten zu gehören, beträgt jetzt 98/​138 = 0,71 oder 71 Prozent. Das ist schon eher ein Grund zur Unruhe, aber es bestehen immer noch gute Chancen (29 Prozent), dass Sie in Wirklichkeit gesund sind.

Tabelle 1: Übersichtstabelle zur Bestimmung der Erkrankungswahrscheinlichkeit bei positivem Test auf Bellsucht

Die Wahrscheinlichkeit, bei positivem Ergebnis tatsächlich erkrankt zu sein, schätzen die meisten intuitiv viel zu hoch ein. Dies liegt vermutlich daran, dass im Allgemeinen nur die Genauigkeit des Tests berücksichtigt wird, aber nicht die Häufigkeit der Krankheit. In unserem Beispiel beträgt sie 1 von 1000.

Tabelle 2: Übersichtstabelle zur Bestimmung der Erkrankungswahrscheinlichkeit, wenn auch der zweite Test auf Bellsucht positiv ausfällt

Es gibt nur wenige Tests, die so genau sind wie der in unserem ausgedachten Beispiel. In der Regel besteht nach einem positiven Resultat noch viel weniger Grund zur Panik, wie wir anhand aktueller Zahlen aus der Brust- und Darmkrebsvorsorge gleich sehen werden.

Die Häufigkeit, mit der eine Erkrankung auftritt, wird auf zwei unterschiedliche Weisen gemessen: mit der Prävalenz und mit der Inzidenz. Die Prävalenz einer Erkrankung folgt aus einer Art Momentaufnahme. Man schaut nach, wie viele Personen an einem bestimmten Tag die Erkrankung haben. Wenn von 80 000 Einwohnern unseres fernen exotischen Landes 3200 an Bellsucht erkrankt sind, dann beträgt die Prävalenz 3200/​80 000 = 0,04 oder 4 Prozent.

Bei der Inzidenz kommt der Faktor Zeit mit ins Spiel. Man schaut nach, wie viele Personen beispielsweise innerhalb eines Jahres neu erkrankt sind. Nehmen wir an, in unserem Urlaubsland treten jährlich 800 Neuerkrankungen auf. Dann beträgt die Inzidenz 800/​80 000 pro Jahr = 0,01 pro Jahr oder 1 Prozent pro Jahr. Meistens wird die Inzidenz pro 100 000 und Jahr angegeben. Hier sind es dann 1000 pro 100 000 Personen und Jahr. In der Hauptstadt mit 15 000 Einwohnern gibt es also jedes Jahr rund 150 Neuerkrankungen.

Inzidenz und Prävalenz hängen bei vielen Erkrankungen vom Alter ab. So nimmt beispielsweise die Häufigkeit von Krebs- und Herz-Kreislauf-Erkrankungen mit dem Lebensalter deutlich zu. Wenn eine 53-jährige Frau erstmalig zur Mammographie geht, so wird man für die Einschätzung der Aussagekraft eines positiven Befundes eher die Prävalenz heranziehen. Wenn sie hingegen nach zwei Jahren zu einer Folgeuntersuchung kommt, muss die Inzidenz für zwei Jahre zugrunde gelegt werden.

Bei der Mammographie (Maßnahme zur Brustkrebs-Früherkennung) kommen falsch positive Befunde bei etwa 4 Prozent der Gesunden vor. Falsch negativ sind etwa 20 Prozent der Ergebnisse, das heißt, jeder fünfte Fall von Brustkrebs wird bei der Mammographie übersehen. Für Frauen zwischen 50 und 69 Jahren wird in Deutschland die Mammographie empfohlen. Für eine Frau aus dieser Altersgruppe, die zuvor noch nie zur Mammographie war und bei der kein Knoten in der Brust getastet werden kann, beträgt die Brustkrebshäufigkeit (Prävalenz) etwa 0,8 Prozent2. Damit ergibt sich Tabelle 3.

Insgesamt erhalten 4608 Frauen eine positive Diagnose. Diese ist jedoch nur bei 640 richtig. Bei 3968 Frauen (entsprechend 3968/​4608 = 86 Prozent) ist der Befund falsch positiv. Diesen Frauen werden zur weiteren Abklärung in aller Regel Biopsien entnommen, obwohl sie gesund sind. Dies zeigt deutlich, wie wichtig es ist, dass erfahrene Ärzte die Untersuchung durchführen. Selbst eine scheinbar geringfügige Erhöhung der falsch positiven Befunde führt zu einer beachtlichen Zunahme der Frauen, bei denen der Eingriff ohne Grund vorgenommen wird.

95 392 Frauen haben ein negatives Testergebnis. Davon sind aber 160 trotzdem erkrankt. Man hat den Tumor übersehen. Der Befund ist also falsch negativ. Bei 95 232 Frauen ist die negative Diagnose richtig. Die Wahrscheinlichkeit, bei negativer Diagnose tatsächlich gesund zu sein, beträgt somit 95 232/​95 392 = 99,83 Prozent. Vor der Mammographie waren es 99,2 Prozent. Frau kann sich mit dieser Diagnose also ein bisschen sicherer fühlen.

Tabelle 3: Übersichtstabelle zur Bestimmung der Wahrscheinlichkeit einer tatsächlichen Brustkrebserkrankung bei positivem Mammographiebefund ohne weitere Symptome. Diese Tabelle gilt für Frauen zwischen 50 und 69 Jahren, die erstmals zur Mammographie gehen.

Inzidenz und Prävalenz hängen über die Dauer der Erkrankung zusammen:

 

Prävalenz = mittlere Dauer der Erkrankung × Inzidenz

 

Bei gleicher Inzidenz wird eine Erkrankung von sehr kurzer Dauer auf der Momentaufnahme seltener dabei sein als eine langwierige Krankheit. Mit Hilfe dieser Gleichung lässt sich auch die mittlere Dauer der Erkrankung bestimmen. In unserem Beispiel mit der Bellsucht dauert die Erkrankung 0,04/​0,01 pro Jahr = 4 Jahre.

Es können aber auch erstaunliche Dinge auftreten. Das liegt daran, dass das Ende einer Erkrankung sowohl durch die ersehnte Heilung, aber leider auch durch den Tod eintreten kann. In unserer exotischen Ferienheimat hat das Gesundheitsministerium viel Geld für die Behandlung der Bellsucht ausgegeben, an der man bekanntlich auch versterben kann. Die Inzidenz blieb daraufhin konstant und die Prävalenz stieg an. Ein Schuss, der nach hinten losging? Keineswegs. Denn die bessere Behandlung der Erkrankten hat dazu geführt, dass die Bellsüchtigen jetzt deutlich länger leben. Dadurch wird die mittlere Dauer der Erkrankung länger und, bei konstanter Inzidenz, erhöht sich somit die Prävalenz. Und eine Verringerung der Prävalenz? Ist das dann nicht eine Katastrophe? Nicht unbedingt. Es hängt davon ab, ob die Abnahme der mittleren Dauer der Erkrankung durch früheres Versterben oder durch frühere Heilung bedingt ist.

Ein anderes Beispiel aus der Krebsfrüherkennung bezieht sich auf das Rektumkarzinom (Mastdarmkrebs). Die Wahrscheinlichkeit, dass ein siebzigjähriger Mann ohne spezifische Symptome an Mastdarmkrebs leidet, liegt in Deutschland bei etwa 0,3 Prozent. Das entspricht 300 Kranken unter 100 000 Menschen. Bei einem gebräuchlichen Test, der über den Nachweis von Blut im Stuhl für die Frühdiagnose des Rektumkarzinoms eingesetzt wird, beträgt die Wahrscheinlichkeit für falsch positive Testergebnisse 3 Prozent und für falsch negative sogar 50 Prozent3. Fällt der Test positiv aus, dann beträgt die Wahrscheinlichkeit, tatsächlich an Mastdarmkrebs erkrankt zu sein, 150/​3141 = 0,0478, also etwa 5 Prozent (vergleiche Tabelle 4).

Demnach erhalten 2991 Menschen ein falsch positives Testergebnis, das heißt, bei ihnen sind die zum Teil unangenehmen anschließenden und nicht risikolosen Untersuchungen (Rektoskopie, Röntgenkontrast, Koloskopie) praktisch unnötig. Allerdings wird durch diese das Karzinom bei einem von zwanzig insgesamt Untersuchten (150/​3141 ≈ 1/​20) früher entdeckt, was dazu führt, dass er eine bessere Heilungschance hat. Für den großen Vorteil, den die Früherkennung diesem einen Erkrankten bringt, müssen also viele Gesunde Nachteile (Unannehmlichkeiten, eventuell Nebenwirkungen) in Kauf nehmen. Außerdem besteht ein, wenn auch nur geringes, Risiko für schwerwiegende Komplikationen bei der Vorbereitung der Koloskopie (Elektrolytentgleisung), der eventuellen Narkose und bei der eigentlichen Untersuchung, bis hin zu schweren Verletzungen (Perforation) und Tod.

Tabelle 4: Übersichtstabelle zur Bestimmung der Wahrscheinlichkeit einer tatsächlichen Mastdarmkrebserkrankung bei positivem Testergebnis

Die Wahrscheinlichkeit, dass sich Untersuchte mit einem negativen Ergebnis in falscher Sicherheit wiegen und doch ein unerkanntes Rektumkarzinom haben, beträgt 150/​96 859 = 0,00155 beziehungsweise 0,155 Prozent. Die Prävalenz der Nichtgetesteten betrug, wie erwähnt, 0,3 Prozent. Mit einem negativen Testergebnis können Sie es sich jetzt leisten, Ihre Unsicherheit hinsichtlich Mastdarmkrebses um die Hälfte zu reduzieren (0,155/​0,3 ≈ 1/​2). An Sicherheitsgewinn bringt der Test Ihnen allerdings nur 0,3 − 0,155 = 0,145 Prozent.

Ein weiteres Beispiel betrifft Aids, das heißt den HIV-Test4. Er ist einer der zuverlässigsten Tests, die jemals entwickelt wurden. Falsch negative Ergebnisse kommen praktisch nicht vor. Und wenn doch einmal wie 1997 mit dem Test eines bestimmten Herstellers europaweit vier Fälle übersehen werden, dann berichtet darüber die Tagespresse. Zu beachten ist allerdings, dass sich das HIV erst vier bis acht Wochen nach der Ansteckung nachweisen lässt. Wenn innerhalb dieses Zeitraums der Test trotz Infektion ein negatives Ergebnis liefert, dann wird das selbstverständlich nicht als falsch negativ gewertet. Falsch positive Ergebnisse sind ebenfalls außerordentlich selten, sie liegen bei etwa 0,2 Prozent.

Überraschenderweise hängt die Wahrscheinlichkeit, dass ein Test-Positiver tatsächlich HIV-infiziert ist, auch davon ab, wo er untersucht wurde, selbst wenn die durchgeführten Tests überall die gleichen sind. Um dies zu verdeutlichen, zeigen wir Ihnen die Daten von zwei Institutionen mit sehr unterschiedlicher Klientel.

Unter den insgesamt etwa 20 000 Blutspendern eines großen deutschen Krankenhauses gab es in den letzten zehn Jahren nur einen einzigen Ansteckungsfall. Mit dieser Häufigkeit ergibt sich folgende Tabelle:

Nur einer von 41 Blutspendern mit positivem Testergebnis war tatsächlich mit dem Aidsvirus infiziert. Die Wahrscheinlichkeit, sich angesteckt zu haben, betrug bei ihnen also lediglich 1/​41 = 2,4 Prozent.

In einem norddeutschen diagnostischen Labor hingegen liegt die Prävalenz mit 1,5 Prozent wesentlich höher, was darauf zurückzuführen ist, dass hier die Proben zum großen Teil von Personen stammen, die Anlass haben, sich einem HIV-Test zu unterziehen, während bei der Blutbank aus Sicherheitsgründen das Blut aller Spender untersucht wird. Mit der höheren Prävalenz ergibt sich Tabelle 6.

Tabelle 6: Übersichtstabelle zur Bestimmung der Wahrscheinlichkeit einer HIV-Infektion bei ELISA-Test-Positiven, deren Blut in einem diagnostischen Labor untersucht wurde

Die Wahrscheinlichkeit, dass bei einem positiven Testergebnis tatsächlich eine HIV-Infektion vorliegt, ist hier deutlich größer. Sie beträgt 300/​339 = 0,885 oder 88,5 Prozent. Diese enorm unterschiedlichen Wahrscheinlichkeiten kommen dadurch zustande, dass die beiden Populationen verschiedene Risikogruppen repräsentieren. Die eben berechneten Wahrscheinlichkeiten sind ein Maß für die Zuverlässigkeit des Tests in einer bestimmten Umgebung, also unter Berücksichtigung der Klientel der Institution, die die Untersuchungen durchführt. Bei einem positiven Testergebnis führt sie mit der ursprünglich gewonnenen Blutprobe einen zweiten Test durch, den so genannten Immunoblot, der eine deutlich geringere Rate an falsch positiven Resultaten hat, aber auch erheblich teurer und aufwendiger ist. Mit ihm können praktisch alle Fehldiagnosen ausgeschaltet werden. Bei den dann immer noch positiven Patienten wird so rasch wie möglich ein zweites Mal Blut abgenommen und der Test wiederholt. Dies ist auch deshalb notwendig, weil sich eine Verwechslung von Blutproben nie ganz ausschließen lässt. Auch Verfahrensfehler sind möglich, werden allerdings weitgehend durch Kontrollproben vermieden. Erst wenn das Ergebnis des zweiten Tests wiederum positiv ist, wird der Patient informiert, und zwar umgehend.

Zum Schluss sei angemerkt, dass es einem Menschen mit einer eventuellen HIV-Infektion nichts nützt, ein Untersuchungslabor mit möglichst kleiner Prävalenz aufzusuchen. Die Wahrscheinlichkeit, dass er sich angesteckt hat, hängt nicht von der nachträglichen Entscheidung ab, wo er sich untersuchen lässt.

Wir backen uns eine Schlagzeile

Zufällige und echte Häufung

Immer wenn man die Meinung der Mehrheit teilt,

ist es Zeit, sich zu besinnen.

Mark Twain

 

Jahrelang keinen Platten am Fahrrad und jetzt gleich zwei innerhalb eines Monats! Ist das Zufall? Sabotage? Oder brauche ich neue Reifen? – Zurzeit werden viele Zwillinge geboren: bei uns gegenüber im ersten Stock und bei der besten Freundin meiner Cousine auch. Ist das Zufall oder auf die Wirkung von Hormonen im Trinkwasser zurückzuführen? – Ein kleiner Ort in Oberbayern hat 2873 Einwohner. Vier davon sind über hundert Jahre alt. Ist das Zufall? Liegt es an der Landluft? Oder an gesunder Lebensführung? – In der Samtgemeinde Elbmarsch nahe dem Kernkraftwerk Krümmel bei Hamburg erkrankten zwischen Februar 1990 und Mai 1991 fünf Kinder an Leukämie. Kann das Zufall sein?

Von der Statistik erhoffen wir uns Hilfe bei der Unterscheidung von zufälligen und systematischen Ereignissen. Das hört sich verdächtig nach Mathematik an, die nicht jedermanns Sache ist. Deshalb haben wir sie in die Fußnoten und in den Anhang verbannt. Wer es nicht so genau wissen will, kann das Kleingedruckte getrost auslassen. Um Sie mit der für Fragen wie die oben gestellten zuständigen Statistik-Spezialität anzufreunden, schlagen wir Ihnen eine Aufwärmübung am Backofen vor.

Statistik für Kuchenesser

Wie sieht eine zufällige Verteilung aus?

Als Lehrende an der Universität Hamburg machen wir regelmäßig die Erfahrung, dass falsche Vorstellungen darüber bestehen, wie etwas aussieht, das zufällig entstanden ist. Wir möchten Ihnen daher ein einfaches praktisches Beispiel vorführen.

Sie backen einen Kuchen. In Abwandlung des Originalrezepts geben Sie zwanzig Kaffeebohnen in den fertigen Teig. Bitte gründlich umrühren. Nach dem Backen soll der Kuchen in zwanzig gleich große Stücke zerschnitten werden. Während er im Ofen ist, haben wir Zeit, darüber nachzudenken, wie viele Bohnen Sie in den einzelnen Kuchenstücken erwarten können.

Im Mittel befindet sich in jedem Stück eine Bohne. Wenn das aber tatsächlich der Fall ist, dann liegt der Verdacht nahe, dass der Bäcker nicht einfach gerührt, sondern den Kuchen sorgsam garniert hat. Man kann ausrechnen1, dass alle Bürger der Bundesrepublik Deutschland einen Kuchen backen müssen, damit zufällig etwa zwei Kuchen mit gleichmäßig verteilten Kaffeebohnen entstehen. Am unwahrscheinlichsten ist es, dass alle zwanzig Bohnen zufällig in einem einzigen Stück landen. Da können Sie jede Wette eingehen, dass der Bäcker nicht richtig gerührt oder ganz unzufällig nachgeholfen hat.2 Wir können viel eher Kuchenstücke mit zwei, drei oder mehr Kaffeebohnen und entsprechend viele ohne Bohne erwarten. Am wahrscheinlichsten ist es, dass wir sieben Stücke ohne, sieben mit einer, fünf mit zwei und ein Stück mit drei Kaffeebohnen vorfinden.

Mit derartigen Häufungen sind wir bei dem Stoff, aus dem Schlagzeilen gebacken werden, und bei dem Problem, Zufälle und Ursachen auseinander zu halten. Ist schlampig gerührt worden, wenn wir einmal sechs Bohnen in einem Kuchenstück finden? Oder kann das noch Zufall sein? Wenn in einer Kleinstadt innerhalb von fünfzehn Monaten fünf Fälle einer Leukämie im Kindesalter auftreten: Kann das Zufall sein, oder ist es ein Beweis für eine Gefährdung, deren Ursache und Verursacher unverzüglich gefunden werden müssen?

Über Zufälle und Ursachen: ein Leukämieszenario

Im folgenden simulierten Szenario werden Sie erfahren, wie etwas Zufälliges entsteht und wie es aussieht.

Als Versuchsfeld benötigen wir ein großes Quadrat mit 6 × 6 = 36 Feldern (Abbildung 1) und zwei unterscheidbare Würfel, zum Beispiel einen schwarzen und einen weißen. Jedes Feld ist, wie beim Spiel «Schiffe versenken», durch zwei Zahlen gekennzeichnet. Der weiße Würfel gibt die Zeile und der schwarze die Spalte an. Nach dem Werfen zum Beispiel einer weißen Zwei und einer schwarzen Vier wird das Feld in der zweiten Zeile und der vierten Spalte mit einem senkrechten Strich markiert. Wird ein Feld mehrmals getroffen, erhält es jedes Mal einen weiteren Strich.

Abbildung 1: Versuchsfeld für ein simuliertes Leukämieszenario mit einem Kernkraftwerk, einer Chemiefabrik, einer Mülldeponie und einer Hochspannungsleitung. Der erste simulierte Leukämiefall trat im Feld 2  4 auf (senkrechter Strich).

Um unserem Versuchsfeld einen realistischen Bezug zu geben, haben wir daraus eine Landkarte gemacht und sie mit Merkmalen einer Industrielandschaft versehen: einem Kernkraftwerk, einer Chemiefabrik, einer Hochspannungsleitung und einer Mülldeponie. Jeder gewürfelte Strich entspricht einem Fall einer seltenen Erkrankung, beispielsweise einer Leukämie im Kindesalter.

Wir beginnen jetzt mit dem Versuch, indem wir die Würfel werfen und den ersten Treffer eintragen (Abbildung 1). In unserem Beispiel trat der erste Fall im Feld 2  4 auf. Die durchschnittliche Leukämierate auf dem gesamten Versuchsfeld ist jetzt 1/​36, denn wir haben einen Treffer auf sechsunddreißig Kästchen. Im markierten Feld beträgt die Leukämierate 1. Sie liegt um den Faktor 36 über dem Durchschnitt. Das ist zwar zweifellos eine richtige Feststellung, aber ohne Relevanz, denn irgendwo musste der Treffer ja schließlich landen.

Die nächste Abbildung zeigt unser Versuchsfeld nach zehn Würfen. Der letzte Treffer ist im Feld 6  1, also links oben in der Ecke, gelandet. Dort befinden sich jetzt zwei Striche. Vor dem zehnten Wurf gab es neun Felder mit jeweils einem Treffer. Die Wahrscheinlichkeit, dass der zehnte zu einem bereits markierten Quadrat führen würde, betrug 9/​36 = 0,25 = 25 Prozent. Im Mittel haben wir jetzt 10/​36 = 0,28 Leukämien pro Feld. Im Quadrat links oben traten jedoch zwei Fälle auf. Das Risiko ist dort siebenfach überhöht (2/​0,28 = 7,1), während es in den Kästchen mit einem Fall um das Drei- bis Vierfache über dem Mittelwert liegt (1/​0,28 = 3,6).

Abbildung 2: Simuliertes Leukämieszenario nach Auftreten des zehnten simulierten Leukämiefalls. Die Leukämierate ist im Feld 6  1 mit zwei Fällen gegenüber dem Durchschnitt siebenfach überhöht.

Pressemeldungen über horrende Risikoerhöhungen beruhen häufig auf ähnlich unsinnigen Berechnungen. So erschien ein Bericht in der Zeitschrift Fortschritte der Medizin mit dem Titel «Erhöhtes Leukämierisiko in der Region um La Hague». La Hague ist eine Wiederaufbereitungsanlage für Kernbrennstoffe in Frankreich. Bei der beschriebenen Untersuchung, die die in der Umgebung der Anlage aufgetretenen Leukämiefälle der letzten fünfzehn Jahre berücksichtigt, wurden «vier Leukämiefälle anstelle der zu erwartenden 1,4 Fälle ermittelt. Hier erscheint das Leukämierisiko demnach um den Faktor 3 erhöht.» Dieser Bericht erinnert sehr stark an unser Würfelexperiment. Das Problem bei seltenen Erkrankungen sind die sehr geringen Fallzahlen, die es nicht erlauben, zufällige Häufungen von systematischen zu unterscheiden.

Nach insgesamt 36 Würfen, also im Durchschnitt einem Treffer pro Feld, ergab sich bei uns (Abbildung 3) eine deutliche Leukämiehäufung in der Nähe des Kernkraftwerkes und um die Chemiefabrik herum. Es gehört nicht viel Phantasie dazu, sich die entsprechenden Schlagzeilen in der Regionalpresse vorzustellen.

Unser Beispiel könnte manipuliert sein. Dies lässt sich am besten überprüfen, indem Sie den Versuch selbst wiederholen. Zeichnen Sie Ihre eigene Industrielandschaft in Abbildung 4 ein, und würfeln Sie 36-mal. Bei der späteren Beurteilung der Sachlage auf Ihrem Spielfeld und der anschließenden Suche nach einem Schuldigen werden Sie immer einen Weg finden, die Risikoerhöhung Ihrem Lieblingsverursacher in die Schuhe zu schieben.

In der Realität treten neben räumlichen auch zeitliche Häufungen auf. Dies ist einfach zu verstehen. Sie müssen sich dazu nur die 36 Felder unseres Szenarios als aufeinander folgende Tage, Wochen, Monate usw. vorstellen. Schon erhalten Sie Zeitabschnitte, in denen sich seltene Ereignisse plötzlich häufen. Wir werden später in diesem Kapitel darauf zurückkommen.

Abbildung 3: Simuliertes Leukämieszenario nach Auftreten von 36 «Fällen». Sie sind gewürfelte Zufallstreffer mit im Durchschnitt einem Fall pro Feld. Es ergaben sich deutliche Häufungen in der Umgebung des Kernkraftwerks und der Chemiefabrik.

 

Es gibt statistische Verfahren, mit denen Vorhersagen für das 6 × 6-Feld berechnet werden können.3 Um unsere und Ihre eigenen Ergebnisse mit dieser Prognose zu vergleichen, zählen Sie bitte die Kästchen, die keinen, einen, zwei, drei usw. Treffer abbekommen haben, und tragen Sie das jeweilige Ergebnis in Tabelle 7 ein. Zur Probe addieren Sie die Zahlen und überprüfen, ob auch genau 36 herauskommt.

Statistisch erwartet man im Durchschnitt etwa dreizehn Kästchen ohne Treffer und dieselbe Anzahl mit einem Treffer. Bei unserem Versuch waren es vierzehn und zwölf. Auch die anderen Resultate stimmen ganz gut damit überein, aber perfekte Übereinstimmung darf man nicht erwarten, da ja stets der Zufall mit im Spiel ist.

Betrachten wir die Vorhersage nochmals genauer. Der Durchschnittswert nach 36 Würfen ist genau ein Treffer pro Kästchen. Statistisch ist ein vierfach getroffenes Feld in ungefähr jeder zweiten Simulation (1/​0,54 = 1,85 ≈ 2), ein Fünffachtreffer in jeder neunten (1/​0,11 = 9,09 ≈ 9) zu erwarten.

Würfeln Sie jetzt so lange weiter, bis auch das letzte Kästchen einen Strich bekommen hat. Das ist zwar etwas langwierig, aber man kann dabei einiges an «Gefühl» für Statistik erwerben. Wir benötigten insgesamt 117 Würfe (Abbildung 5), bis das letzte Feld getroffen war. Und da hatten wir noch Glück, denn in 50 Prozent der Fälle sind dafür mehr als 143 Versuche erforderlich.4 Das am häufigsten gewürfelte Kästchen erhielt neun Striche. Die Verteilung der Treffer ist alles andere als gleichmäßig.

Abbildung 4: Versuchsfeld für Ihr eigenes Szenario. Zeichnen Sie eine Landschaft Ihrer Wahl ein, und würfeln Sie 36-mal.

Mit diesem Versuch lässt sich natürlich nicht beweisen, dass die Leukämiehäufungen in der Umgebung von Krümmel nicht auf das Kernkraftwerk zurückzuführen sind. Er zeigt lediglich, dass Häufungen zufällig sein können, auch wenn sie den Durchschnittswert um ein Vielfaches übersteigen.

Tabelle 7: Auswertungstabelle für das Leukämieszenario

Erläuterung «Statistische Vorhersage»5

Das oben beschriebene Szenario ist jedoch idealisiert. Jedes Kästchen hat genau dieselbe Chance, einen Treffer abzubekommen. In der Realität ist das anders. Die Bevölkerung in Deutschland ist ja keineswegs gleichmäßig verteilt. Auf einem Quadratkilometer Großstadt sind dadurch natürlich mehr Leukämiefälle zu erwarten als auf einem Quadratkilometer Heidelandschaft.

Um der Realität etwas näher zu kommen, haben wir in unserer Vorlesung mit Hilfe eines Zufallsverfahrens die Adressen von dreißig simulierten «Leukämiefällen» aus dem Hamburger Telefonbuch herausgesucht. Dies entspricht etwa der Anzahl von Leukämien bei Kindern, die in Hamburg innerhalb von drei Jahren auftreten. Für jeden einzelnen «Fall» legten wir zunächst durch Würfeln das jeweilige Telefonbuch (A–K oder L–Z) fest. Dann bestimmten wir mit einem zwölfseitigen und zwei zehnseitigen Würfeln die Seitenzahl, mit einem vierseitigen Würfel die Spalte und mit einem Dreißigerwürfel den Abstand der Adresse vom oberen Rand des Telefonbuches. Die auf diese Weise ermittelten «Fälle» wurden auf einem Stadtplan markiert.

Das Ergebnis einer derartigen Simulation zeigt Abbildung 6. Im Stadtteil Winterhude gab es eine deutliche Häufung der «Leukämiefälle». Dort wurden vier Erkrankungen im Umkreis von nur achthundert Metern beobachtet (Pfeil). Versuchen Sie sich vorzustellen, welche Reaktionen Sie ernten würden, wenn Sie auf einer Veranstaltung einer Bürgerinitiative von Eltern leukämiekranker Kinder behaupteten, es handle sich möglicherweise um eine zufällige Häufung. Wahrscheinlich und verständlicherweise würde man Sie als menschenverachtenden Zyniker beschimpfen.

Abbildung 5: Das Szenario von Abbildung 3, nachdem so lange gewürfelt wurde, bis alle Felder mindestens einmal getroffen waren. In diesem Beispielwaren 117 Würfe erforderlich.

Wie bereits angedeutet, entstehen die Häufungen in diesem Versuch nicht nur zufällig, sondern auch systematisch, denn die Telefonanschlüsse sind nicht gleichmäßig über das Stadtgebiet verteilt. Bei der Interpretation von Häufungen müssen daher unbedingt die Bevölkerungs- und, wenn es um speziell im Kindesalter auftretende Erkrankungen geht, die Kinderdichte in den verglichenen Gebieten berücksichtigt werden.

Bei unserem Versuch haben wir nur ein bestimmtes zeitliches Fenster von drei Jahren ausgewählt. Ein «Wissenschaftler», der gern in die Medien kommen und den Journalisten dafür eine Schlagzeile liefern möchte, kann den Zeitraum auch nachträglich festlegen. Dies entspricht der Möglichkeit, den oben geschilderten Versuch mehrfach zu wiederholen und dann das passendste Ergebnis auszusuchen. Auch können verschiedene Städte, Industriestandorte usw. betrachtet werden. Dies führt mit Sicherheit zu einer Aufsehen erregenden Meldung. Wenn nicht in Hamburg, dann in München oder Gorleben oder anderswo. Weshalb das mit Sicherheit funktioniert, erfahren Sie im Kapitel «Mit der Schrotflinte in den Porzellanladen». Wir haben den Stadtplan- und den zuvor beschriebenen 6 × 6-Versuch schon oft mit Studenten in der Vorlesung durchgeführt und sind noch nie in Verlegenheit geraten. Es gab immer «ungewöhnliche» Häufungen, und einen «Verursacher» haben wir auch jedes Mal gefunden.6

Abbildung 6: Ergebnis der Simulation eines Leukämieszenarios mit Hilfe des Hamburger Telefonbuches und Stadtplans sowie mehrerer Würfel. Die Punkte stellen die dreißig simulierten Fälle dar. Die gestrichelte Linie gibt die Grenze des verwendeten Stadtplans an. Erstellt in unserer Vorlesung im Wintersemester 1995/​96.

 

Abbildung 7: Der texanische Scharfschütze schießt auf ein Tor, malt um das Einschussloch eine Zielscheibe und freut sich über den Volltreffer.

Dieses Herauspicken von Häufungen wird von Statistikern die Methode des texanischen Scharfschützen genannt7: Ohne lange zu zielen, schießt er auf ein riesiges Scheunentor, zeichnet nachträglich eine Zielscheibe um das Einschussloch und freut sich über seinen perfekten Treffer. Ein wirklicher Meisterschütze ist natürlich nur jemand, der ein vorher angegebenes Ziel zu einem vorher festgesetzten Zeitpunkt trifft.

 

Ein Unglück kommt selten allein

Zeitliche Häufungen

Die Beispiele mit den Kaffeebohnen und den Leukämiefällen illustrieren die Problematik zufälliger räumlicher Häufungen. Im Folgenden wollen wir die Problematik zeitlicher Häufungen mit einer kleinen praktischen Übung veranschaulichen. In Abbildung 9 sehen Sie einhundert kleine Quadrate in einer Schlangenlinie. Sie stellt die zeitliche Abfolge von Ereignissen dar. Beginnen Sie links oben, und werfen Sie, während Sie der Linie folgen, bei jedem Kästchen einmal eine Münze. Das erste Kästchen steht für das erste Ereignis, das letzte Kästchen für das letzte. Bei Kopf tragen Sie ein Kreuz ein, bei Zahl einen Kreis. Schneller geht es mit einem Würfel. An die Stelle von Kopf oder Zahl treten dann gerade und ungerade Zahlen.

Die Wahrscheinlichkeit, Kopf zu werfen, beträgt 0,5 oder 50 Prozent. Die Wahrscheinlichkeit, dass zweimal hintereinander Kopf fällt, beträgt 0,5 × 0,5 = 0,25 oder 25 Prozent. Die Wahrscheinlichkeit, fünfmal hintereinander Kopf zu werfen, beträgt 0,5 × 0,5 × 0,5 × 0,5 × 0,5 = 0,55 = 0,03125 oder etwa 3 Prozent. Je länger eine Kopfserie ist, desto unwahrscheinlicher ist sie also. Dieselben Überlegungen gelten natürlich auch für «Zahl».

Nachdem alle Kästchen aufgefüllt sind, suchen Sie nach zeitlichen Häufungen. Ununterbrochene Folgen von fünf oder mehr Kreuzen beziehungsweise Kreisen sind statistisch gesehen auffällige Überhöhungen. Markieren Sie sie bitte.

Sie werden feststellen, dass sich eine oder sogar mehrere Überhöhungen ergeben haben; dass Sie keine bekommen, ist nicht ausgeschlossen, aber selten. Dies liegt daran, dass Sie insgesamt einhundertmal gewürfelt und nachträglich Häufungen gezählt haben. Unsere im vorletzten Absatz angestellte Berechnung gilt nämlich nur, wenn wir 1. vor dem ersten Münzwurf festlegen, ob wir Kopf oder Zahl sammeln wollen, und 2. auf Anhieb eine ununterbrochene Folge zustande bringen.

Diese relativ einfache Überlegung bleibt häufig unberücksichtigt. Oftmals werden klinische Studien durch das gehäufte Auftreten seltener Ereignisse überhaupt erst initiiert. Gelingt es etwa einem Ärzteteam, eine nur extrem selten zu heilende Krankheit in einem relativ kurzen Zeitraum mehrfach erfolgreich zu behandeln oder treten seltene Nebenwirkungen zeitlich gehäuft auf8, so führt dies oft zu rückwirkenden Untersuchungen mit anschließender Veröffentlichung. Der dabei retrospektiv einbezogene Zeitraum ist willkürlich und häufig, bewusst oder unbewusst, dem gewünschten Ergebnis angepasst. Die richtige Vorgehensweise wäre es, den zu erfassenden Zeitraum vorher festzulegen. Die Ergebnisse solcher retrospektiven Studien erfordern vom wissenschaftlichen Standpunkt aus eine Wiederholung.

Unsere Beispiele zeigen, dass nicht jede unwahrscheinliche Häufung von Ereignissen statistisch bedeutsam ist. Ob eine Überhöhung unwahrscheinlich ist, hängt auch von der Anzahl der durchgeführten Tests ab. So beträgt beispielsweise die Wahrscheinlichkeit, beim Lotto sechs Richtige zu tippen, 1 zu 13 983 816 und ist somit äußerst gering. Wenn das Glück aber entsprechend extrem häufig herausgefordert wird, kann man sich fast darauf verlassen, dass jede Woche jemand gewinnt. Die Wahrscheinlichkeit, dass unter 40 Millionen Tipps mindestens ein Sechser vorkommt, ist größer als 94 Prozent.9

Abbildung 8: Versuchsfeld für die Simulation zeitlicher Häufungen

Zufall oder Zustand

Fehler erster Art

Gepriesen sei der Zufall,

er ist wenigstens nicht ungerecht.

Ludwig Marcuse

 

Im letzten Kapitel haben wir erfahren, wie wichtig und wie schwierig es ist, eine zufällige Häufung von einer gesetzmäßigen zu unterscheiden. Diese Unterscheidung ist ein grundsätzliches Problem der Wissenschaft, spielt aber auch in anderen Bereichen eine wichtige Rolle, zum Beispiel bei Qualitätskontrollen in der Produktion oder bei der Beurteilung von Sportereignissen. In diesem Kapitel wollen wir Ihnen zeigen, wie in der exakten Wissenschaft versucht wird, gesetzmäßige von zufälligen Häufungen zu unterschieden.

Mehr oder weniger Alkohol am Steuer

Was heißt «statistisch signifikant»?

Betrachten wir ein ausgedachtes Beispiel: Bei einer Verkehrskontrolle überprüft die Polizei in der Nacht zum Sonntag in einer deutschen Großstadt 600 Autofahrer. 84 müssen ins Röhrchen pusten und neun von ihnen zur Blutprobe. Sie haben über 0,8 Promille. Insgesamt haben also 9/​600 = 0,015 oder 1,5 Prozent der Autofahrer zu tief ins Glas geschaut. Nach einer aufwendigen Aufklärungskampagne stehen zwei Monate später bei einer erneuten Kontrolle im selben Stadtteil unter 400 kontrollierten Autofahrern nur noch zwei, das heißt 0,5 Prozent, unter Alkoholeinfluss. Diese Verringerung um den Faktor drei (1,5/​0,5 = 3) wird als großer Erfolg gefeiert. – Nur zwei Querdenker stören den Frieden und weisen darauf hin, dass das Ergebnis mit einer beträchtlichen Wahrscheinlichkeit von immerhin 14 Prozent auch dann rein zufällig zustande gekommen wäre, wenn die Kampagne überhaupt nichts gebracht hat. Damit fällt die Annahme, die zweite Kontrolle habe zu einem besseren Ergebnis geführt als die erste, wie ein Kartenhaus in sich zusammen. Bei den Kontrollen ist ganz einfach der Zufall ins Spiel gekommen. Hätte die Großrazzia eine Stunde früher oder später begonnen, dann wären andere 400 Fahrzeuge kontrolliert worden. Und wenn zum Beispiel immer genau 1 Prozent aller Autofahrer in der Nacht zum Sonntag alkoholisiert ist, wird niemand erwarten, dass auch immer genau einer von 100 kontrollierten Fahrern zu viel getankt hat. Es können durchaus mal zwei oder mal keiner von 100 sein.

Eine heilige Kuh

Die Bedeutung der Signifikanz

Je planmäßiger ein Mensch vorgeht,

desto wirksamer vermag ihn der Zufall zu treffen.

Friedrich Dürrenmatt

 

Im Allgemeinen werden die Ergebnisse zweier Alkoholkontrollen schon aufgrund zufälliger Schwankungen unterschiedlich ausfallen. Je größer jedoch ein solcher Unterschied ist, desto unwahrscheinlicher wird es, dass er auf Zufall beruht, und desto wahrscheinlicher, dass die Ergebnisse zweier Kontrollen tatsächlich divergieren. Der so genannte Vierfeldertest erlaubt es uns, zu berechnen, wie wahrscheinlich die Ergebnisse sind, wenn gar kein wahrer Unterschied vorhanden ist. Diesen Vierfeldertest stellen wir im folgenden Abschnitt vor. In der wissenschaftlichen Literatur gilt ein Ergebnis im Allgemeinen genau dann als «signifikant», wenn die Wahrscheinlichkeit, dass die Ungleichheit rein zufällig ist ohne einen wahren Unterschied, höchstens 5 Prozent beträgt, was mit dem Ausdruck «p ≤ 0,05» angegeben wird. Dieses Fünfprozentniveau hat keinen tieferen Sinn. Es ist eine willkürlich festgelegte, aber allgemein und international akzeptierte Konvention.

In den letzten Jahrzehnten hat die «statistische Signifikanz» eine herausragende Rolle in der Wissenschaft bekommen und sich zur heiligen Kuh entwickelt. So ist das Hauptkriterium für die Annahme eines Manuskripts zur Veröffentlichung in einer Fachzeitschrift in sehr vielen Disziplinen ein «signifikantes» Ergebnis, was eine wahre Jagd nach Signifikanzen ausgelöst hat. In zahlreichen Disziplinen ist es daher praktisch unmöglich, Forschung zu betreiben, ohne sich mit statistischer Signifikanz auseinander zu setzen. Allerdings können auch Ergebnisse, die diese Bedingung erfüllen, falsch sein. Die Toleranz dafür wird aber auf 5 Prozent begrenzt, das heißt, ein fünfprozentiges Risiko für falsch positive Ergebnisse gilt als akzeptabel. Diesen möglichen Irrtum bezeichnet man als den Fehler erster Art. Er entspricht dem Irrtum eines automatischen Feuermelders, der Alarm schlägt, obwohl es nicht brennt.

Die große Bedeutung, die signifikante Ergebnisse und damit die Signifikanztests durch diese Veröffentlichungspolitik gewonnen haben, verstellt zum Teil den Blick auf andere wichtige Aspekte, zum Beispiel, ob das statistisch signifikante Ergebnis überhaupt irgendeine Frage von Relevanz beantwortet. Die forcierte Signifikanzjagd bildet darüber hinaus die Grundlage völlig neuartiger Irrtümer, von denen wir in den späteren Kapiteln noch ausführlich berichten werden.