mathpoint.ch    
 

Wahrscheinlichkeit 4.Teil: Varia

   
 
 
Wahrscheinlichkeit 1.Teil Inhalt 4. Teil
Wahrscheinlichkeit 2.Teil 21. Statistische Sündenfälle
Wahrscheinlichkeit 3.Teil 22. Vertrauensintervalle für eine Wahrscheinlichkeit
   
   
   
   
   
   
   
   
   
   
   
   
   
   
   

Erzeugen von Zufallszahlen für Simulationen: http://www.random.org/integers/

 

 

 

21. Statistische Sündenfälle

Empfehlenswerte Quellen
mathematik lehren, Sammelband: Wege in die Stochastik, Friedrich-Verlag, Best. Nr. 92919
Christel Weiss: Basiswissen medizinische Statistik, 5. Auflage, Springer Heidelberg, 2010

Das Erzwingen von Signifikanz

Man möchte zeigen, dass ein gesunder Lebensstil (der natürlich für die Studie genau zu definieren ist) das Risiko für Herz-Kreislauferkrankungen senkt. Nehmen wir für unser Beispiel an, dass man bereits weiss, dass 30% der über 50-jährigen von einer solchen Erkrankung betroffen sind. Nun möchte man zeigen, dass in der Gruppe der über 50-jährigen Personen mit dem klar definierten "gesunden Lebensstil" der Anteil Erkrankter < 30% ist. Man testet also einseitig.

Unser Forscherteam hat grosse Forschungsressourcen zur Verfügung und nimmt deshalb eine Stichprobe von 10'000 Personen mit gesundem Lebensstil.

Wir zeigen, dass man mit diesem bombastischen Aufwand (n = 10'000) fast sicher ein signifikantes Ergebnis erhält, selbst dann, wenn der Effekt eines "gesunden Lebensstils" kaum vorhanden ist: Man hat Signifikanz "erzwungen".

Einseitiger Binomialtest unter 10'000 Personen mit gesundem Lebensstil:

Testgrösse X: Anzahl erkrankte Personen der Stichprobe
H0: P("erkrankt") = 0.3, d.h. "keine Wirkung eines gesunden Lebensstils nachweisbar"
H1: P("erkrankt") < 0.3 (einseitig)
Signifikanzniveau: 5%

Wir finden als kritische Grösse k zum 5%-Niveau k = 2924.
Finden wir in der Stichprobe 2924 oder weniger Erkrankte, verwerfen wir die Nullhypothese, finden wir 2925 oder mehr Erkrankte, behalten wir die Nullhypothese ("keine Wirkung des gesunden Lebensstils") bei.

 

Nehmen wir nun einmal an, der Effekt eines gesunden Lebensstils sei nur unbedeutend, d.h. der Anteil Erkrankter unter den Personen mit gesundem Lebensstil sei nur wenig geringer als 30%, nämlich z.B. 28%. Die Nullhypothese (p = 0.3) besteht dann natürlich zu Unrecht (aber dieses "zu Unrecht" ist von sehr geringem Ausmass).

Wir zeigen, dass mit n = 10'000 Personen die Wahrscheinlichkeit, die Nullhypothese ("keine Wirkung") beizubehalten ausserordentlich klein ist.

Das bedeutet dann, dass wir H0 auf dem 5%-Signifikanzniveau fast sicher verwerfen werden.

Unsere Studie wird also fast sicher signifikant zeigen, dass ein gesunder Lebensstil das Risiko für Herz-Kreislauferkrankungen senkt, dies obwohl ein Anteil von 28% gegenüber einem Anteil von 30% keinen grossen Unterschied ausmacht.

In der Tat ist die Wahrscheinlichkeit, bei einer Stichprobengrösse von 10'000 und p("krank") = 0.28 die Zahl von 2925 oder mehr Erkrankten zu finden gleich 0.003 = 0.3%.
Mit nur 0.3% Wahrscheinlichkeit werden wir also H0 (natürlich zu Unrecht) beibehalten (man bezeichnet dies als Fehler 2. Art). Mit ca. 99.7% Wahrscheinlichkeit werden wir somit H0 zugunsten von H1 verwerfen.

Nun gehen wir bescheidener vor und begnügen uns mit einer Stichprobe von n = 50:

Kritische Zahl k bei p("krank") = 0.3:
k = 9 (bei 10 und mehr Erkrankten behalten wir H0 bei).

Die Wahrscheinlichkeit, in 50 Ziehungen und p(krank") = 0.28 die Zahl von 10 oder mehr Erkrankten zu finden, ist gleich 92.6%. Mit 92.6% Wahrscheinlichkeit werden wir diesmal H0 (fälschlicherweise) beibehalten, mit nur 7.4% verwerfen. Wir werden also kaum ein signifikantes Resultat der Studie vorzeigen können.

Fazit:

Mit einer bombastischen Stichprobengrösse kann für einen klinisch nicht relevanten Effekt Signifikanz "erzwungen" werden.
Statistische Signifikanz bedeutet noch nicht zwingend klinische Relevanz.

 
 
 
 
 

Der Publikations-Bias

Damit eine Studie in einer Fachzeitschrift veröffentlicht wird, muss sie Signifikanz besitzen. Das führt dazu, dass nur signifikante Resultate zur Veröffentlichung eingereicht werden. Das kann zu einer Verzerrung führen (Publikations-Bias).

Nehmen wir an, dass viele Forschungsteams dieselbe Hypothese erforschen. Diese Hypothese sei nicht signifikant zu stützen. Trotzdem wird bei der grossen Anzahl Forschungsteams bestimmt eines darunter sein, das als Ausreisser ein signifikantes Resultat erhält. Dieses wird dann publiziert, die übrigen, nicht-signifikanten Arbeiten verschwinden in der Schublade. So kann es sein, dass publizierte Resultate mit angeblicher Signifikanz reine Ausreisser sind, also "zufällig-signifikante Irrtümer".

Fachzeitschriften laufen so Gefahr, durch ihre Fixierung auf Signifikanz derartige zufällige Irrtümer als wissenschaftlich signifikante Erkenntnisse zu publizieren.

Dasselbe passiert, wenn ein Forscher seine statistischen Erhebungen so lange wiederholt, bis endlich ein signifikanter Ausreisser erscheint. Das ist natürlich ein grosser statistischer Sündenfall.

Zum Publikationsbias siehe z.B. hier.

 

Wir können dieses Phänomen simulieren. Ein Excel-Blatt genügt. Nehmen wir an, eine Untersuchung zeige, dass 10% der Männer einen IQ über 119 haben. Die Nullhypothese laute: Bei den Frauen ist der Anteil ebenfalls 10%.

Test: Wir testen den IQ einer Stichprobe von 100 Frauen aus der Gesamtbevölkerung:
H0: p(IQ > 119) = 0.1
H1: p(IQ > 119) < 0.1. Wir testen also einseitig, d.h. mit dem geschlechter-diskriminierenden Vorurteil, dass der IQ bei Frauen kleiner sei (solche Vorurteile verkaufen sich ja mittlerweile hervorragend als Bestseller).
Testgrösse X = Anzahl Frauen mit IQ > 119 in der Stichprobe.

Da wir nur das Phänomen des Publikationsbias zeigen wollen (und da wir von obigem Vorurteil nichts halten), modellieren wir künstlich eine weibliche Population, welche die Nullhypothese erfüllt: p = 0.1. Das tun wir so, dass wir in Excel 100 Felder mit einer Zufallszahl zwischen 1 und 10 programmieren. Zusätzlich programmieren wir einen Zähler, der ermittelt, wie oft in den 100 Fällen eine 1 aufgetreten ist (eine 1 soll IQ > 119 bedeuten). Der Zähler ermittelt also die Testgrösse X. Wir haben somit eine weibliche Population konstruiert, die ebenfalls mit p = 0.1 hochbegabt ist. Die Nullhypothese müsste also beibehalten werden.

Nun lassen wir 100 Forscherteams diese Frage erforschen. Wir werten also das Excelblatt 100-mal neu aus (Tastenkombination "Befehl =") und notieren jedes Mal die Testgrösse X.

Die kritische Grösse k auf dem 5%-Signifikanzniveau (einseitig, d.h. links max. 5% der Histogrammfläche abschneiden) liegt bei k = 4. Der Verwerfungsbereich der Nullhypothese ist also {0, 1, 2, 3, 4}. Führen wir den Versuch 100-mal aus, werden wir mit grosser Wahrscheinlichkeit mindestens einmal ein Extremresultat aus dem Verwerfungsbereich finden (Wahrscheinlichkeit 1 - 0.976100 ≈ 91%). Dieses Extremresultat wird die entsprechende Forschergruppe dazu bringen, die Nullhypothese "signifikant" zu verwerfen, also "signifikant" "zeigen", dass ein IQ-Geschlechterunterschied bestehe. (Wir wissen aber per Konstruktion, dass dies nicht stimmt.) Die übrigen Forscherteams, die keinen signifikanten Unterschied gefunden haben, werden ihre Forschungsresultate schubladisieren oder wegwerfen. Übrig für die breite Publikation bleibt der Ausreisser, der in den Medien als "wissenschaftliche Erkenntnis" verbreitet wird.

 
 
 
 
  22. Vertrauensintervalle für eine Wahrscheinlichkeit      
 

Wir würfeln mit einem elektronischen Glücksrad, das mit der unbekannten Wahrscheinlichkeit p einen Treffer und mit der (natürlich ebenfalls unbekannten) Wahrscheinlichkeit 1 - p eine Niete anzeigt.

Ein solches "Glücksrad" kann z.B. in Excel programmiert werden; dann kennen wir - als die Programmierenden - (im Gegensatz zu den Spielenden) den Wert von p.
Nehmen wir einmal an, wir programmierten eine Trefferwahrscheinlichkeit von 1/10.
Nehmen wir ferner an, dass jeweils 50-mal elektronisch "gewürfelt" wird.
Wir haben also eine Bernoullikette mit n = 50 und p = 0.1. Dieser Wert von p ist den Spielenden jedoch nicht bekannt.
In 50 Spielen werden im Mittel 5 Treffer erscheinen.

Hier die zufällligen Ergebnisse der Anzahl Treffer von 30 Fünfzigerserien, erzeugt mit Pseudozufallszahlen (Zufallsgrösse X ist also die Anzahl Treffer in 50 "Würfen"):

6, 3, 5, 3, 2, 4, 4, 6, 3, 4, 6, 3, 8, 5, 4, 10, 3, 5, 1, 5, 6, 4, 4, 5, 5, 2, 5, 4, 7, 3.

Selbstverständlich können auch grosse Abweichungen vom Mittelwert 5 auftreten. Die Wahrscheinlichkeit für 10 Treffer beträgt z.B.

vtri1

Theoretisch kann die Zufallsgrösse X jeden Wert zwischen 0 und 50 annehmen. Die meisten Werte werden jedoch um den Mittelwert 5 herum streuen.

Die spielenden Personen, die den wahren Wert von p nicht kennen, erhalten als Ergebnis von 50 Würfen die Zufallsgrösse X = Anzahl Treffer. Daraus erschliessen sie dann die unbekannte Wahrscheinlichkeit p.
Pech haben sie, wenn ein Extremresultat wie z.B. X = 10 entsteht; sie erschliessen dann ein p von 20%. Für X = 1 erhalten sie ein p von 2%.
Sie möchten deshalb nicht einfach eine Punktschätzung durchführen, sondern ein Intervall angeben, welches das wahre, unbekannte p mit einer grossen Wahrscheinlichkeit (von z.B. 95%) überdeckt.
Zu jedem Resultat X soll also ein Vertrauensintervall mitgeliefert werden, welches das unbekannte p mit einer Wahrscheinlichkeit von 95% überdeckt.

Nehmen wir an, die spielenden Personen fänden in 50 Würfen eine Trefferzahl von 6.
Wie baut sich das zu X = 6 zugehörige Vertrauensintervall für p auf?

Die Wahrscheinlichkeit, dass X ≤ 6 ist, beträgt

vtri2

 

Für das "wahre" p=0.1, das nur wir kennen, beträgt diese Wahrscheinlichkeit 0.770 = 77.0 %.
Es ist also recht wahrscheinlich, dass bei p=0.1 die Zufallsgrösse X einen Wert von 6 oder darunter annimmt.

Wäre p jedoch höher, so wäre die Wahrscheinlichkeit P(X≤6) geringer:
Im Fall p=0.25 betrüge sie 0.019 oder 1.9%.
Im Fall p=0.25 ist es also recht unwahrscheinlich, dass die Zufallsgrösse den Wert 6 oder weniger annimmt.

Wir suchen nun dasjenige p, für welches P(X≤6) den Wert 0.025 = 2.5% annimmt; dies soll unsere Grenze zwischen "wahrscheinlich" und "unwahrscheinlich" sein.
Wir haben demnach folgende Gleichung nach p aufzulösen:

vtri3

Ein Rechner liefert uns p = 0.243 = 24.3%. Ist p grösser als dieser Wert, so ist das Ereignis "X≤6" unwahrscheinlich (Wahrscheinlichkeit <2.5%). p = 0.243 ist unsere obere Vertrauensgrenze für p und wir schreiben deshalb p0  = 0.243.

Analog berechnen wir die untere Vertrauensgrenze pu : Wir lösen folgende Gleichung nach p auf:

vtri4

Es ergibt sich pu = 0.045 = 4.5%. Ist p kleiner als dieser Wert, ist es unwahrscheinlich (Wahrscheinlichkeit <2.5%), dass X≥6.

Die Spielenden, welche das wahre p nicht kennen, finden also folgendes Vertrauensintervall für p: [0.045, 0.243] = [4.5%, 24.3%]. Mit einer Wahrscheinlichkeit von 95% überdeckt dieses Intervall das wahre p.

Nun wird für jedes mögliche X zwischen 0 und 50 das zugehörige 95%Vertrauensintervall berechnet.

Das Vertrauensintervall [4.5%, 24.3%] zu X=6 ist recht breit. Ist uns diese Intervallschätzung zu ungenau, müssen wir die Anzahl n der Würfe erhöhen.

 
 
 
 
 

Konfidenzintervalle für das unbekannte p   (X ∈ {0, ... , 50}):

konfidenzellipse

 

Abb. links: Konfidenzgrenzen für die Wahrscheinlichkeit p bei 50-maligem Würfeln (X = Anzahl Treffer in 50 Versuchen). Die horizontalen Strecken geben das 95% -Vertrauensintervall für p an, wenn in 50 Versuchen x Treffer erschienen sind. Eingezeichnet sind nur die Intervalle bis X = 25.

 

In unserem Beispiel mit p = 0.1 fangen die Intervalle für X ∈ {1, ... ,9} Treffer die wahre Wahrscheinlichkeit p = 0.1 ein .
{1, ... , 9} ist auch der 95%-Annahmebereich der Hypothese p = 0.1.
In unseren 30 Versuchsserien oben lag nur der Wert X=10 so, dass p = 0.1 nicht innerhalb des Vertrauensintervalls lag (p = 0.1 liegt dort gerade auf dem Rand des Intervalls).
29 von 30 Intervallen fingen also den wahren Wert von p ein, das sind 96.6%, was ziemlich genau dem theoretischen Wert von 95% entspricht.

Wer also in einer 50er-Würfelserie 10 Treffer erzielte, hatte "Pech", denn in diesem Fall wird die unbekannte Wahrscheinlichkeit p zu hoch geschätzt werden. Die Wahrscheinlichkeit für eine solche Fehlschätzung (Nicht-Einfangen des wahren Wertes von p durch das Vertrauensintervall) liegt bei 5%.

 

Ein weiterer Zugang zu Vertrauensintervallen findet sich hier.