13. Ist die Münze gerecht? - Signifikanztests
Wir möchten testen, ob eine Münze "gerecht" sei, d.h. ob beim Münzwurf mit gleicher Wahrscheinlichkeit p = 0.5 "Kopf" oder "Zahl" erscheint. Wir werfen die Münze z.B. 50-mal. Sei die Zufallsvariable X die "Anzahl Köpfe" in diesen 50 Würfen. X kann somit die Werte 0 bis 50 annehmen. Wir sagen, X sei unsere Testgrösse. Wann wollen wir die Münze als "gerecht" ansehen? Sicher wird auch eine gerechte Münze in 50 Würfen nicht einfach exakt 25-mal Kopf zeigen. Bei jeder Wiederholung dieses Experiments werden auch bei einer gerechten Münze Abweichungen vom Erwartungswert 25 auftreten. Welche Abweichungen wollen wir aber noch tolerieren? Im Extremfall sind auch bei einer gerechten Münze hohe Abweichungen vom Wert 25 möglich, allerdings haben solche Extremfälle eine kleine Auftretens-Wahrscheinlichkeit. Wir entscheiden uns z.B., folgende Werte für X nicht mehr zu akzeptieren: Wir haben nun folgende Situation:
Beim Testen von Hypothesen geht man stets davon aus, dass man die Nullhypothese widerlegen will. Die Nullhypothese wird mathematisch mittels eines Gleichheitszeichens formuliert: P("Kopf") = 0.5, während die Alternativhypothese offener ist: P("Kopf") ≠ 0.5.
Es können beim Testen zwei Arten von Fehlern auftreten:
|
Wir sind zunächst einmal bestrebt, die Wahrscheinlichkeit α für einen Fehler 1. Art möglichst klein zu halten. Dazu darf der Verwerfungsbereich nicht zu grosszügig bemessen sein, sonst verwerfen wir H0 zu unkritisch. In Bezug auf unsere Farben im Histogramm links bedeutet das: Sei sparsam mit der roten Farbe! Wir wissen: P("k-mal Kopf") = (50 tief k)* 0.5k * 0.550-k = (50 tief k)*0.550 . Mit dem gewählten Verwerfungsbereich V = {0, 1, ..., 17, 33, 34, ..., 50} ist somit die Wahrscheinlichkeit eines Fehlers 1. Art 3.28%, d.h. mit der Wahrscheinlichkeit 3.28% taxieren wir eine gerechte Münze fälschlicherweise als ungerecht, d.h. verwerfen H0 fälschlicherweise. Unser Verwerfungsbereich hat von beiden Extrem-Enden des Spektrums her seine Elemente rekrutiert: von 0-mal Kopf bis 17-mal Kopf und von 50-mal Kopf retour bis 33-mal Kopf (unser Histogramm wurde von beiden Seiten her rot maniküriert). Deshalb nennt man einen solchen Test zweiseitig. Falls also in unserem 50-Würfe-Versuch die Anzahl Köpfe in den Verwerfungsbereich fällt, sagen wir, dass wir die Hypothese H0 ("Münze gerecht") auf dem Signifikanzniveau 3.28% verwerfen. Falls die Testgrösse "Anzahl Kopf" nicht in den Verwerfungsbereich fällt (sondern in den Annahmebereich {18, ... , 32}), behalten wir vorläufig die Hypothese H0 bei. Das muss nicht bedeuten, dass H0 tatsächlich richtig ist, sondern heisst nur, dass wir mit unserem Test H0 nicht widerlegen konnten. Üblich sind Signifikanzniveaus von 5%, 2.5% oder -in medizinisch wichtigen Fällen- 1%. Niveaus über 5% gelten nicht mehr als signifikant. So würden wir beispielsweise mit einem Verwerfungsbereich von 0 bis 18 und von 32 bis 50 ein α von bereits 6.49% erhalten. Dieser Verwerfungsbereich würde somit kein signifikantes Ergebnis mehr liefern, er wäre zu gross gewählt. Einseitiger Test
Wir finden: Mit einer Wahrscheinlichkeit α von 3.24% lehnen wir H0 irrtümlich ab, d.h. bezichtigen wir Herrn Schlau irrtümlicherweise der Fälschung. D.h. eine wirklich gerechte Münze würde lediglich mit einer Wahrscheinlichkeit von 3.24% ein Extremresultat aus V = {32, ..., 50} ergeben; wahrscheinlicher ist da eher eine Fälschung. Nun haben wir V einseitig gewählt, d.h. einen einseitigen Test durchgeführt. Dies konnten wir aber nur deshalb tun, weil wir ein Vorwissen besassen (wir kannten Herrn Schlau und seinen Hang zum Schummeln) und aufgrund dieses Vorwissens vermuteten, dass die Münze einseitig gefälscht sei (in Richtung "mehr Kopf als normal"). Wenn solches Vorwissen nicht vorliegt oder zweifelhaft ist, teste man -im Zweifelsfalle- zweiseitig.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ablesen der Verwerfungsgrenzen bei der Normalverteilung
Links: Normalverteilung anstelle der Binomialverteilung für den Münzwurftest. Oben: In den gängigen Tabellen wird zur vorgewählten Fläche Φ(z) der Standardnormalverteilung der zugehörige z-Wert aufgeführt. Soll z.B. die Restfläche rechts (weiss) 2.5% betragen, so beträgt Φ(z) 97.5% oder 0.9750. In der Tabelle liest man den zugehörigen z-Wert als z = 1.96 ab. |
Die Zufallsvariable X wird mittels folgender Z-Transformation (s. auch Wahrscheinlichkeit02) flächentreu auf Standardnormalform gebracht. Diese Form ist in Formelsammlungen tabelliert. Zur grünen Fläche (s. Bild links) kann der zugehörige z-Wert abgelesen werden (und umgekehrt). Hat man den z-Wert ermittelt, wird x durch Rücktransformation zurückgewonnen.
Einige häufig gebrauchte Werte:
Vergleich exakte Binomialverteilung / Näherung durch Normalverteilung mit Annahmebereich [18;32]: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Stetigkeitskorrektur beim Ersetzen der Binomialverteilung durch die Normalverteilung:
Bild rechts: Mehrmaliger Münzwurf. Das Histogramm, welches die "Anzahl Köpfe" in n Würfen zeigt, wird standardnormal-transformiert. Grau: Ablehnungsbereich. Der kritische z*-Wert wird bei der Gaussglocke um eine halbe Säulenbreite des standardnormierten Histogramms verschoben (siehe Bild unten). Damit wird die rote Fläche im Histogramm oben besser berücksichtigt. |
![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Weiterere Signifikanztests 1. Ein Apparat zeigt positive (+) und negative (-) Abweichungen vom Sollwert. Uns interessiert nur die Richtung der Abweichungen, nicht aber deren Betrag. Die einzelnen Abweichungen seien unabhängig voneinander. Man will testen, ob die Wahrscheinlichkeiten für positive und negative Abweichungen voneinander verschieden sind. Wie könnte ein Test-Design auf 5%-Signifikanzniveau aussehen?
|
Lösungsmöglichkeit: H0: P(+) = 0.5
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
2. Das Statistische Jahrbuch der Schweiz 1972 zeigte für die Zeit zwischen 1969 und 1976 n = 91'342 Geburten, davon x = 47'179 Knabengeburten. Sei X die Anzahl Knabengeburten. Nullhypthese: P(Knabengeburt) = 0.5, Alternativhypothese: P(Knabengeburt) > 0.5, also einseitiges Testdesign (aufgrund von Vorwissen). Signifikanzniveau: 5%. Man designe den Test (Normalverteilung). |
Lösung: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
3. Wir finden aufgrund statistischer Zahlen einen Schätzwert für P("Knabengeburt"), nämlich 0.514. Ist P("Knabengeburt") von diesem Schätzwert verschieden? Man teste zweiseitig mit Hilfe der Zahlen der Aufgabe 2. |
Lösung: H0: p = 0.514 |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Problematik bei Signifikanztests - "Erschleichen" von Signifikanz | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Bei genügend hoher Stichprobengrösse ist praktisch jede Nullhypothese chancenlos. Ein klinisch oder gesellschaftlich völlig irrelevanter Unterschied kann bei stark aufgeblähter Stichprobengrösse statistisch als hochsignifikant erscheinen. Ein Beispiel: Nehmen wir an, die Forschung zeige, dass bei über 50-jährigen Personen eines bestimmten Gebietes mit 30%-iger Wahrscheinlichkeit Blutdruckprobleme vorhanden sind. Nun definiert ein Forschungsteam gewisse Elemente E gesunden Lebensstils und möchte zeigen: Bei den Personen mit E treten Blutdruckprobleme weniger stark auf. Aufgrund des Vorwissens wird einseitig getestet, da E nach aktuellem Wissensstand Blutdruckprobleme sicher nicht verstärkt. Nehmen wir für unser Modellbeispiel nun aber an, dass der tatsächliche Effekt der Elemente E klinisch und praktisch nur sehr gering sei, dass z.B. immer noch 28% der über 50-jährigen mit gesundem Lebensstil E Blutdruckprobleme aufweisen. Mit einer bombastisch hohen Stichprobengrösse kann das Forschungsteam trotzdem die Nullhypothese "E hat keinen signifikanten Einfluss auf die Blutdruckprobleme" widerlegen. Die Rechnung geht so: |
a) Sei n = 10'000 eine bombastische Stichprobengrösse von Personen mit Lebensstil E. b) Wird im Gegensatz zu oben die Stichprobengrösse viel kleiner, z.B. n = 50, gewählt, so liegt bei einem Signifikanzniveau von 5% die kritische Grösse bei 9. Man wird jedoch unter den 50 Personen mit Lebensstil E mit grosser Wahrscheinlichkeit (92.6%) mehr als 9 Personen mit Blutdruckproblemen finden und somit die Nullhypothese beibehalten: "kein signifikanter Einfluss von E auf Blutdruckprobleme". Bortz / Schuster, Statistik, 7. Auflage, Springer 2010, p.112, schreiben: "Statistisch signifikant" muss nicht unbedingt auch "klinisch relevant" bedeuten! |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Teststärke / Berechnen einer adäquaten Stichprobengrösse | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Im Beispiel oben erkannte Test a) mit n = 10'000 auch einen kleinen Effektunterschied als signifikant, während Test b) mit n = 50 diese eher bescheidene Differenz als nicht signifikant einstufte. Die Teststärke bei b) war geringer als bei a). Wir finden eine Stichprobengrösse von n = 859.3 (oder ca. 860) als adäquaten Wert (Rechnung rechts), d.h. wir untersuchen eine Stichprobe von 860 Personen mit gesundem Lebensstil E und eruieren die Anzahl x der Personen, die trotz Lebensstil E Blutdruckprobleme haben. |
Rechnung: Verteilung mit p = 0.25: Mittelwert = 0.25n. Varianz = 0.25⋅0.75⋅n, Standardabweichung = 0.433⋅√n. Gleichung: k = 0.3n - 1.645⋅0.458√n = 0.25n + 1.645⋅0.433⋅√n. Lösung: n = 859.3 oder ca. 860. Die konkreten Werte mit n = 860: Verteilung mit p = 0.25: Mittelwert = 215, Standardabweichung = 12.70 Rot: Nullhypothese; roter 5%-Bereich = α
= Wahrscheinlichkeit eines Fehlers 1. Art, d.h. Ablehnung der Nullhypothese, obwohl diese zutrifft. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Aufgabe: Berechnung der adäquaten Stichprobengrösse bei einer gewünschten Teststärke von 90% und gegebenem Alternativ-Szenario: Welche Stichprobengrösse ist adäquat, wenn auf dem 5%-Signifikanzniveau bei obigem Beispiel eine Teststärke von 90% für das Alternativszenario p = 0.25 erreicht werden soll? |
Lösung: Wie oben gilt für die Nullhypothesen-Verteilung: k = 0.3n - 1.645⋅0.458√n. (5%-Signifikanz-Niveau.) Alternativ-Verteilung p = 0.25: s = 0.433⋅√n. k = 0.25n + 1.282⋅0.433⋅√n. (Schneidet rechts 10% Fläche ab. Die Zahl 1.282 kann in einer Tabelle oder auf Taschenrechnern mit Statistikfunktionen [Invers Normalverteilung] abgelesen werden.) Gleichung: 0.3n - 1.645⋅0.458√n = 0.25n + 1.282⋅0.433⋅√n => 0.05n = 1.309⋅√n => 0.05⋅√n = 1.309 => √n = 26.170 => n = 685. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Geogebra-Modell zur Teststärke
|
Erläuterung zum Geogebra-Modell: Wir sehen z.B., dass bei p = 22.8% die Teststärke 95% (bzw. die Wahrscheinlichkeit eines Fehlers 2.Art 5%) beträgt. Möchten wir den Test sensitiver machen, müssen wir wie im Beispiel oben die Stichprobengrösse n erhöhen.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Anleitung zum Erzeugen obiger Grafik mit Geogebra: Regler p erzeugen (min 0.18, max 0.3, Schrittweite 0.0002). f(x) = Normal[400p, (400p(1-p))^0.5,x]; erzeugt die Normalverteilung des Alternativ-Szenarios mit Wahrscheinlichkeit p. Integral[f,-1000,105]; ergibt die Zahl a. (Eigentlich müsste von -∞ bis 105 integriert werden; -1000 als untere Integrationsgrenze genügt jedoch.) a ist der zu p gehörende gesuchte Funktionswert. A(p,a); ergibt einen Punkt A des gesuchten Graphen. Für diesen Punkt "Spur ein" wählen. Regler p laufen lassen. A wandert und erzeugt als Spur den Graphen der gesuchten Funktion. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
14. Lage- und Streuparameter von Zufallsvariablen | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Das Analogon zum Mittelwert einer Stichprobe ist der Erwartungswert einer Zufallsvariablen. Die Parameter der Stichprobe werden gewöhnlich mit lateinischen, diejenigen der Grundgesamtheit mit griechischen Buchstaben bezeichnet.
|
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Würfelsimulation einer Verteilung mit vorgegebenem Mittelwert μ und vorgegebener Standardabweichung σ Aufgabe: Lösung: Wir bilden nun aus X die Grösse Z: Z = (X - 21) ⋅(σ / 4.183) + μ Lässt man nun sehr viele Personen (n Personen) je diese Grösse Z erwürfeln (zuerst Summe der 6 gewürfelten Zahlen bilden -> X und daraus Z berechnen) , so ist die Verteilung von Z annähernd μ - σ -verteilt (mit 6 Würfeln entsteht jedoch keine perfekte Normalverteilung). |
Auf diese Weise lassen sich im Statistikunterricht Rollenspiele durchführen. So kann man sich etwa einen "Intelligenzquotienten" erwürfeln (μ = 100, σ = 15) und die Verteilung studieren. Hier 4 Beispiele aus solchen Zufallswürfen: Abb. oben: Simulation einer 100-15-Verteilung durch Werfen von 6 Würfeln und Addition der Augenzahlen -> X. Die Grösse Z entsteht wie folgt: Ein hervorragendes Buch mit solchen Simulationsideen ist: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Gelman /Nolan schlagen in ihrem Buch folgende weiterführende Aktivität vor: Hat man in einer Gruppe Studierender das IQ-Rollenspiel (s.oben) durchgeführt, kann man eine grobe Klasseneinteilung durchführen: Wer hat "IQ" < 90, wer liegt zwischen 90 und 110, wer über 110? Nun erfinden wir ein rein äusserliches Merkmal, jedoch so, dass dieses Merkmal die hohen IQs von den tiefen recht auffällig trennt (ein solches Merkmal, z.B. Sitzordnung, Brillenträger, usw.) lässt sich mit etwas Fantasie fast immer nachträglich finden, wenn man "kreativ genug" sucht. |
Haben nun Personen mit diesem Merkmal tatächlich einen höheren IQ? - Natürlich nicht, denn wir haben in unserem Rollenspiel die "IQs" ja erwürfelt. - Wir sehen also: Sortieren der Daten nach einem nachträglich gesuchten Merkmal darf auf keinen Fall praktiziert werden, das ist ohne jeden wissenschaftlichen Wert. Eine Hypothese muss vorher aufgestellt und das Experiment daraufhin geplant werden. Beim Interpretieren bestehender Daten ist also äusserste Vorsicht geboten. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Aufgabe Man würfelt mit zwei gewöhnlichen Spielwürfeln und bildet die Augensumme. |
Lösung: a) b) |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
rechts: Verteilung der Zufallsvariable "Augensumme aus 3 Würfeln": |
![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hier die Wahrscheinlichkeitsverteilungen für die Augensummen von mehreren Würfeln. Quelle: https://www.rechner.club/wahrscheinlichkeit/wuerfelsumme-tabelle Man erkennt, wie sich die Diagrammform langsam einer Normalverteilungsglocke annähert. Ab etwa 25 Würfeln pro Wurf, von denen man die Augensumme bildet kann man von einer guten Normalverteilungs-Näherung sprechen. |
![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Anwendung der Rechenregeln für Erwartungswert und Varianz: Zwei verschiedene Anlagen produzieren dasselbe Objekt. Man vermutet, dass die Prozentsätze an Ausschuss auf den Anlagen verschieden sind und will dies testen. Wir testen zweiseitig auf 5%-Niveau.
|
Lösung: p1 und p2 sind unbekannt. Die Stichproben sind unabhängig entnommen und gross genug. Es seien X = k1 / n1 und Y = k2 / n2 die betrachteten Zufallsvariablen, die von der Stichprobe abhängen. Wir betrachten die Zufallsvariable X - Y. Sie ist bei genügend grosser Stichprobe normalverteilt. Die Nullhypothese lautet: p1 = p2. Es ist Var(X) = Var((1/n1)k1)= (1/n12) n1 p1 (1 - p1) = p1 (1 - p1) / n1 und analog Folglich ist Var(X - Y) = Var(X) + Var(Y) (wegen der Unabhängigkeit) = Nun können wir mit E(X - Y) = 0 und Var(X - Y) = 0.0007125 die Z-Transformation vornehmen und erhalten |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
15. Das Gesetz der grossen Zahlen | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wenn wir einer Grundgesamtheit mit Erwartungswert μ und Varianz σ2 eine Stichprobe der Grösse n entnehmen, so kommt diese durch Zufallsauswahl zustande. Diese Stichprobe besitzt einen bestimmten Mittelwert. - Eine andere Stichprobe der Grösse n wird einen leicht andern Mittelwert aufweisen. Jede Stichprobe wird diesbezüglich etwas variieren. Die Mittelwerte einer Stichprobe sind also abhängig von der Zufallsauswahl der Stichprobe, sind somit Zufallsvariable. Als solche haben sie selber einen Erwartungswert und eine Varianz. Es dürfte plausibel sein, dass der Erwartungswert der verschiedenen Stichprobenmittelwerte gleich μ ist. Mit der Varianz ist es nicht so einfach. Plausibel ist, dass die Mittelwerte vieler verschiedener Stichproben der Grösse n weniger streuen als die ursprünglichen Daten selber; die Mittelwerte gleichen ja Extremschwankungen bereits aus. Ohne Beweis geben wir an: Die Varianz der verschiedenen Stichproben-Mittelwerte ist gleich σ2 / n. |
Zusammengefasst haben wir folgende Formeln: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Das Gesetz der grossen Zahlen besagt nun:
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Ein Gesetz der grossen Zahlen von Jakob Bernoulli (1654 - 1705)
Ein Bernoulli-Versuch (Versuch mit zwei möglichen Ausgängen: "Treffer" oder "Niete", mit P("Treffer") = p und P("Niete") = (1 - p) = q) wird n-mal wiederholt (Bernoulli-Kette). Sei X die Zufallsvariable "Anzahl Treffer in n Versuchen". X / n ist dann die relative Häufigkeit der Treffer in n Versuchen.
Der Satz von Bernoulli sagt: X / n unterscheidet sich bei genügend grossem n "fast sicher" um "sehr wenig" vom theoretischen Wahrscheinlichkeitswert p. D.h. X / n kann fast sicher als gute Näherung für p angesehen werden, wenn n genügend gross ist.
Konkret:
|
Beispiel: In einer Produktion beträgt der Anteil einwandfreier Produkte 90%. Man entnimmt eine Stichprobe von 1'000 Stück. Man darf in dieser Probe also etwa 900 einwandfreie Stücke erwarten, vielleicht etwas mehr, vielleicht etwas weniger. Mit welcher Wahrscheinlichkeit findet man in dieser Stichprobe zwischen 875 und 925 einwandfreie Stücke, also eine Abweichung vom Sollwert 900 um maximal 25 Stück oder 2.5%? Lösung: Es ist ε = 0.025. Der Satz von Bernoulli liefert: P( |X/1000 - 0.9| < 0.025) ≥ 1 - (0.9*0.1)/(0.0252 *1000) = 0.856 = 85.6%. Mit einer Wahrscheinlichkeit von 85.6% liegt die Zahl der einwandfreien Stücke in der Stichprobe im Vertrauensintervall [875; 925]. Zusatzfrage: Wie gross muss die Stichprobe gewählt werden, damit die Wahrscheinlichkeit für Werte in obigem Vertrauensintervall 95% beträgt? Antwort: n = 2880 Stück. Man erkennt: Je grösser n gewählt wird, desto mehr nähert sich die berechnete Wahrscheinlichkeit dem Wert 1. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Anmerkung: Wenn p und q unbekannt sind, kann eine grobe Schätzung so stattfinden: p⋅q ist maximal 1/4, nämlich für p = q = 1/2. In allen andern Fällen ist p⋅q < 1/4. Wir können also anstelle von p⋅q den Wert 1/4 einsetzen und erhalten damit eine -relativ grosszügige- Schätzung. Beispiel: |
Lösung: Es folgt 0.25/(0.0025*n) = 0.05 und somit n = 2'000. Das bedeutet: Das Vertrauensintervall [X/n - 0.05 ; X/n + 0.05] überdeckt mit einer Wahrscheinlichkeit von 95% das gesuchte p("Ja"), wenn wir X/n mittels einer Stichprobe der Grösse 2'000 ermitteln. Sprechen sich z.B. 1200 Personen in der Stichumfrage für ein "Ja" aus, wird X/n = 1200/2000 = 0.6. Das Intervall [0.55; 0.65] oder [55%; 65%] überdeckt mit 95%-iger Wahrscheinlichkeit den Wahrscheinlichkeitswert p für ein Ja. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
16. Der zentrale Grenzwertsatz | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wir formulieren hier nur die schwache Form des zentralen Grenzwertsatzes für unabhängige und identisch verteilte Zufallsvariable, d.h. für Zufallsvariable Xi , die alle den gleichen Erwartungswert μ und die gleiche Varianz σ2 haben und die unabhängig voneinander sind . Der zentrale Grenzwertsatz besagt nun, dass die Summe solcher Xi asymptotisch normalverteilt ist mit Erwartungswert n⋅μ und Varianz n⋅ σ2 .
Dies gilt auch dann, wenn die Grundgesamtheit nicht normalverteilt ist. n sollte ≥ 25 sein. |
Beispiel 1: Stichprobenmittelwerte sind für hinreichend grosse Stichprobenumfänge n normalverteilt Das Körpergewicht einer bestimmten Personenkategorie habe einen Erwartungswert von 72 kg bei einer Standardabweichung σ von 8 kg.
Beispiel 2: Binomialverteilte Zufallsvariable X als Summe von identisch verteilten Zufallsvariablen Xi Wir würfeln 100-mal mit einem gewöhnlichen Spielwürfel. Wir definieren die Zufallsvariable Xi , die sogenannte "Zählvariable": Für die Darstellung einer Binomialverteilung durch eine Normalverteilung sollte die Bedingung n⋅p⋅q ≥ 9 erfüllt sein. In unserem Fall trifft dies zu (n⋅p⋅q = 13.9). Mit nur 50-mal Würfeln wäre diese Bedingung noch nicht erfüllt. Wir wählen wieder z* = ±1.96. Die Rücktransformation X = μ + σZ ergibt für den 95%-Vertrauensbereich (16.667 ± 1.96⋅3.727), d.h. das Intervall [9.36;23.97]. Mit mehr als 95%-iger Wahrscheinlichkeit (exakt: 96.9%-iger Wahrscheinlichkeit) würfelt man somit in 100 Würfen zwischen 9 und 24 Sechsen. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
17. Vertrauensintervalle (Konfidenzintervalle) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Schätzung des Erwartungswerts μ der Grundgesamtheit aus dem Mittelwert Wir können das Beispiel 1 von Kapitel 16 mit den Körpergewichten auch so auffassen: Wir suchen nun ein sogenanntes Vertrauensintervall, das mit 95%-iger Wahrscheinlichkeit den richtigen Erwartungswert μ der Grundgesamtheit überdeckt. Wir wissen, dass die Stichproben-Mittelwerte normalverteilt sind. Das zugehörige z* für die 95%-Vertrauensgrenze (links und rechts je 2.5% abschneiden) ist z* = ±1.96. |
Wir multiplizieren die Ungleichung der Spalte links unten mit σ/√n und erhalten:
Falls wir ein 99%-Konfidenzintervall möchten, wählen wir z* = ±2.58. Dieses Intervall wird dann natürlich breiter, da wir ja mehr Sicherheit im Überdecken von μ wollen. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Vorschau auf t-Tests und die t-Test-Verteilung Die Annahme im eben behandelten Beispiel, dass die Standardabweichung der Grundgesamtheit bekannt sei, ist in der Praxis meist nicht berechtigt. Fast nie kennt man diesen Wert. Es liegt nun nahe, anstelle des unbekannten σ die aus der Stichprobe berechnete empirische Standardabweichung s in die Formel für die Berechnung des Vertrauensintervalls einzusetzen. Die t-Verteilung ähnelt der Standardnormalverteilung, ist wie diese symmetrisch und eingipflig (glockenförmig) mit Erwartungswert 0. Die t-Verteilung ist aber schmalgipfliger als die Standardnormalverteilung, geht jedoch mit wachsender Zahl der Freiheitsgrade, d.h. mit wachsendem n, in die Standardnormalverteilung über. |
Vertrauensintervall mittels t-Verteilung: Die Zufallsvariable X muss normalverteilt sein. Dann kann das Vertrauensintervall bei unbekanntem σ wie folgt mittels der empirischen Standardabweichung der Stichprobe geschätzt werden (t* stellt die in einer Tabelle nachzuschlagende Konfidenzgrenze dar):
Dabei werden anstelle der z-Werte einer Normalverteilung die (in Tabellen nachschlagbaren) t-Werte einer t-Verteilung benützt. Es ist hier zu beachten, dass je nach Grösse n der Stichprobe die t-Verteilung ändert. Hat die Stichprobe Umfang n, so sagt man, die t-Verteilung habe f = n - 1 "Freiheitsgrade". Für jedes f gibt es eine spezielle t-Verteilung. In unserem Beispiel oben müsste anstelle von z* = ±1.96 der t-Wert aus der Verteilung mit f = 29 Freiheitsgraden, nämlich t* = ±2.045 (für ein 95%-Vertrauensintervall - links und rechts werden je 2.5% Fläche abgeschnitten) gewählt werden, wenn anstelle des unbekannten σ die Standardabweichung s der Stichprobe verwendet wird. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Schätzung einer Wahrscheinlichkeit p aus der relativen Häufigkeit eines Ereignisses bei n Zufallsexperimenten bzw. einer Stichprobe des Umfangs n (Vertrauensintervall für p) Sei h : = X / n die relative Häufigkeit eines Ereignisses bei n Zufallsexperimenten. Für andere Prozentwerte des Vertrauensintervalls ersetze man z* = 1.96 durch die entsprechende, in einer Tabelle nachzuschlagende Zahl. |
Bemerkung: Der Summand 1/(2n) vergrössert das Vertrauensintervall ein wenig, um Schätzfehler bei kleinen Stichprobenumfängen n auszugleichen.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
18. t-Tests | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
t-Tests setzen normalverteilte Grundgesamtheiten voraus. Sie eignen sich gut zum Vergleich von Mittelwerten. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
18.1. t-Test für eine Stichprobe | Beispiel: | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
An die Stelle der Prüfgrösse
|
Aus langjähriger Erfahrung geht man beim Geburtsgewicht in einer Frauenklinik vom Erwartungswert μ0 = 3500 g aus. Nun will man untersuchen, ob Kinder einer bestimmten Gruppe von Müttern (die z.B. gewissen Risikofaktoren ausgesetzt waren) ein anderes Geburtsgewicht haben. H0 : Erwartungswert μ der Risikogruppe = Erwartungswert μ0 Man misst die Geburtsgewichte einer Stichprobe mit n = 25 aus der Risikogruppe und findet z.B. folgende Werte:
Unter Annahme von H0 ergibt sich t = (3300 - 3500) / (400 / √25) = -200/80 = -2.500. 95%-Vertrauensintervall für μ: |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Rot: Dichtefunktion der t-Verteilung für f = 5 ; schwarz zum Vergleich: Dichtefunktion der Normalverteilung. Wollen wir rechts 2.5% abschneiden, ergibt sich aus der Zeile mit f = 5 und der Spalte 0.975 (= 97.5%) der Wert t* = 2.57058. Vom Bild her mag man denken, dass die beiden Graphen sich nicht gross unterscheiden. Trotzdem sind die t-Werte von den z-Werten für kleinere n recht verschieden. Man bedenke, dass die rote Kurve ganz rechts bis ins Unendliche oberhalb der schwarzen Kurve verläuft. Will man von rechts her 2.5% Fläche unterhalb der roten Kurve abschneiden, muss der Schnitt deutlich weiter rechts erfolgen als bei der schwarzen Kurve. Für n → ∞ geht die t-Verteilung in die Standardnormalverteilung über.
Anleitung: f = Anzahl Freiheitsgrade
Beispiel: |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
18.3. t-Test für zwei unverbundene Stichproben | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Der Test dient dem Vergleich der Mittelwerte zweier unabhängiger Stichproben. Man vergleicht etwa zwei Therapieformen miteinander (Gruppe 1: Therapie 1; Gruppe 2: Therapie 2). Gruppe 1: Grösse n1, Mittelwert Getestet wird die Differenz der empirischen Mittelwerte. Herleitung der Prüfgrösse:
|
Beispiel 1: Wir finden z.B. folgende Daten: t = 6.5 / (7.27 ⋅ √0.3118) ≈ 2.86639 = Prüfgrösse. Testen wir zweiseitig (auf jeder Seite der t-Dichtefunktion je 2.5% Fläche abschneiden), so finden wir in obiger Tabelle (Zeile f = 40, Spalte 97.5%) den Wert t* = 2.02108. Unsere Testgrösse befindet sich rechts davon, also im Ablehnungsbereich der Nullhypothese. Sogar die Zahl t* = 2.70446 in Spalte 99.5% führt zur Ablehnung der Nullhypothese, d.h. wir verwerfen sie auch auf dem 1%-Signifikanzniveau. Wir finden also einen hochsignifikanten Unterschied der Mittelwerte der beiden Personengruppen (Männer, Frauen). Beispiel 2: n1 = 15, f = 28. s2 = (14⋅ 196 + 14 ⋅256) / 28 ≈ 226 => s ≈ 15.033296. t = 11.5 / (15.033296 ⋅ √0.1333) ≈ 2.09495 = Prüfgrösse. Wir testen zweiseitig. Die für das 5%-Signifikanz-Niveau nötige Grenzgrösse Ein äquivalenter Test zum Vergleich der Mittelwerte zweier unabhängiger Stichproben ist die einfaktorielle Varianzanalyse mit Zählerfreiheitsgrad 1 basierend auf der Fisher-Verteilung. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
18.4. t-Test für zwei verbundene Stichproben | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Hier werden zwei Gruppen miteinander verglichen, deren Elemente einander paarweise zugeordnet sind (Beobachtungspaare). Beispiel: Vorher-Nachher-Tests, Morgen-, Abendmessungen, usw. Wir betrachten wiederum die Mittelwert-Unterschiede. Die Nullhypothese lautet wie oben: gleiche Erwartungswerte. Wir bilden für jedes Messpaar (xi , yi ) die Differenz di = xi - yi . Der Mittelwert der
s ist dabei die empirische Standardabweichung der di -Werte. |
Beispiel: Nochmals das Beispiel "Einfluss eines Medikaments auf die Konzentrationsleistung": Test an 6 Personen. Bemerkung: Die Statistik liefert aufgrund der erhobenen Daten Resultate, die zur Annahme oder Verwerfung der Nullhypothese führen. Ob das Test-Design sinnvoll ist oder ob sich allenfalls systematische Fehler einschleichen, "merkt" die statistische Rechnung nicht. Im vorliegenden Fall könnte das bessere Abschneiden im Post-Test auch damit zu tun haben, dass die Probanden beim zweiten Mal mit einem solchen Test vertrauter sind als beim ersten Mal. Die verbesserte Leistung ginge dann ev. nicht aufs Konto des verabreichten Mittels. Die Planerinnen und Planer dieses Experiments müssen sich also vorher überlegen, wie sie einen solchen Störfaktor "austricksen" könnten. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
18.5. Bemerkungen zu den t-Tests | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Als wichtige Voraussetzung für t-Tests müssen die Merkmale normalverteilt sein. Wie lässt sich dies nachprüfen? Allenfalls betrachtet man ein Histogramm. Falls Mittelwert und Median stark auseinanderfallen, ist die Normalverteilung nicht gegeben. Bei kleinen Stichprobenumfängen ist auf den Wilcoxon-Test auszuweichen. t-Test für zwei unverbundene Stichproben: n ≥ 10, bei nichtsymmetrischen Verteilungen besser ≥ 20 und für beide Stichproben ähnlich gross. Beide Zufallsgrössen ähnlich verteilt. |
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
19. Rangsummentests (Wilcoxon) | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Frank Wilcoxon, 1892 - 1965, amerikanischer Chemiker, entwickelte die folgenden Tests. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
19.1. Wilcoxon-Test für eine Stichprobe | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Diese Tests haben weniger enge Voraussetzungen als die t-Tests, da sie keine bestimmte Verteilung der Daten voraussetzen. Die Prüfgrösse wird aus den Rangzahlen der Messwerte berechnet. Man kann diese Tests deshalb sogar für ordinal skalierte Daten verwenden, da es nur auf deren Rangfolge ankommt. Vorgehen:
|
Bemerkungen: Der Test setzt keine Normalverteilung, aber eine symmetrische Verteilung voraus. Differenzen mit grossen Rängen (also hohe Abweichungen vom Sollwert) zählen bei diesem Test stärker als Differenzen mit kleinen Rängen. Beispiel: Rangsumme R(+) = 60, Rangsumme R(-) = 45. Probe: 60+45 = 14⋅15/2=105. Nachschlagen in Tabelle unten (n = 14, 5%-Niveau) ergibt die Verwerfungsgrenze 21. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Kritische Grenzen für den Wilcoxon-Test Tabelle rechts: Kritische Grenzen für zweiseitige Tests auf dem 5%-Niveau oder für einseitige Tests auf dem 2.5%-Niveau. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
19.2. Wilcoxon-Test für zwei verbundene Stichproben | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Er funktioniert wie der Test unter 19.1, nur dass die Differenzen zwischen den Vorher- und den Nachher-Werten gebildet werden (Prätest, Posttest). Rangsummen und Prüfgrösse werden analog 19.1. berechnet. Es wird dieselbe Tabelle für die kritischen Grenzen verwendet wie vorher. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
19.3. U-Test von Mann, Whitney, Wilcoxon für zwei unverbundene Stichproben | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Analog zum t-Test unter 18.3, wenn man keine Normalverteilung annehmen kann. Es werden die beiden Mediane verglichen. Die Zufallsvariablen aus den beiden zu vergleichenden Bereichen sollen ungefähr die gleiche Verteilungsform haben, müssen aber nicht symmetrisch verteilt sein. Nullhypothese: "Erwartungswerte beider Mediane gleich." Nun berechnet man folgende Grössen:
Ist U ≤ dem kritischen Wert in der entsprechenden Tabelle, wird die Nullhypothese abgelehnt. |
Bemerkungen:
Man vermeide gleiche Ränge zwischen den beiden Stichproben (genauer messen). Mittels dieses Tests können auch ordinal skalierte Merkmale geprüft werden.
Eine Tabelle mit den kritischen Werten findet sich leicht im Internet. Hier ein Link zu einer Seite, welche Berechnungen ermöglicht.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Beispiel (fiktiv): Wirkung eines Medikaments auf die Konzentration (siehe 18.3., Beispiel 2). Doppelblindversuch. Gruppe 1: Medikamentengruppe, Gruppe 2: Placebogruppe. Testgrösse U = 57. Kritische Grenze (Tabelle mit n1 = n2 = 15): 64. Es ist 57 < 64 => Die Nullhypothese ("Gleiche Erwartungswerte bei beiden Gruppen") wird somit auf dem 5%-Niveau verworfen.
Abgesehen vom rein statistischen Zahlenergebnis liesse sich (falls ein solches Ergebnis einträte - unser Beispiel ist ja rein fiktiv) überlegen, warum die Standardabweichung von Gruppe 1 kleiner ist als diejenige von Gruppe 2. Hier eröffnen sich weitere Fragen: Wirkt das Mittel auf alle Personen gleichermassen; wären ev. geschlechtsspezifische Unterschiede in der Wirkung möglich, usw.? Es zeigt sich einmal mehr, dass statistische Ergebnisse nicht einfach "Schlussresultate" sind, sondern zu weiteren Fragen und Untersuchungen anregen können. |
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
![]() |
![]() |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
20. Chi2-Tests | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Mit Chi2-Tests werden Häufigkeitsunterschiede analysiert. Beispiele:
|
Grundidee des Chi2-Tests: Die beobachteten Häufigkeiten werden verglichen mit den theoretisch bei Gültigkeit der Nullhypothese zu erwartenden Häufigkeiten (den Wahrscheinlichkeiten). Man berechnet die Quotienten (beobachtete Häufigkeit - erwartete Häufigkeit)2 / erwartete Häufigkeit und addiert sie. Das ergibt die Testgrösse (vgl. Bsp. links unten). |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Beispiel: Ist der Würfel "gerecht"? Ein Würfel, der mir von Auge etwas "suspekt" erscheint, soll getestet werden. Ich werfe ihn 120-mal und notiere die erwürfelten Augenzahlen. Der Versuch ergibt folgende Ergebnisse:
|
Die Anzahl f der Freiheitsgrade ist gleich der Anzahl Beobachtungsklassen minus 1, also in unserem Beispiel gleich 5. Die Prüfgrösse ist "Chi2-verteilt" mit f "Freiheitsgraden". Eine Tabelle liefert zum 5%-Signifikanzniveau den kritischen Wert 11.070. Unsere Testgrösse ist kleiner, liegt also noch im Annahmebereich der Nullhypothese. Wir können die Nullhypothese "gerechter Würfel" nicht verwerfen. Bemerkung: Im Chi2-Test sollen alle zu erwartenden Häufigkeiten ≥ 5 sein. Zudem darf keine der beobachteten Häufigkeiten gleich 0 sein. Grafik zur Chi2-Verteilung: http://de.wikipedia.org/wiki/Chi-Quadrat-Verteilung |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Beispiel: Ist dieser "Wurf" mit 36 Würfeln arrangiert oder ist es plausibel, dass er "als Wurf" entstanden ist? |
6.667 < 11.070: Die Nullhypothese wird nicht verworfen. |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Der Vierfelder-Unabhängigkeits-Test In diesem Test ist f = 1. Beispiel aus Ineichen, Robert, Elementare Beispiele zum Testen statistischer Hypothesen, Orell Füssli, Zürich, 1978, vergriffen, p.75 ff. Ist der Anteil Verkehrsunfälle mit tödlichem Ausgang am Wochenende derselbe wie unter der Woche (Nullhypothese)? Die Nullhypothese besagt also, dass die Merkmale "Wochenende" und "Verkehrsunfälle mit tödlichem Ausgang" voneinander unabhängig sind. Man findet z.B. folgende Zahlen (Vierfeldertafel):
Wir nehmen diese Zahlen als Schätzwerte für die Unfall-Wahrscheinlichkeiten: Unter der Nullhypothese ("Unabhängigkeit") muss gelten (Multiplikationsgesetz für unabhängige Ereignisse): Multiplizieren wir diese theoretischen Wahrscheinlichkeiten mit n, der Gesamtzahl der Unfälle, erhalten wir die unter der Nullhypothese zu erwartenden Zahlen: Zu erwartenden Zahlen:
|
Nun bilden wir wieder für jedes der vier Felder die Werte (B - E)2 / E:
Die Summe ergibt die Testgrösse 11.109. Die Gefahr besteht, beim Berechnen beträchtliche Rundungsfehler zu begehen. Praktischer wäre deshalb eine Formel für die Testgrösse direkt aus den Angaben der ursprünglichen Tabelle. Ohne Beweis geben wir an, wie wir die Testgrösse direkt aus der ursprünglichen Vierfeldertafel berechnen können: Sei
die ursprüngliche Vierfeldertafel. Dann berechnet sich die Testgrösse zu
Mit unseren Zahlen ergibt sich die Testgrösse ohne grössere Rundungsfehler zu 11.1090211. Die Zahl der Freiheitsgrade ist im Vierfeldertest gleich 1. Wir finden als kritischen Wert in einer Tabelle für f = 1 die Zahl 3.841 (5%-Niveau). Für das 1%-Niveau finden wir den kritischen Wert 6.635. Unser Wert 11.109 liegt also im Verwerfungsbereich der Nullhypothese. Das Wochenende zeigt mit den Zahlen unseres Beispiels hochsignifikant mehr tödliche Unfälle als die übrige Woche. Beim Vierfeldertest sollte n≥ 30 sein. Wieder sollten die erwarteten Häufigkeiten ≥ 5 sein. Weitere Testmöglichkeiten:
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
21. F-Test | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Quelle: Bortz / Schuster: Statistik, 7. Auflage, Springer 2010, p.128 ff. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Nullhypothese des F-Tests: |
Beispiel (nach Bortz / Schuster): Leserschaft Zeitung A; Leserschaft Zeitung B. Nullhypothese: Beide Gruppen gleich homogenes Meinungsspektrum (operationalisiert als Meinungsindex aus einem Fragebogen). F-Tabelle; rechts 5% abschneiden (Hälfte von 0.10). Kritischer Wert 1.37. (Zählerfreiheitsgrade 100, Nennerfreiheitsgrade 120.) |
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||