Schließende Statistik - Wahrscheinlichkeitsrechnung
Hier findest du folgende Inhalte
Formeln
Schließende Statistik
Die schließende Statistik ermöglicht es von einer (kleinen) Stichprobe auf die (große) Grundgesamtheit G zu schließen.
Stichprobe
Die Stichprobe ist eine repräsentative Teilmenge, die der Grundgesamtheit zufällig entnommen wurde. Sie gilt als repräsentativ, wenn sie die typischen Merkmale der Grundgesamtheit repräsentiert.
Wahrscheinlichkeitsrechnung
Die Wahrscheinlichkeitsrechnung ist die Grundlage der schließenden Statistik. Sie dient dazu, die Ergebnisse von Zufallsexperimenten auszuwerten, da deren Ausgang ja nicht exakt vorhersagbar ist.
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
Einstufige Zufallsexperimente und deren Wahrscheinlichkeiten
Ein Zufallsexperiment ist ein grundsätzlich beliebig oft wiederholbarer "Versuch", welcher unter identischen Bedingungen zu 2 oder mehreren nicht vorhersagbaren Ergebnissenführt. Dabei ist das zeitlich jeweils nächste Ergebnis unabhängig von den zeitlich vorhergehenden Ergebnissen.
Ergebnismenge \(\Omega\)
Ein Ergebnis ist der spezifische Ausgang von einem Zufallsexperiment. Die Ergebnismenge, auch Ergebnisraum genannt, ist die Menge aller möglichen Ergebnisse Ai eines Zufallsexperiments, die grundsätzlich auftreten können.
\(\Omega = \left\{ {{A_1},{A_2},...,{A_n}} \right\}\)
- Ergebnis eines einmaligen Würfelwurfs: "2 Augen"
- Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Würfeln ist \(\Omega = \left\{ {1;2;3;4;5;6} \right\}\)
- Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Wurf einer Münze ist \(\Omega = \left\{ {{\rm{Kopf;Zahl}}} \right\}\)
- Die Menge aller möglichen Ergebnisse - also der Ergebnisraum \(\Omega\) - beim Würfeln mit 2 Würfeln ist \(\Omega = \left\{ {\left( {1;1} \right);\left( {1;2} \right);...;\left( {1;6} \right);\left( {2;1} \right);\left( {2;2} \right);....\left( {6;6} \right)} \right\}\)
Ereignismenge \(P\left( \Omega \right)\)
Ereignismengen, auch Ereignisräume genannt, sind Teilmengen der Ergebnismenge.
\(P\left( \Omega \right) = \left\{ {A\left| {A \subseteq \Omega } \right.} \right\}\)
Beispiel Würfel:
- Ergebnismenge: \(\Omega = \left\{ {{1},{2},...,{6}} \right\}\)
- Ereignismenge "nur" die gerade Augenzahl: \(\Omega = \left\{ {{2},{4},{6}} \right\}\)
Elementarereignis
Das Elementarereignis Ai ist eine Teilmenge der Ergebnismenge \(\Omega\) mit genau einem Element.
\({A_i} \in \Omega\)
Zur Veranschaulichung:
Wirft man einen Würfel, so umfasst die Ergebnismenge \(\Omega = \left\{ {1,2,3,4,5,6} \right\}\) genau 6 Elementarereignisse : 1 Auge, 2 Augen, 3 Augen, 4 Augen, 5 Augen, 6 Augen
Gegenereignis
Das Gegenereignis A‘ tritt genau dann ein, wenn das Ereignis A nicht eintritt. Alle Elemente des Ereignisses A und seines Gegenereignisses A‘ ergeben zusammen die Ergebnismenge \(\Omega\).
\(A' + A = \Omega\)
Die Verneinung vom Ereignis E heißt Gegenereignis \(\overline E \). Für ein Ereignis E und sein Gegenereignis \(\overline E \) gilt folgender Zusammenhang:
\(P\left( E \right) = 1 - P\left( {\overline E } \right)\)
Wahrscheinlichkeit
Die Wahrscheinlichkeit ist ein Maß dafür, wie wahrscheinlich der Eintritt eines Ereignisses ist. Bei der wiederholten Durchführung eines Zufallsexperiments tritt eine Abfolge von einzelnen Elementarereignissen Ai auf. Man kann zwar nicht vorhersagen genau welches Elementarereignis als nächstes auftritt, aber man kann eine Aussage darüber machen, wie häufig ein bestimmtes Elementarereignis im Vergleich zu den anderen Elementarereignissen auftritt. Die Wahrscheinlichkeit nach Laplace P(A)=P(X=x) leitet sich aus der Häufigkeit eines bestimmten Elementarereignisses, im Verhältniss zur Häufigkeit aller Elementarereignisse ab.
\(0 \leqslant P\left( A \right) \leqslant 1\) | Die Wahrscheinlichkeit dafür, dass ein beliebiges Elementarereignis eintritt, muss zwischen 0 und 1 liegen |
\(P\left( \Omega \right) = 1\) | Die Wahrscheinlichkeit dafür, dass alle Elementarereignisse eintreten, muss 1 sein. |
Gleichwahrscheinlichkeit
Eine Gleichwahrscheinlichkeit liegt vor, wenn jedes der n Elementarereignisse die gleiche Wahrscheinlichkeit 1/n hat.
Unbedingte Wahrscheinlichkeit P(A)
Die unbedingte Wahrscheinlichkeit gibt an, wie hoch die Wahrscheinlichkeit für den Eintritt eines Ereignisses ist, unabhängig von irgend welchen Vorbedingungen.
Beispiel: Wie hoch ist die Wahrscheinlichkeit, dass morgen in Wien die Temperatur 30° C überschreitet? Antwort: Nieder, weil es nur ca. 30 derartige Hitzetage pro Jahr gibt.
Bedingte Wahrscheinlichkeit P(B│A)
Die bedingte Wahrscheinlichkeit P(B|A) ist die Wahrscheinlichkeit für das Eintreten von B, unter der Voraussetzung (Bedingung), dass bereits das Ereignis A eingetreten ist, also bei von einander stochastisch abhängigen Ereignissen
\(P\left( {{B}\left| {{A}} \right.} \right) = \dfrac{{P\left( {{A} \cap {B}} \right)}}{{P\left( {{A}} \right)}}\)
Obige Formel ist lediglich die umformulierte Multiplikationsregeln für Wahrscheinlichkeiten ("Und Regel").
Beispiel: Heute wird in Wien eine Temperatur von 35° C gemessen. Wie hoch ist die Wahrscheinlichkeit, dass morgen in Wien die Temperatur 30° C überschreitet? Antwort: Hoch, da sich die Klimalage nur alle paar Tage verändert.
Gegenwahrscheinlichkeit
Die Gegenwahrscheinlichkeit vom Ereignis A ist die Wahrscheinlichkeit dafür, dass das Ereignis A nicht eintritt. Oft ist es einfacher die Gegenwahrscheinlichkeit von einem Ereignis auszurechnen und daraus die Wahrscheinlichkeit des Ereignisses selbst zurückzurechnen.
\(\eqalign{ & P\left( {A'} \right) = 1 - P\left( A \right) \cr & P\left( A \right) = 1 - P\left( {A'} \right) \cr}\)
Anmerkung zur Notation:
\(P\left( {A'} \right) = P\left( {\neg A} \right)\)
Bernoulli Experiment
Ein Bernoulli Experiment ist ein Zufallsexperiment, welches
- genau 2 mögliche Ergebnisse hat: Treffer / Niete.
- Die Wahrscheinlichkeit p für einen Treffer oder für eine Niete muss aber keinesfalls 50:50 bzw. 0,5 sein. Die Formel für die Laplace Wahrscheinlichkeit ("günstige" durch "mögliche") gilt auch für Bernoulli Experimente, da diese ja nur ein Sonderfall vom Laplace Experiment sind.
Beispiel: gerade und ungerade Tage im Jänner:
Jeder Tag muss entweder gerade oder ungerade sein, aber es gibt im Jänner 15 gerade aber 16 ungerade Tage.
\(\eqalign{ & P\left( {X = {\text{gerader Tag}}} \right) = \dfrac{{15}}{{31}} \cr & P\left( {X = {\text{ungerader Tag}}} \right) = \dfrac{{16}}{{31}} \cr} \)
Gegenwahrscheinlichkeiten in einem Bernoulli Experiment
Wenn in einem Bernoulli Experiment p die Wahrscheinlichkeit für einen Treffer ist, dann ist 1-p die Wahrscheinlichkeit für eine Niete, man nennt dies die Gegenwahrscheinlichkeit.
Laplace Experiment
Ein Laplace Experiment ist ein Zufallsexperiment, welches n mögliche Ergebnisse hat, wobei die Wahrscheinlichkeit für jedes der n Ergebnisse gleich groß ist. Man spricht dann von der Laplace Wahrscheinlichkeit.
Beispiel für ein Laplace Experiment: Würfelwurf; Es gibt 6 mögliche Elementarereignisse, die die gleiche Wahrscheinlichkeit haben. 1 Auge, 2 Augen, 3 Augen, 4 Augen, 5 Augen, 6 Augen
Laplace Wahrscheinlichkeit
Die Laplace Wahrscheinlichkeit P(E) gibt den relativen Anteil der „günstigen“ Versuchsausgänge zu den „möglichen“ Versuchsausgängen an. Sie ist also eine Maßzahl für die Chance, dass ein bestimmtes Ereignis E bei mehreren möglichen Ereignissen eintritt. Alle Elementarergebnisse / Ausgänge müssen die gleiche Eintrittswahrscheinlichkeit haben.
\(P\left( E \right) = \dfrac{{{\text{Anzahl der günstigen Fälle}}}}{{{\text{Anzahl der möglichen Fälle}}}}\)
wobei: \(0 \leqslant P\left( E \right) \leqslant 1{\text{ und }}P\left( 0 \right) = 0{\text{ sowie P}}\left( \Omega \right) = 1\)
E | Ereignisse A, B |
P(A) | Wahrscheinlichkeit für das Eintreten vom Ereignis A |
P(A)=1 | Das Ereignis tritt sicher ein |
P(A)=0 | Das Ereignis tritt sicher nicht ein |
Mehrstufige Zufallsexperimente und deren Wahrscheinlichkeiten
Führt man ein Zufallsexperiment mehrfach hintereinander aus, so spricht man von einem mehrstufigen Zufallsexperiment. Einfache Beispiele dafür sind das mehrfache Werfen einer Münze oder das mehrfache Werfen eines Würfels.
Formel von Bernoulli für Bernoulli-Ketten
Wird ein Bernoulli-Experiment n mal durchgeführt, so spricht man von einer Bernoulli-Kette der Länge n. Die bernoullische Formel gibt die Wahrscheinlichkeit für k Treffer bei n Wiederholungen eines Bernoulli-Experiments - einer sogenannten Bernoulli-Kette - an. Dabei ist für jeden einzelnen der k Treffer, p die Wahrscheinlichkeit für einen Treffer und (1-p) die Wahrscheinlichkeit für eine Niete. Die einzelnen Teilexperimente müssen von einander unabhängig sein. Jedes Einzelexperiment darf nur zwei mögliche Ausgänge haben.
\(P\left( {X = k} \right) = \left( \begin{gathered} n \\ k \\ \end{gathered} \right) \cdot {p^k} \cdot {\left( {1 - p} \right)^{n - k}}\)
P(X=k) | Wahrscheinlichkeit einer Binomialverteilung |
n | Anzahl der Wiederholungen eines Bernoulli-Experiments |
p | Wahrscheinlichkeit für einen Treffer im Bernoulli-Experiment |
k | Anzahl der Treffer bei n Wiederholungen, deren Reihenfolge ist irrelevant |
Beispiel: Würfel (→p=1/6=0,16667) wird 10 Mal geworfen (→n=10). Wie hoch ist die Wahrscheinlichkeit genau 3 Mal zwei Augen zu werfen (→k=3)
\(P\left( {K = 3} \right) = \left( {\begin{array}{*{20}{c}} {10}\\ 3 \end{array}} \right) \cdot {\left( {\dfrac{1}{6}} \right)^3} \cdot {\left( {1 - \dfrac{1}{6}} \right)^{10 - 3}} \approx 0,155 \buildrel \wedge \over = 15,5\% \)
Baumdiagramme
Baumdiagramme unterstützen visuell bei der Berechnung der Wahrscheinlichkeit bei mehrstufigen Zufallsexperimenten. Ein Baumdiagramm besteht aus Knoten und Zweigen. Ein Pfad startet bei einem Knoten, verläuft über einen oder mehrere Zweige und endet in einem Knoten.
Zweigwahrscheinlichkeiten
- Neben jeden Zweig schreibt man die Wahrscheinlichkeit, mit der das vom Zweig repräsentierte Zufallsereignis eintritt.
- Die Wahrscheinlichkeit aller Zweige, die von einem Konten weglaufen, summieren sich immer auf 1.
Pfadregeln bei der Lösung von Aufgaben mittels Baumdiagramm
- Produktregel: Die Wahrscheinlichkeit eines Ereignisses, welches durch einen Pfad dargestellt wird, ist gleich dem Produkt aller Einzelwahrscheinlichkeiten entlang dieses Pfades.
- Summenregel: Die Wahrscheinlichkeit eines Ereignisses, welches durch mehrere Pfade dargestellt wird, ist gleich der Summe aller zugehörigen Pfadwahrscheinlichkeiten
Illustration eines Baumdiagramms
Produktregel für die Wahrscheinlichkeit von unabhängigen Ereignissen ("Und" Regel)
Die Produktregel besagt, dass die Wahrscheinlichkeit eines Ereignisses, welches durch einen Pfad (mehrere Zweige in Serie) dargestellt wird (Pfadwahrscheinlichkeit), gleich ist dem Produkt aller Einzelwahrscheinlichkeiten entlang dieses Pfades. Mit anderen Worten: Sollten A und B unabhängige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass unabhängig voneinander das Ereignis A und auch das Ereignis B eintreten, ist gleich dem Produkt der beiden Einzelwahrscheinlichkeiten.
Das eine und das andere Ereignis treten ein: Schnittmenge:
\(P\left( {A \cap B} \right) = P\left( {A \wedge B} \right) = P\left( {{\text{A und B}}} \right) = P\left( A \right) \cdot P\left( B \right)\)
Merksatz: "Bei unabhängigen Ereignissen ist die Wahrscheinlichkeit von A und B ist gleich der Wahrscheinlichkeit von A mal B"
Beispiel: Ziehen mit Zurücklegen
Produktregeln für die Wahrscheinlichkeit von beliebigen Ereignissen ("Und Regel")
Sollten A und B zwei nicht notwendiger Weise unabhängige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass das Ereignis A und auch das Ereignis B eintreten, ist gleich der Eintrittswahrscheinlichkeit für A mal der Eintrittswahrscheinlichkeit für B, unter der Voraussetzung, dass bereits Ereignis A eingetreten ist.
\(P\left( {{A} \cap {B}} \right) = P\left( {{A}} \right) \cdot P\left( {{B}\left| {{A}} \right.} \right)\)
Beispiel: Ziehen ohne Zurücklegen
Summenregel für die Wahrscheinlichkeit von unabhängigen Ereignissen ("Oder" Regel)
Die Summenregel besagt, dass die Wahrscheinlichkeit eines Ereignisses, welches durch mehrere parallele Pfade dargestellt wird, gleich ist der Summe aller zugehörigen Pfadwahrscheinlichkeiten. Mit anderen Worten: Sollten A und B unvereinbare / disjunkte / einander gegenseitig ausschließende Ereignisse sein, dann gilt wegen \(P\left( {{A} \cap {B}} \right) = 0\) vereinfachend: Die Wahrscheinlichkeit, dass entweder das eine oder das andere von 2 disjunkten Ereignissen eintritt, ist gleich der Summe der Einzelwahrscheinlichkeiten.
Entweder das eine oder das andere Ereignisse tritt ein: Vereinigungsmenge
\(P\left( {A \cup B} \right) = P\left( {A \vee B} \right) = P\left( {{\text{A oder B}}} \right) = P\left( A \right) + P\left( B \right)\)
Nachfolgende Illustration veranschaulicht den Zusammenhang
Summenregeln für Wahrscheinlichkeiten von beliebigen Ereignissen ("Oder Regel")
Sollten A1 und A2 zwei beliebige Ereignisse sein, dann gilt: Die Wahrscheinlichkeit, dass entweder das beliebige Ereignis A eintritt oder das beliebiges Ereignis B eintritt, ist gleich der Summe ihrer Einzelwahrscheinlichkeiten, abzüglich der Wahrscheinlichkeit für das gemeinsame Eintreten beider Ereignisse.
\(P\left( {{A} \cup {B}} \right) = P\left( {{A}} \right) + P\left( {{B}} \right) - P\left( {{A} \cap {B}} \right) = P\left( {{A}} \right) + P\left( {{B}} \right) - P\left( {{A}} \right) \cdot P\left( {{B}} \right)\)
Für drei beliebige - also nicht notwendigerweise disjunkte - Ereignisse gilt:
\(P\left( {A \cup B \cup C} \right) = P\left( A \right) + P\left( B \right) + P\left( C \right) - P\left( {A \cap B} \right) - P\left( {A \cap C} \right) - P\left( {B \cap C} \right) + P\left( {A \cap B \cap C} \right)\)
Nachfolgende Illustration veranschaulicht den Zusammenhang
Satz von Bayes - Formel für die bedingte Wahrscheinlichkeit von B unter der Bedingung A
Die bedingte Wahrscheinlichkeit P(B|A) ist die Wahrscheinlichkeit für das Eintreten von B, unter der Voraussetzung (Bedingung), dass bereits das Ereignis A eingetreten ist, also bei von einander stochastisch abhängigen Ereignissen
\(P\left( {{B}\left| {{A}} \right.} \right) = \dfrac{{P\left( {{A} \cap {B}} \right)}}{{P\left( {{A}} \right)}}\)
Der Satz von Bayes ermöglicht es die bedingte Wahrscheinlichkeit von \(P\left( {{A}\left| {{B}} \right.} \right)\) auszurechnen, wenn nur die umgekehrte bedingte Wahrscheinlichkeit \({P\left( {{B}\left| {{A}} \right.} \right)}\) und die beiden A-Priori-Wahrscheinlichkeiten \({P\left( {{A}} \right)}\) bzw. \({P\left( {{B}} \right)}\) bekannt sind und umgekehrt.
\(\eqalign{ & P\left( {A\left| B \right.} \right) = \dfrac{{P\left( {A \cap B} \right)}}{{P\left( B \right)}} = \cr & = \dfrac{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right)}}{{P\left( B \right)}} = \dfrac{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right)}}{{P\left( A \right) \cdot P\left( {B\left| A \right.} \right) + P\left( {\overline A } \right) \cdot P\left( {B\left| {\overline A } \right.} \right)}} \cr} \)
\(P\left( {{A}\left| {{B}} \right.} \right)\) | Bedingte Wahrscheinlichkeit vom Ereignis A unter der Bedingung, dass Ereignis B schon eingetreten ist |
\({P\left( {{B}\left| {{A}} \right.} \right)}\) | Bedingte Wahrscheinlichkeit vom Ereignis B unter der Bedingung, dass Ereignis A schon eingetreten ist |
\({P\left( {{A}} \right)}\) | A-priori-Wahrscheinlichkeit für den Eintritt vom Ereignis A |
\({P\left( {{B}} \right)}\) | A-priori-Wahrscheinlichkeit für den Eintritt vom Ereignis B |
Vierfeldtafel zur Bestimmung bedingter Wahrscheinlichkeiten
Eine Vierfeldtafel eignet sich zur Bestimmung der Zusammenhänge zweier Ereignisse A und B
- Zuerst erfolgt die Beschriftung vom Ereignis und dem zugehörigen Gegenereignis in der 1. Zeile und der 1. Spalte
- Dann erfolgt die Beschriftung der Wahrscheinlichkeiten vom Ereignis A bzw. B und der Wahrscheinlichkeit vom zugehörigen Gegenereignis in der 4. Zeile und in der 4. Spalte
- Die Wahrscheinlichkeiten der Ereignisse \(A\) und \({\overline A }\) bzw. \(B\) und \({\overline B }\) addieren sich jeweils auf 1, was wir im Feld rechts unten eintragen.
- In die eigentlichen 4 Felder der Vierfeldtafel trägt man letztlich die Wahrscheinlichkeiten der Schnittmengen ein.
\(B\) | \({\overline B }\) | ||
\(A\) | \({P\left( {A \cap B} \right)}\) | \({P\left( {A \cap \overline B } \right)}\) | \({P\left( A \right)}\) |
\({\overline A }\) | \({P\left( {\overline A \cap B} \right)}\) | \({P\left( {\overline A \cap \overline B } \right)}\) | \({P\left( {\overline A } \right)}\) |
\({\sum }\) | \({P\left( B \right)}\) | \({P\left( {\overline B } \right)}\) | 1 |
- Die Wahrscheinlichkeiten in der 4. Zeile errechnet sich aus der Summe der beiden darüber stehenden Wahrscheinlichkeiten
- Die Wahrscheinlichkeiten in der 4. Spalte errechnet sich aus der Summe der beiden links stehenden Wahrscheinlichkeiten
Anstelle von Wahrscheinlichkeiten können in den Felder der Vierfeldtafel auch absoluten Häufigkeiten oder Prozentwerte stehen.
Abhängige bzw. unabhängige Ereignisse:
Zwei Ereignisse A bzw. B sind von einander abhängig, wenn das Eintreten vom Ereignis A das Eintreten vom Ereignis B beeinflusst. Unabhängige Ereignisse kann man einfacher berechnen als von einander abhängige Ereignisse.
Die Ereignisse A und B sind voneinander
- abhängig, wenn gilt: \(P\left( A \right) \cdot P\left( B \right) \ne P\left( {A \cap B} \right)\)
- unabhängig, wenn gilt: \(P\left( A \right) \cdot P\left( B \right) = P\left( {A \cap B} \right)\)
In obiger Vierfeldtafel können wir die 3 Werte wie folgt ablesen:
- P(A) lesen wir in der 1. Zeile in der letzten Zeile ab
- P(B) lesen wir in der 1. Spalte in der letzten Zeile ab
- P(A ∩ B) lesen wir in der 1. Zeile in der 1. Spalte ab
Visualisierung im Baumdiagramm
Satz von der totalen Wahrscheinlichkeit
Der Satz von der totalen Wahrscheinlichkeit ermöglicht es die Einzelwahrscheinlichkeiten aus den bedingten Wahrscheinlichkeiten zu berechnen.
\(\eqalign{ & P\left( A \right) = \sum\limits_{i = 1}^n {P\left( {{B_i}} \right) \cdot P\left( {A\left| {{B_i}} \right.} \right)} \cr & {\text{mit }}{{\text{B}}_1} \cup {B_2} \cup ... \cup {B_n} = \Omega \cr} \)
Beispiel:
n=2:
\(P\left( A \right) = P\left( B \right) \cdot P\left( {A\left| B \right.} \right) + P\left( {\overline B } \right) \cdot P\left( {A\left| {\overline B } \right.} \right)\)
Histogramm der Häufigkeitsverteilung
Ein Histogramm ist eine graphische Darstellung der Häufigkeitsverteilung von in Klassen eingeteilten Daten. Die Klassen können, müssen aber nicht gleich breit sein. Über jeder Klasse wird ein Rechteck errichtet, dessen Fläche (!) proportional zur Häufigkeit dieser Klasse ist. Man benötigt zur Darstellung von Histogrammen also die jeweilige Balkenbreite (Klassenbreite) und die Balkenhöhe (=relativer / prozentueller Anteil der Messwerte). Bei den ähnlich aussehenen Säulen- bzw. Balkendiagramme kommt es nur auf die Höhe vom Balken an, beim Histogramm jedoch auf die Fläche.
- Ehe man ein Histogramm erstellen kann, muss man die N Messwerte der Größe nach ordnen.
- Dann definiert man eine übersichtliche Anzahl von Klassen (diese haben jeweils eine Unter- und eine Obergrenze). Die Klassenbreite bi ist frei wählbar
- Man ordnet alle Messwerte jeweils einer Klasse zu.
- Im letzten Schritt errichtet man über jeder Klasse ein Rechteck, dessen Höhe \({h_i} = \dfrac{{{n_i}}}{N}\) dem relativen (=prozentuellen) Anteil der Messwerte je Klasse entspricht.
Achtung: Verwechsle das Histogramm nicht mit einem Säulendiagramm, das sehr ähnlich aussieht, aber ganz etwas anderes darstellt.
Histogramm | Säulendiagramm | |
Flächenproportionale Darstellung einer Häufigkeitsverteilung. Aneinander angrenzende Rechtecke, mit klassenspezifischer Breite und häufigkeitsspezifischem Flächeninhalt |
Höhenproportionale Darstellung einer Häufigkeitsverteilung Senkrecht auf die x-Achse stehende, nicht aneinander grenzende Säulen mit relevanter Höhe und mit bedeutungslosem Flächeninhalt |
|
Breite macht Aussage über | Klassenbreite | bedeutungslos |
Höhe macht Aussage über | errechnet sich aus Fläche und Breite | proportional zur Häufigkeit der jeweiligen Merkmalsausprägung |
Fläche macht Aussage über | proportional zur Häufigkeit der jeweiligen Klasse | bedeutungslos |
Achtung: Verwechsle die Häufigkeitsverteilung nicht mit der Wahrscheinlichkeitsverteilung
- Häufigkeitsverteilung: Ein Merkmal einer Untersuchungsgesamtheit wird nach bestimmten Kriterien / Ausprägungen ( sogenannten Klassen) geordnet und gezählt. Zur grafischen Veranschaulichung dient das Histogramm.
- Wahrscheinlichkeitsverteilung: Eine Zahl zwischen null (0%) und eins (100%) gibt an, wie sich die Wahrscheinlichkeiten auf die möglichen Zufallsergebnisse verteilen.
Gleichverteilung - Disparität - Konzentration
Von Gleichverteilung spricht man, wenn jeder Merkmalsträger den gleichen Anteil an der Merkmalssumme auf sich vereint.
Disparität und Konzentration sind Maße für die Ungleichheit bei der Verteilung der Merkmalsumme auf einzelne Merkmalsträger.
- Eine hohe Disparität liegt dann vor, wen ein kleiner %-Anteil der Merkmalsträger einen hohen Anteil an der Merkmalssumme hat. Z.B. welchen Anteil am Gesamteinkommen der Bevölkerung eines Landes die 10% der Reichsten auf sich vereinen.
- Eine hohe Konzentration liegt vor, wenn eine kleine Anzahl an Merkmalsträgern einen hohen Anteil der Merkmalssumme hat. Z.B. welchen Anteil am Gesamteinkommen der Bevölkerung eines Landes die 10.000 der Reichsten auf sich vereinen.
Lorenzkurve
Die Lorenz Kurve ist ein grafisches Maß für die Disparität. Die Fläche zwischen der Lorentzkurve und der Diagonalen (Gerade der Gleichverteilung) wird als Lorentzfläche bezeichnet.
\(Lorenz-Fläche = \dfrac{{n - 1}}{{2n}} - \dfrac{1}{n} \cdot \sum\limits_{i = 1}^{n - 1} {{v_i}} \)
Die Lorentzkurve ist eine graphische Darstellung von Ungleichheiten in der Verteilung von Merkmalsträger (x-Achse, Anteil der Bevölkerung) und zugehöriger Merkmalssumme (y-Achse, Anteil am Einkommen). Die Lorentzkurve geht immer durch die Punkte \(\left( {0\left| 0 \right.} \right)\) und \(\left( {100\left| 100 \right.} \right)\)der Gleichverteilung. Die Ungleichheit kann aus der Abweichung von der Verbindung der Punkte \(\left( {0\left| 0 \right.} \right)\) und \(\left( {100\left| 100 \right.} \right)\) abgelesen werden. Je weiter entfernt, um so ungleicher.
Die Lorentzkurve ist der Streckenzug durch die Punkte \(\left( {0\left| 0 \right.} \right)\), \(\left( {{u_1}\left| {{v_1}} \right.} \right)...\left( {{u_n}\left| {{v_n}} \right.} \right)\) und \(\left( {1\left| 1 \right.} \right)\) mit den summierten Anteilen \({u_j} = \dfrac{j}{n}\) und \({v_j} = \dfrac{{\sum\limits_{i = 1}^j {{x_i}} }}{{\sum\limits_{i = 1}^n {{x_i}} }}\) auf der y-Achse.
Gini-Koeffizient
Der Gini-Koeffizient ist eine Zahl, die der Fläche unter der Gleichverteilungsgeraden und der Lorentzkurve entspricht. Je weiter die Lorentzkurve unter der Gleichverteilungsgeraden liegt, umso größer ist die Fläche, umso ungerechter ist die Verteilung (Disparität) und um so größer ist der Gini-Koeffizient.
\(G = 1 - \dfrac{2}{n} \cdot \left( {\sum\limits_{i = 1}^n {{L_i} - 0,5} } \right)\) | Li ... kumulierte Anteile an der Merkmalsumme |
\(G = 2\int\limits_0^1 {\left( {x - L\left( x \right)} \right)} \,\,dx\) | L(x) ... Lorentzfunktion |
Mathematisch ist der Gini-Koeffizient G der dimensionslose Quotient zweier Flächen. G=(Fläche zwischen der Gleichverteilungsgeraden und der Lorentzkurve) in Relation zur darunter liegenden (Dreiecksfläche zwischen der Gleichverteilungsgeraden und der x-Achse).
- G=0 entspricht einer Gleichverteilung, also fehlender Konzentration bzw. fehlender Disparität.
- \(G \to 1\) entspricht „Einer oder Wenige besitzen fast alles, also hoher Konzentration bzw. hoher Dispersität.
Ein Gini-Koeffizient alleine macht keine Aussagen, denn es gibt kein absolutes Maß dafür, ab wann eine Verteilung „unfair“ wird. Man kann aber mit dem Gini-Koeffizient unterschiedliche Verteilungen einander gegenüberstellen.
Schon den nächsten Urlaub geplant?
Auf maths2mind kostenlos auf Prüfungen vorbereiten!
Nach der Prüfung mit dem gesparten Geld deinen Erfolg genießen.
Zufallsvariable
Eine Zufallsvariable X ist eine Funktion, die jedem Ergebnis ω vom Ergebnisraum Ω eines Zufallsexperiments eine reelle Zahl x zuordnet.
\(X:\Omega \to R;\,\,\,X:\omega \to X\left( \omega \right) = x\)
Das Ergebnis einfacher Zufallsexperimente ist etwa eine Augenzahl beim Würfeln oder "Kopf" oder "Zahl" beim Werfen einer Münze. Bei komplexeren Zufallsexperimenten ist das Ergebnis vom Experiment meist praktischer Weise eine Zahl. Der Großbuchstabe X steht dabei für die Zufallsvariable und der Kleinbuchstabe x steht für den einen, ganz konkreten Wert, den X annimmt. Man sagt auch, dass x die Zufallsvariable X "realisiert" und dass diese konkrete Realisation mit einer bestimmten Wahrscheinlichkeit eintritt.
Man unterscheidet zwischen
- diskreten Zufallsvariablen, die durch eine Wahrscheinlichkeitsfunktion beschrieben werden
- stetigen Zufallsvariablen, die durch eine Dichtefunktion beschrieben werden
Wahrscheinlichkeitsverteilung
Die Wahrscheinlichkeitsverteilung beschreibt, mit welcher Wahrscheinlichkeit die einzelnen Ergebnisse eines Zufallsexperiments auftreten. Sie lässt sich auf 2 Arten, bei gleichem Informationsgehalt aber unterschiedlicher Darstellung, beschreiben:
Wahrscheinlichkeitsverteilung für diskrete Zufallsvariablen
Für diskrete Zufallsvariablen (Bernoulli Verteilung, Binomialverteilung, Poissonverteilung, hypergeometrische Verteilung) liegt die Wahrscheinlichkeit für das Auftreten von jedem einzelnen Wert zwischen 0 und 1. Die Summe der Einzelwahrscheinlichkeiten beträgt 1 (entsprechend 100%). Die Beschreibung erfolgt durch die
- Wahrscheinlichkeitsfunktion f(x): \(f\left( x \right) = P\left( {X = x} \right)\)
- Verteilungsfunktion F(x): \(F\left( x \right) = P\left( {X \leqslant x} \right) = \sum\limits_{{x_i} \leqslant x} {f\left( {{x_i}} \right)} \)
Wahrscheinlichkeitsverteilung für stetige Zufallsvariablen
Für stetige Zufallsvariablen (Normalverteilung, Gleichverteilung, Exponentialverteilung) beträgt die Wahrscheinlichkeit für das Auftreten jedes einzelnen Werts der Zufallsvariablen exakt Null. Die Beschreibung erfolgt durch die
- Dichtefunktion f(x): \(P\left( {a < X \le b} \right) = \int\limits_a^b {f\left( x \right)} \,\,dx = F\left( b \right) - F\left( a \right)\) wobei \(\int\limits_{ - \infty }^\infty {f\left( x \right)} \,\,{\mathop{\rm dx}\nolimits} = 1\)
- Die Dichtefunktion ist für stetige Zufallsvariablen das Äquivalent zur Wahrscheinlichkeitsfunktion von diskreten Zufallsvariablen. Sie kann nur positive Werte annehmen und die gesamte Fläche unter ihrem Graph hat den Wert 1. Aus der Dichtefunktion f(x) lässt sich keine Wahrscheinlichkeit P(X) ablesen, da die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen konkreten Wert x annimmt immer Null ist. Es gilt also: \(f\left( x \right) \ne P\left( {X = x} \right)\)
- Die Dichtefunktion ist für stetige Zufallsvariablen das Äquivalent zur Wahrscheinlichkeitsfunktion von diskreten Zufallsvariablen. Sie kann nur positive Werte annehmen und die gesamte Fläche unter ihrem Graph hat den Wert 1. Aus der Dichtefunktion f(x) lässt sich keine Wahrscheinlichkeit P(X) ablesen, da die Wahrscheinlichkeit dafür, dass eine stetige Zufallsvariable X einen konkreten Wert x annimmt immer Null ist. Es gilt also: \(f\left( x \right) \ne P\left( {X = x} \right)\)
- Verteilungsfunktion F(x): \(F\left( x \right) = P\left( {X \leqslant x} \right) = \int\limits_{ - \infty }^x {f\left( t \right)\,\,dt} \)
- Auf der y-Achse der Verteilungsfunktion kann man die Wahrscheinlichkeit \(P\left( {X \le {x_1}} \right)\) ablesen, höchstens den Wert x1 zu erreichen.
Diskrete Zufallsvariable
Die Anzahl der Ergebnisse des Zufallsexperiments ist endlich / abzählbar. Eine diskrete Zufallsvariable ist durch die Angabe ihres Wertebereichs \({x_1},{x_2},...,{x_n}\) und den Einzelwahrscheinlichkeiten fur das Auftreten von jedem Wert des Wertebereichs, also \(P\left( {X = {x_1}} \right) = {p_1},\,\,\,P\left( {X = {x_2}} \right) = {p_2},...P\left( {X = {x_n}} \right) = {p_n}\) vollständig definiert. Man spricht von der Wahrscheinlichkeitsfunktion, welche es nur für diskrete Zufallsvariablen gibt. (Bei stetigen Zufallsvariablen gibt es entsprechend die Dichtefunktion.)
Spezielle Verteilungen diskreter Zufallsvariabler sind
- Bernoulli-Verteilung
- Binomialverteilung (mit Zurücklegen)
- Poissonverteilung
- hypergeometrische Verteilung (ohne Zurücklegen)
Wahrscheinlichkeitsfunktion
Die Wahrscheinlichkeitsfunktion, welche es nur für diskrete Zufallsvariablen gibt, beschreibt eine diskrete Wahrscheinlichkeitsverteilung, indem sie jedem \(x \in {\Bbb R}\) einer Zufallsvariablen X genau eine Wahrscheinlichkeit P aus dem Intervall \(\left[ {0;1} \right]\) zuordnet.
\(f:x \to p\)
\(f:x \to \left\{ {\begin{array}{*{20}{l}} {P\left( {X = {x_i}} \right)}&{für\,\,x = {x_i}}\\ 0&{für\,\,\,x \ne {x_i}} \end{array}} \right.\)
Funktionsgraph der Wahrscheinlichkeitsfunktion
Im Funktionsgraph der Wahrscheinlichkeitsverteilung werden über jedem (diskreten) Wert x die jeweilige Wahrscheinlichkeit P(X=x) dargestellt, wobei die einzelnen Wahrscheinlichkeiten P(X=x) mit Hilfe der Laplace-Wahrscheinlichkeit berechnet werden. Im Stabdiagramm wird über jedem (diskreten) Wert x ein Stab (dünner Balken) aufgetragen, dessen Höhe der jeweilige Wahrscheinlichkeit P(X=x) entspricht.
Verteilungsfunktion
Die Verteilungsfunktion einer diskreten Zufallsvariablen, auch kumulative Verteilfunktion genannt, gibt die Wahrscheinlichkeit dafür an, dass die Zufallsvariable X höchstens den Wert x annimmt.
\(F\left( x \right) = P\left( {X \leqslant x} \right)\)
Sie ist eine monoton steigende Treppenfunktion mit Sprüngen an den Stellen xi und daher nicht stetig. Geometrisch entspricht die Wahrscheinlichkeit P(X=x) der Sprunghöhe der Verteilungsfunktion F(x) an der Stelle x.
F(x) ist für jedes x definiert und nimmt Werte von mindestens 0 bis höchstens 1 an.
\(\eqalign{ & \mathop {\lim }\limits_{x \to - \infty } F(x) = 0 \cr & \mathop {\lim }\limits_{x \to \infty } F(x) = 1 \cr} \)
Darüber hinaus gilt:
\(\eqalign{ & P\left( {X \geqslant x} \right) = 1 - P\left( {X < x} \right) \cr & P\left( {X > x} \right) = 1 - P\left( {X \leqslant x} \right) \cr} \)
Mittelwert einer Vollerhebung bzw. einer Stichprobe
Der arithmetische Mittelwert bezieht sich immer auf die grundsätzlich abzählbare Anzahl n an Durchgängen eines Zufallsexperiments. Er ist definiert als die Summe aller beobachteten Werte dividiert durch die Anzahl der beobachteten Werte.
\(\overline x = \dfrac{1}{n} \cdot \sum\limits_{i = 1}^n {{x_i}} \)
Unterschied Mittelwert und Erwartungswert
Wiederholt man das Zufallsexperiment unendlich oft, geht also \(n \to \infty \), so wird aus dem Mittelwert der Erwartungswert.
Erwartungswert
Der Erwartungswert einer diskreten Zufallsvariablen X, welche die diskreten Werte x1, x2, ..., xn mit den zugehörigen Wahrscheinlichkeiten P(X=x1), P(X=x2), ... P(X=xn) annimmt, errechnet sich aus der Summe der Produkte vom jeweiligen Wert xi und seiner Wahrscheinlichkeit P(X=xi). Merkregel: "Was passiert" mal "mit welcher Wahrscheinlichkeit passiert es".
\(E\left( X \right) = \mu = {x_1} \cdot P\left( {X = {x_1}} \right) + {x_2} \cdot P\left( {X = {x_2}} \right) + ... + {x_n} \cdot P\left( {X = {x_n}} \right) = \sum\limits_{i = 1}^n {{x_i} \cdot P\left( {X = {x_i}} \right)} \)
mit: \(P\left( E \right) = \frac{{{\text{Anzahl günstige Fälle}}}}{{{\text{Anzahl möglicher Fälle}}}}\)
Der Erwartungswert ist ein Maß für die mittlere Lage der Verteilung, und somit ein Lageparameter der beschreibenden Statistik.
- Ist die Wahrscheinlichkeit für jeden Versuch die selbe (z.B. bei binomialverteilten Experimenten), dann ist der Erwartungswert gleich dem arithmetischen Mittel.
- Ist die Wahrscheinlichkeit für jeden Versuch unterschiedlich , dann ist der Erwartungswert gemäß obiger Formel ein gewichtetes arithmetisches Mittel.
Erwartungswert für den Fall dass die diskrete Verteilung eine Binomialverteilung ist,
die nur zwei Werte (Erfolg / Misserfolg) annehmen kann und deren Trefferwahrscheinlichkeit immer p ist:
\(E\left( X \right) = n \cdot p\)
Physikalische Analogie
- Physikalisch entspricht der Erwartungswert dem Schwerpunkt. Man muss sich dabei die Massen R(X=xi) an den Positionen xi entlang vom Zahlenstrahl x platziert vorstellen.
- Physikalisch entspricht die Varianz dem Trägheitsmoment, wenn man den oben beschriebenen Zahlenstrahl um eine Achse dreht, die senkrecht auf den Zahlenstrahl steht und die durch den Schwerpunkt verläuft.
Varianz
Die Varianz einer diskreten Zufallsvariablen ist die mittlere quadratische Abweichung der Zufallsvariablen von ihrem Erwartungswert und somit ein Streumaß der beschreibenden Statistik.
\({\sigma _x}^2 = Var\left( X \right) = {\sum\limits_{i = 1}^n {\left( {{x_i} - E\left( x \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right)\)
Verschiebungssatz
Der Verschiebungssatz für diskrete Zufallsvariablen kann den Rechenaufwand für die Berechnung der Varianz verringern, es kann aber zum Verlust von Rechengenauigkeit kommen.
\({\sigma _x}^2 = Var\left( X \right) = E\left( {{X^2}} \right) - E{\left( X \right)^2} = \sum\limits_{i = 1}^n {{x_i}^2 \cdot P\left( {X = {x_i}} \right) - E{{\left( X \right)}^2}} \)
Standardabweichung
Die Varianz hat den Nachteil, als Einheit das Quadrat der Einheit der zugrunde liegenden Zufallsvariablen zu haben. Das ist bei der Standardabweichung (auf Grund der Quadratwurzel) und beim Erwartungswert nicht der Fall.
\({\sigma _x} = \sqrt {Var\left( X \right)} \)
Physikalische Analogie für den Erwartungswert und für die Varianz:
- Physikalisch entspricht der Erwartungswert dem Schwerpunkt. Man muss sich dabei die Massen R(X=xi) an den Positionen xi entlang vom Zahlenstrahl x plaziert vorstellen.
- Physikalisch entspricht die Varianz dem Trägheitsmoment, wenn man den oben beschriebenen Zahlenstrahl um eine Achse dreht, die senkrecht auf den Zahlenstrahl steht und die durch den Schwerpunkt verläuft
Illustration zur Veranschaulichung einer kleinen Varianz:
\(\eqalign{ & {x_1} = 3;\,\,\,\,\,{x_2} = 4;\,\,\,\,\,{x_3} = 5; \cr & P\left( {{x_1}} \right) = 0,2;\,\,\,\,\,P\left( {{x_2}} \right) = 0,6;\,\,\,\,\,P\left( {{x_3}} \right) = 0,2; \cr & E(X) = \mu = \sum\limits_{i = 1}^3 {{x_i} \cdot P\left( {X = {x_i}} \right)} = 3 \cdot 0,2 + 4 \cdot 0,6 + 5 \cdot 0,2 = 4 \cr & Var(X) = {\sum\limits_{i = 1}^3 {\left( {{x_i} - E\left( X \right)} \right)} ^2} \cdot P\left( {X = {x_i}} \right) = {\left( {3 - 4} \right)^2} \cdot 0,2 + {\left( {4 - 4} \right)^2} \cdot 0,6 + {\left( {5 - 4} \right)^2} \cdot 0,2 = 0,4 \cr} \)
Alternativ errechnet sich die Varianz unter Zuhilfenahme vom Verschiebungssatz wie folgt:
\(Var(X) = \sum\limits_{i = 3}^3 {{x_i}^2 \cdot P\left( {X = {x_i}} \right)} - {\left( {E\left( X \right)} \right)^2} = {3^2} \cdot 0,2 + {4^2} \cdot 0,6 + {5^2} \cdot 0,2 - {4^2} = 0,4\)
Illustration zur Veranschaulichung einer großen Varianz mit dem gleichen Erwartungswert: