Bedingter Erwartungswert

aus Wikipedia, der freien Enzyklopädie

Du hast neue Nachrichten auf deiner Diskussionsseite.

Bedingte Erwartungswerte und bedingte Wahrscheinlichkeiten bezüglich einer Teil-σ-Algebra stellen eine Verallgemeinerung von bedingten Wahrscheinlichkeiten dar. Sie werden unter anderem bei der Formulierung von Martingalen verwendet.

Inhaltsverzeichnis

1 Einleitung
- 1.1 Ein Beispiel
- 1.2 Herleitung aus bedingten Wahrscheinlichkeiten
2 Definition
- 2.1 Beispiele
3 Rechenregeln

[Bearbeiten] Einleitung

[Bearbeiten] Ein Beispiel

Wenn zwei unabhängige standardnormalverteilte Zufallsvariablen $X$ und $Y$ gegeben sind, kann man, ohne lange zu überlegen, den bedingten Erwartungswert der Zufallsvariable $Z = 2 X + Y - 3$ , gegeben $X$ , angeben, d. h. den Wert, den man im Mittel für den Ausdruck $2 X + Y - 3$ erwartet, wenn man $X$ kennt:

E (Z | X) = 2 X - 3

Diese Gleichung wirft jedoch mehrere technische Fragen auf, die generell eine etwas sorgfältigere Vorgehensweise bei der Definition erforderlich machen:

Der Ausdruck $E (Z | X)$ auf der linken Seite ergibt nur Sinn, wenn man $X$ als eine Zufallsvariable auffasst. Man kann z. B. nicht für $X$ den Wert $5$ einsetzen und schreiben $E (Z | 5) = 7$ .
Wenn man $X$ als eine Zufallsvariable auffasst, dann ist notwendigerweise der Ausdruck $2 X - 3$ auf der rechten Seite, der eine Funktion von $X$ ist, ebenfalls eine Zufallsvariable. Der bedingte Erwartungswert ist somit eine Zufallsvariable.
Wenn man eine Zufallsvariable $X'$ durch $X' = 2 X$ definiert, gilt $E (Z | X') = E (X' + Y - 3 | X') = X' - 3 = 2 X - 3$ . Also hängt der bedingte Erwartungswert von $Z$ nicht davon ab, welche Werte die Zufallsvariable in der Bedingung ( $X$ bzw. $X'$ ) annimmt, sondern nur davon, welche Informationen die Werte implizieren. Diese Informationen können durch die von der Zufallsvariable erzeugte Teil-σ-Algebra beschrieben werden, die für $X$ und $X'$ übereinstimmt und die daher für eine allgemeine Definition verwendet werden kann.
Die Gleichung $E (Z | X) = 2 X - 3$ geht davon aus, dass $Y$ für jeden einzelnen Wert von $X$ standardnormalverteilt ist. Tatsächlich könnte man aber auch annehmen, dass $Y$ im Fall $X = 0$ konstant $0$ ist und nur in den übrigen Fällen standardnormalverteilt ist: Da das Ereignis $X = 0$ die Wahrscheinlichkeit $0$ hat, wären $X$ und $Y$ insgesamt immer noch unabhängig und standardnormalverteilt. Man erhielte aber $E (Z | X) = 2 X - 3$ nur noch, wenn $X$ nicht $0$ ist, und sonst $E (Z | X) = 0$ . Das zeigt, dass der bedingte Erwartungswert nicht eindeutig festgelegt ist, und dass es, wenn überhaupt, nur sinnvoll ist, den bedingten Erwartungswert für alle Werte von $X$ simultan zu definieren, da man ihn für einzelne Werte beliebig abwandeln kann.

[Bearbeiten] Herleitung aus bedingten Wahrscheinlichkeiten

In einem Wahrscheinlichkeitsraum $(\Omega, \mathcal{A}, P)$ gibt die bedingte Wahrscheinlichkeit $P (A | B)$ an, wie wahrscheinlich das Ereignis $A$ ist, wenn man Information über das Eintreten von $B$ erhalten hat. Allgemeiner kann man nach der Wahrscheinlichkeit $P(A|\mathcal{B})$ fragen, die angibt, wie wahrscheinlich $A$ ist, wenn man Information über das Eintreten bzw. Nichteintreten einer Menge $\mathcal{B}$ von Ereignissen erhalten hat. Man kann dabei annehmen, dass $\mathcal{B}$ eine σ-Algebra ist, denn die Information über bestimmte Ereignisse impliziert immer auch Information über die von den Ereignissen erzeugte σ-Algebra. Wenn die Information beispielsweise darin besteht, dass man den Wert von Zufallsvariablen $X 1,..., X n$ kennt, dann weiß man, unabhängig vom jeweiligen Wert, über alle Ereignisse der Form $\{(X_1, ..., X_n)\in E\}$ Bescheid, d. h. $\mathcal{B}$ ist in diesem Fall die von den Zufallsvariablen erzeugte σ-Algebra $σ(X 1,..., X n)$ . Die Wahrscheinlichkeit $P(A|\mathcal{B})$ hängt dann davon ab, welchen Wert $X 1,..., X n$ annehmen, oder allgemein, welche Ereignisse von $\mathcal{B}$ eingetreten sind und welche nicht eingetreten sind, d. h. $P(A|\mathcal{B})$ ist eine Funktion von $\omega\in\Omega$ , die messbar bezüglich $\mathcal{B}$ ist. In Analogie zur Fallunterscheidungsformel für die totale Wahrscheinlichkeit ergibt sich für jedes $B\in\mathcal{B}$

$\int_B P(d\omega) \, P(A|\mathcal{B})(\omega) \; = \; P(B \cap A)$ ,

was sich auch schreiben lässt als $E(\mathrm1_B P(A|\mathcal{B})) = E(\mathrm1_B \mathrm1_A)$ , wobei $1 A$ , $1 B$ die Indikatorfunktion von $A$ bzw. $B$ ist.

Dieser Ansatz stellt eine Möglichkeit dar, den Begriff der bedingten Wahrscheinlichkeit $P (A | B)$ zu verallgemeinern. Eine andere Möglichkeit ist, dass man den zur bedingten Wahrscheinlichkeitsverteilung $P(\;\cdot\;|B)$ gehörenden Erwartungswert einer Zufallsvariable $X:\Omega\to\R$ betrachtet. Beide Ansätze werden in der nachfolgenden Definition kombiniert.

[Bearbeiten] Definition

$X$ sei eine Zufallsvariable mit Werten in $[-\infty,+\infty]$ in einem Wahrscheinlichkeitsraum $(\Omega, \mathcal{A}, P)$ , und $\mathcal{B} \subset \mathcal{A}$ sei eine Teil-σ-Algebra.

Eine Zufallsvariable $Y$ mit Werten in $[-\infty,+\infty]$ heißt bedingter Erwartungswert von $X$ bezüglich $\mathcal{B}$ , geschrieben $E(X|\mathcal{B})$ , wenn folgende Bedingungen erfüllt sind:

$Y$ ist messbar bezüglich $\mathcal{B}$ .
Für alle $B \in \mathcal{B}$ , für die $E (1 B Y)$ definiert ist (endlich oder unendlich), gilt $E(\mathrm1_B Y) = E(\mathrm1_B X) \,$ .

Zwei verschiedene bedingte Erwartungswerte von $X$ bezüglich $\mathcal{B}$ unterscheiden sich höchstens auf einer Nullmenge in $\mathcal{B}$ , wodurch sich die einheitliche Schreibweise $E(X|\mathcal{B})$ rechtfertigen lässt.

Ist $\mathcal{B}$ die von Zufallsvariablen $X 1$ , ..., $X n$ erzeugte σ-Algebra $σ(X 1,..., X n)$ , so schreibt man auch $E (X | X 1,..., X n)$ .

Die bedingte Wahrscheinlichkeit eines Ereignisses $A \in \mathcal{A}$ bezüglich $\mathcal{B}$ ist definiert als die Zufallsvariable

$P(A | \mathcal{B}) = E(\mathrm1_A | \mathcal{B})$ .

Da die bedingten Wahrscheinlichkeiten $P(A | \mathcal{B})$ verschiedener Ereignisse $A\in\mathcal{A}$ somit ohne Bezug zueinander definiert sind und nicht eindeutig festgelegt sind, muss $P(\;\cdot\; | \mathcal{B})(\omega)$ im allgemeinen kein Wahrscheinlichkeitsmaß sein. Wenn dies jedoch der Fall ist, d. h. wenn man die bedingten Wahrscheinlichkeiten $P(A | \mathcal{B})$ , $A\in\mathcal{A}$ zu einem stochastischen Kern $π$ von $(\Omega,\mathcal{B})$ nach $(\Omega,\mathcal{A})$ zusammenfassen kann,

$P(A | \mathcal{B})(\omega) = \pi(\omega; A)$ für alle $\omega \in \Omega,\, A \in \mathcal{A}$ ,

spricht man von regulärer bedingter Wahrscheinlichkeit.

Faktorisierung: Der bedingte Erwartungswert $E (X | X 1,..., X n)$ , der als eine Funktion von $ω$ definiert ist, lässt sich auch als eine Funktion von $X 1,..., X n$ darstellen: Es gibt eine messbare Funktion $f$ , so dass

$E(X|X_1, ..., X_n)(\omega) \, = \, f(X_1(\omega), ..., X_n(\omega))$ für alle $\omega \in \Omega$ .

Existenz: Die allgemeine Existenz bedingter Erwartungswerte für integrierbare Zufallsvariablen (Zufallsvariablen, die einen endlichen Erwartungswert besitzen) lässt sich mit dem Satz von Radon-Nikodym zeigen. In der hier angegebenen Definition existiert der bedingte Erwartungswert $E(X|\mathcal{B})$ genau dann, wenn es eine Menge $B\in\mathcal{B}$ gibt, so dass $1 B X$ und $\mathrm1_{B^c} X$ quasiintegrierbar sind, und es gilt dann $E(X|\mathcal{B}) = E(X^+|\mathcal{B}) - E(X^-|\mathcal{B})$ fast überall. (Man könnte auch letzteren Ausdruck für die Definition verwenden, um Fälle wie $E (X | | X | ) = 0$ für eine Cauchy-verteilte Zufallsvariable zu erfassen, würde dann aber inkonsistente Erwartungswerte erhalten.)

Reguläre bedingte Wahrscheinlichkeiten, auch in faktorisierter Form, existieren in polnischen Räumen mit der Borel-σ-Algebra, allgemeiner gilt: Ist $Z$ eine beliebige Zufallsvariable mit Werten in einem polnischen Raum, so existiert eine Version der Verteilung $P(Z\in\,\cdot\,\, | X_1, ..., X_n)$ in der Form eines stochastischen Kerns $π$ :

$P(Z\in\,\cdot\,\, | X_1, ..., X_n)(\omega) \, = \, \pi(X_1(\omega), ..., X_n(\omega) \,; \;\cdot\;)$ für alle $\omega \in \Omega$

[Bearbeiten] Beispiele

Einfache σ-Algebren: Ist $B\in\mathcal{B}$ mit $P (B) > 0$ , und besitzt $B$ außer sich selbst und der leeren Menge keine Teilmengen in $\mathcal{B}$ , so stimmt der Wert von $P(A | \mathcal{B})$ auf $B$ mit der herkömmlichen bedingten Wahrscheinlichkeit überein:

$P(A | \mathcal{B})(\omega) = \frac{P(A \cap B)}{P(B)}$ für alle $\omega \in B$

Rechnen mit Dichten: Ist $f_{X,Y} : (a,b)\times(c,d) \to (0,\infty)$ eine beschränkte Dichte der gemeinsamen Verteilung von Zufallsvariablen $X, Y$ , so ist

$f_{X|Y}(x, y) = {f_{X,Y}(x,y) \over \int_a^b f_{X,Y}(u,y) du}$

die Dichte einer regulären bedingten Verteilung $P(X\in\,\cdot\,\, | Y)$ in der faktorisierten Form.

[Bearbeiten] Rechenregeln

Die Gleichungen sind, soweit nichts anderes angegeben ist, jeweils so zu verstehen, dass die linke Seite genau dann existiert (im Sinne der obigen Definition), wenn die rechte Seite existiert.

Für die triviale σ-Algebra $\mathcal{B} = \{\emptyset,\Omega\}$ ergeben sich einfache Erwartungswerte und Wahrscheinlichkeiten:

$E(X|\mathcal{B})(\omega) = E(X)$ für alle $\omega \in \Omega$

$P(A|\mathcal{B})(\omega) = P(A)$ für alle $\omega \in \Omega$

Ist $X$ unabhängig von $\mathcal{B}$ , so gilt $E(X|\mathcal{B}) = E(X)$ fast überall.

Ist $\mathcal{B} = \mathcal{A}$ oder $X$ messbar bezüglich $\mathcal{B}$ , so gilt $E(X|\mathcal{B}) = X$ fast überall.

Turmeigenschaft: Für Teil-σ-Algebren $\mathcal{C}\subset\mathcal{B}\subset\mathcal{A}$ gilt $E(E(X|\mathcal{B})|\mathcal{C}) = E(X|\mathcal{C})$ und $E(E(X|\mathcal{C})|\mathcal{B}) = E(X|\mathcal{C})$ fast überall.

Es gilt $E(X_1 + X_2 | \mathcal{B}) = E(X_1 | \mathcal{B}) + E(X_2 | \mathcal{B})$ fast überall, wenn $X 1$ oder $X 2$ einen endlichen Erwartungswert besitzt.

Es gilt $E(a X | \mathcal{B}) = a E(X | \mathcal{B})$ fast überall für reelle Zahlen $a \ne 0$ .

Monotonie: Aus $X_1 \le X_2$ folgt $E(X_1 | \mathcal{B}) \le E(X_2 | \mathcal{B})$ fast überall, wenn die bedingten Erwartungswerte existieren.

Monotone Konvergenz: Aus $X_n \uparrow X$ folgt $E(X_n | \mathcal{B}) \uparrow E(X | \mathcal{B})$ fast überall, wenn die bedingten Erwartungswerte existieren und $E(X_1 | \mathcal{B}) > -\infty$ fast überall.

Jensensche Ungleichung: Ist $f : \mathbb{R} \rightarrow \mathbb{R}$ eine konvexe Funktion, so gilt $f(E(X|\mathcal{B})) \le E(f(X)|\mathcal{B})$ fast überall, wenn die bedingten Erwartungswerte existieren.

Ist $Y$ messbar bezüglich $\mathcal{B}$ , so gilt $E(YX|\mathcal{B}) = Y E(X|\mathcal{B})$ fast überall, wenn die bedingten Erwartungswerte existieren. Insbesondere ist $E(Y(X - E(X|\mathcal{B}))) = 0$ fast überall, d. h. der bedingte Erwartungswert $E(X|\mathcal{B})$ ist im Sinne des Skalarprodukts von L²(P) die orthogonale Projektion von $X$ auf den Raum der $\mathcal{B}$ -messbaren Funktionen.

Ist $Y$ messbar bezüglich $\mathcal{B}$ und ist für jedes $y$ im Bild von $Y$ ein Ereignis $A y$ gegeben, so dass $\{(x, y) : x \in A_y\}$ eine messbare Menge ist, dann gilt $P(X \in A_Y | \mathcal{B}) = P(X \in A_y | \mathcal{B}) \,|_{y=Y}$ fast überall, sofern auf der rechten Seite eine reguläre bedingte Verteilung $P(X\in\,\cdot\,\, | \mathcal{B})$ verwendet wird.