Metryka probabilistyczna

Z Wikipedii

Masz nowe wiadomości (różnica z poprzednią wersją).

Metryka probabilistyczna to funkcja definiująca odległość pomiędzy zmiennymi bądź wektorami losowymi.

Spis treści

1 Metryka probabilistyczna zmiennych losowych
- 1.1 Przykład: ciągłe zmienne losowe o rozkładzie normalnym (NN)
- 1.2 Przykład: ciągłe zmienne losowe o rozkładzie jednorodnym (RR)
2 Metryka probabilistyczna wektorów losowych
3 Metryka probabilistyczna wektorów losowych - forma euklidesowa
4 Linki zewnętrzne

[edytuj] Metryka probabilistyczna zmiennych losowych

Metrykę probabilistyczną D pomiędzy dwiema zmiennymi losowymi X i Y można zdefiniować jako:

$D(X, Y) = \int_{-\infty}^\infty \int_{-\infty}^\infty |x-y|F(x, y) \, dx\, dy$ ,

gdzie F(x, y) oznacza łączną gęstość prawdopodobieństwa zmiennych losowych X i Y. Oczywiście jeżeli X i Y są od siebie niezależne, powyższe równanie przechodzi w:

$D(X, Y) = \int_{-\infty}^\infty \int_{-\infty}^\infty |x-y|f(x)g(y) \, dx\, dy$

gdzie f(x) i g(y) oznaczają odpowiednie funkcje gęstości prawdopodobieństwa zmiennych X i Y.

Można wykazać, że taka metryka probabilistyczna nie spełnia pierwszego warunku metryki, lub też spełnia go wtedy i tylko wtedy, jeżeli oba jej argumenty to zmienne pewne opisywane funkcją gęstości prawdopodobieństwa typu delty Diraca. W takim przypadku:

$D_{\delta\delta}(X, Y) = \int_{-\infty}^\infty \int_{-\infty}^\infty |x-y|\delta(x-\mu_x)\delta(y-\mu_y) \, dx\, dy = |\mu_x-\mu_y|$

metryka probabilistyczna zwyczajnie przechodzi w metrykę pomiędzy wartościami średnimis $μ x$ , $μ y$ zmiennych X i Y i oczywiście:

$D_{\delta\delta}(X, X) = \int_{-\infty}^\infty \int_{-\infty}^\infty |x-x'|\delta(x-\mu_x)\delta(x'-\mu_x) \, dx\, dx' = |\mu_x-\mu_x| = 0$ .

We wszystkich pozostałych przypadkach:

$D\left(X, X\right) > 0.$

Metryka probabilistyczna pomiędzy dwiema zmiennymi losowymi X i Y o normalnych rozkładach gęstości prawdopodobieństwa i tym samym odchyleniu standardowym

σ = 0,σ = 0.2,σ = 0.4,σ = 0.6,σ = 0.8,σ = 1

(poczynając od krzywej u dołu).

m x y = | μ x - μ y |

oznacza odległość pomiędzy wartościami oczekiwanymi zmiennych X i Y.

[edytuj] Przykład: ciągłe zmienne losowe o rozkładzie normalnym (NN)

Jeżeli oba rozkłady zmiennych losowych X i Y to rozkłady normalne (N) o tym samym odchyleniu standardowym $σ$ , całkowanie $D\left(X, Y\right)$ prowadzi do:

$D_{NN}(X, Y) = \mu_{xy} + \frac{2\sigma}{\sqrt\pi}\operatorname{exp}\left(-\frac{\mu_{xy}^2}{4\sigma^2}\right)-\mu_{xy} \operatorname{erfc} \left(\frac{\mu_{xy}}{2\sigma}\right)$

gdzie:

$\mu_{xy} = \left|\mu_x-\mu_y\right|$ ,

a $\operatorname{erfc}(x)$ jest uzupełniająca funkcją błędu.

W tym przypadku "wartość zerowa" metryki $D N N (X, Y)$ wynosi:

$\lim_{\mu_{xy}\to 0} D_{NN}(X, Y) = D_{NN}(X, X) = \frac{2\sigma}{\sqrt\pi}.$

[edytuj] Przykład: ciągłe zmienne losowe o rozkładzie jednorodnym (RR)

Gdy obie zmienne X and Y określa rozkład jednostajny (R) o tym samym odchyleniu standardowym $σ$ , całkowanie $D\left(X, Y\right)$ prowadzi do:

$D_{RR}(X, Y) = \begin{cases} \frac{24\sqrt{3}\sigma^3-\mu_{xy}^3+6\sqrt{3}\sigma\mu_{xy}^2}{36\sigma^2}, & \mu_{xy}<2\sqrt{3}\sigma \\ \mu_{xy}, & \mu_{xy} \ge 2\sqrt{3}\sigma \end{cases}$

Minimalna wartość metryki probabilistycznej tego typu wynosi:

$D_{RR}(X, X) = \frac{2\sigma}{\sqrt{3}}$ .

[edytuj] Metryka probabilistyczna wektorów losowych

powierzchnia równej odległości dla metryki euklidesowej $d^{2}(\mathbf{x},\mathbf{0}), \left(\mathbf{x,0}\right) \in \mathbb{R}^2$

powierzchnia równej odległości dla metryki probabilistycznej metryki euklidesowej $D_{R\delta}^{2}(\mathbf{X},\mathbf{0}), \left(\mathbf{X,0}\right): \Omega \to \mathbb{R}^2$

Metrykę probabilistyczną zmiennych losowych można rozszerzyć na metrykę D(X, Y) wektorów losowych X, Y podstawiając w miejsce $| x - y |$ dowolny operator metryki d(x,y):

$D(\mathbf{X}, \mathbf{Y}) =\int_{\Omega} \int_{\Omega} d(\mathbf{x}, \mathbf{y})F(\mathbf{x}, \mathbf{y}) \, d\Omega_x \, d\Omega_y$

gdzie F(X, Y) oznacza łączną gęstość prawdopodobieństwa wektorów losowych X and Y. Na przykład podstawiając w miejsce d(x,y) metrykę euklidesową i przy założeniu, że wektory X i Y są wzajemnie niezależne otrzymamy:

$D(\mathbf{X}, \mathbf{Y}) =\int_{\Omega} \int_{\Omega} \sqrt{\sum_i|x_i-y_i|^2} F(\mathbf{x})G(\mathbf{y}) \, d\Omega_x \, d \Omega_y$

gdzie $F(\mathbf{x})$ i $G(\mathbf{y})$ to wielowymiarowe rozkłady gęstości prawdopodobieństwa wektorów np. wielowymiarowe rozkłady normalne.

[edytuj] Metryka probabilistyczna wektorów losowych - forma euklidesowa

Jeżeli wektory X i Y są nie tylko wzajemnie niezależne, ale także poszczególne składowe każdego z nich są statystycznie niezależne, metrykę probabilistyczną wektorów losowych można także zdefiniować jako:

$D^{(p)}(\mathbf{X}, \mathbf{Y}) = \left( {\sum_i{D_{**}(X_i, Y_i)}^p} \right)^{\frac1p}$

gdzie:

D * * (X i, Y i)

jest szczególną formą metryki probabilistycznej zmiennych losowych dobraną w zależności od rozkładów poszczególnych składowych $X i$ , $Y i$ wektorów X, Y.