Rozkłady prawdopodobieństwa

Rozkład lub rozkład prawdopodobieństwa zmiennej losowej mówi nam, jak prawdopodobne jest, że zmienna losowa będzie miała określoną wartość.

Rozkład zmiennej dyskretnej

Załóżmy pewną dyskretną zmienną losową, na przykład możemy śledzić, ile kufli piwa wypija lokalny pijak, Bambula, w ciągu dnia. Śledząc Bamboula przez cały miesiąc, stworzyliśmy następującą tabelę:

Dzień Pint piwa Dzień Kufle piwa Dzień Kufle piwa
1. 5 11. 10 21. 4
2. 10 12. 5 22. 6
3. 4 13. 12 23. 10
4. 4 14. 10 24. 10
5. 5 15. 12 25. 4
6. 4 16. 12 26. 5
7. 0 17. 6 27. 10
8. 5 18. 10 28. 5
9. 4 19. 6 29. 0
10. 5 20. 10 30. 10

Widać, że Bambula oszczędzał się jeszcze przed końcem miesiąca, ale potem rzucał jedno piwo za drugim. A tydzień od 11 dnia musiał być szalony. Oznaczmy tę losową zmienną dyskretną X. Teraz będziemy zainteresowani prawdopodobieństwem, że Bamba wypije dokładnie x kufli piwa w dowolnym dniu miesiąca.

Zanim obliczymy samo prawdopodobieństwo, skonstruujmy prosty wykres częstotliwości. Znajdziemy wszystkie kufle piwa, które Bambula wypił w danym dniu i naniesiemy je na wykres częstotliwości. Na przykład, Bambula wypił dziesięć kufli w sumie dziewięć razy, więc dla wartości dziesięciu kufli otrzymamy słupek o wartości dziewięć:

Z wykresu wynika, że Bambus wypił sześć kufli w trzy dni w miesiącu.

Jakie jest prawdopodobieństwo, że Bambula wypił dziesięć kufli w ciągu jednego dnia? Formalnie zapisalibyśmy to w następujący sposób: oznaczylibyśmy funkcję prawdopodobieństwa P i zapisalibyśmy zapytanie o dziesięć kufli w następujący sposób: P(X = 10) To zapytanie brzmi: jakie jest prawdopodobieństwo, że zmienna losowa X przyjmie wartość dziesięć?

Prawdopodobieństwo będzie równe względnej częstotliwości danej wartości. Skonstruujmy więc wykres względnej częstotliwości:

Możemy teraz powiedzieć, że P(X = 10) jest równe 0,3, czyli 30%.

Prawdopodobieństwo statystyczne a matematyczne

Jako przykład weźmy klasyczną grę w kości. Spróbujmy rzucić nią 600 razy. W kategoriach klasycznego prawdopodobieństwa matematycznego mamy równe szanse na wyrzucenie jedynki, dwójki, ..., szóstki. Każda ścianka kostki ma prawdopodobieństwo wyrzucenia $\frac16$. Tak więc, czysto teoretycznie, każda ścianka powinna wypaść dokładnie 100 razy, gdy rzucimy kostką sześćset razy.

Oczywiście jest to mało prawdopodobne. W naszym eksperymencie możemy uzyskać następujące wyniki:

Liczba na kostce Liczba rzutów Względna częstotliwość
1 105 0.175
2 103 0.171666
3 90 0.15
4 96 0.16
5 100 0.16666
6 106 0.17666

Widzimy, że względna częstotliwość, a zatem prawdopodobieństwo wystąpienia pojedynczej kropki na kostce wynosi 0,175, czyli 17,5%. Chociaż jest to bliskie prawdopodobieństwu $\frac16$, które wynosi 0,16666…, nie jest ono całkowicie dokładne.

Nie oznacza to jednak, że którekolwiek prawdopodobieństwo jest błędne. Skonstruowanie idealnie zbalansowanej kości nie jest łatwym zadaniem, podobnie jak trudne może być wykonanie rzeczywistego testu polegającego na rzuceniu kością 600 razy.

Tak więc prawdopodobieństwo matematyczne działa w idealnych warunkach, w których rzucamy kostką w nieskończoność. Im dłużej rzucamy idealnie wyważoną kostką, tym bardziej względna częstotliwość każdego rzutu zbliża się do teoretycznego prawdopodobieństwa matematycznego.

Rozróżniamy zatem dwa prawdopodobieństwa - prawdopodobieństwo matematyczne, które opiera się na wyidealizowanych warunkach, oraz prawdopodobieństwo statystyczne (również empiryczne), które obliczamy na podstawie względnych częstotliwości w naszych danych.

Aby obliczyć prawdopodobieństwo statystyczne, powinniśmy dysponować wystarczająco dużym zbiorem danych. Na przykład, śledziliśmy naszego pijaka Bambula tylko przez miesiąc, ale byłoby znacznie lepiej, gdybyśmy śledzili go przez co najmniej rok.

Rozkład zmiennej ciągłej

W przypadku zmiennej ciągłej nie określamy prawdopodobieństwa w punkcie, ale zawsze tylko w przedziale. Prawdopodobieństwo będzie równe wielkości obszaru pod krzywą, więc do jego obliczenia będziemy potrzebować całki. Możemy mieć taki wykres zmiennej ciągłej, na przykład może to być pomiar pewnej zmienności w cm:

Rozkład prawdopodobieństwa zmiennej ciągłej

Tak więc na osi x mamy wartości w cm, na osi y mamy względne częstotliwości. Załóżmy, że zmierzyliśmy tylko wartości w przedziale <−4, 4>. Prawdopodobieństwo empiryczne, że zmierzymy odchylenie w tym przedziale wynosi zatem 1, czyli 100%.

Jak ma się do tego obszar? Mówimy, że rozmiar obszaru $\int_{-4}^4 p(x)$, gdzie p jest funkcją prawdopodobieństwa, daje nam właśnie te 100%. Gdybyśmy zapytali, jakie jest empiryczne prawdopodobieństwo, że wartość znajduje się w przedziale <0, 4>, otrzymalibyśmy następujący obraz:

Znázornění empirické pravděpodobnosti pro x \in \left<0, 4\right>

poprzednia podświetlona część odpowiadała 100%, ta odpowiada 50%, bo zawartość jest oczywiście o połowę mniejsza. Dokładnie rzecz biorąc, prawdopodobieństwo statystyczne wyrazilibyśmy jako stosunek

$$ \frac{\int_{-4}^4 p(x)}{\int_{0}^4 p(x)}. $$

Prawo wielkich liczb

Z poprzednią sekcją związane jest dobrze znane prawo wielkich liczb. Nieformalnie stwierdza ono, że biorąc pod uwagę dużą liczbę niezależnych prób, prawdopodobieństwo statystyczne będzie zbliżone do względnych częstotliwości.

Możemy to sobie wyobrazić na przykładzie rzutu monetą. Może wypaść orzeł lub reszka, a prawdopodobieństwo dla każdej ze stron wynosi $\frac12$, 50%. Jeśli rzucimy monetą cztery razy, trzy razy może wypaść orzeł, a raz reszka. Względne częstotliwości wynoszą zatem $\frac34$ i $\frac14$. Jest to dość dalekie od $\frac12$.

Jeśli rzucimy monetą dziesięć razy, możemy otrzymać siedem orzełków i trzy reszki. Są to częstotliwości $\frac{7}{10}$ i $\frac{3}{10}$. To wciąż daleko od $\frac12$, ale liczby te są wciąż bliższe połowie niż poprzednie częstotliwości.

Moglibyśmy kontynuować w ten sposób. Gdybyśmy rzucili monetą tysiąc razy, otrzymalibyśmy 520 razy "orzeł" i 480 razy "reszka". To już są częstotliwości $\frac{13}{25}$ i $\frac{12}{25}$, które są bardzo zbliżone do połowy ( $\frac{13}{25} = 0,52$).

Należy zauważyć, że chociaż względne częstotliwości są znacznie bliższe połowie, bezwzględne częstotliwości są znacznie bardziej oddalone od "idealnej" częstotliwości. Gdy rzuciliśmy kostką dziesięć razy, idealna częstotliwość bezwzględna dla każdej strony wynosiła 5. Oznacza to, że otrzymalibyśmy pięć orzełków i pięć reszek. Ponieważ rzuciliśmy dziewicą siedem razy, daje nam to różnicę dwóch rzutów: 7 − 5 = 2 Wyrzuciliśmy "dwa rzuty inaczej" niż miałoby to miejsce w idealnej sytuacji.

Jednak gdy rzuciliśmy monetą 1000 razy, 520 razy wypadła reszka, co daje różnicę 20 rzutów od ideału, ponieważ w idealnej sytuacji każda strona powinna wypaść 500 razy. Wydawałoby się więc, że im więcej razy rzucamy monetą, tym bardziej odległe wyniki otrzymujemy.

Ale to nie ma znaczenia, prawo wielkich liczb nie twierdzi, że bezwzględne częstotliwości będą zbliżać się do ideału, ale względne częstotliwości będą. I są coraz bliżej. Tak więc w częstotliwościach bezwzględnych mogą się oddalać, ale we względnych będą się zbliżać.

Linki i źródła