prawdopodobieństwo warunkowe

Prawdopodobieństwo warunkowe czyli jakie są szanse, że losowa osoba ma na imię Marian gdy wiemy, że jest kobietą

Państwo Kowalscy mają dwoje dzieci. Wiemy jedynie, że któreś z ich dzieci to dziewczynka. Jakie są szanse na to, że i drugie to dziewczynka? Wydaje się oczywiste, że 1/2. No właśnie nie…

Zapewne zdziwi to niejednego, kto nie miał zbyt wiele do czynienia z prawdopodobieństwem warunkowym, ale odpowiedź na zagadkę ze wstępu wcale nie jest równa 1/2, lecz 1/3. Oczywiście przy założeniu, że szanse na to, że losowo wybrane dziecko jest dziewczynką są takie same jak, że jest chłopcem. W rzeczywistości założenie to jest tylko przybliżeniem rzeczywistości, gdyż chłopców rodzi się ciut więcej i jest to ogólny trend. Nieco więcej o statystykach płci dzieci można poczytać w tym miejscu. Z kolei kobiety przeciętnie żyją dłużej i liczbowo jest ich więcej. Ponieważ celem tego wpisu jest opis pojęcia jakim jest prawdopodobieństwo warunkowe, to założenie, że szanse na chłopca (jak i na dziewczynkę) są równe 1/2 wystarczy w zupełności.

Żeby dokładnie zrozumieć rozwiązanie wspomnianego zadania, musimy wpierw opowiedzieć sobie o tym czym jest prawdopodobieństwo warunkowe. W skrócie, jest to prawdopodobieństwo zajścia pewnego zdarzenia w sytuacji gdy wiemy, że jakieś inne zdarzenie zaszło. Lub, nieco mniej ściśle, gdy posiadamy jakąś wiedzę odnośnie zdarzenia, które nas interesuje.

Prawdopodobieństwo warunkowe jest jednym z ważniejszych pojęć rachunku prawdopodobieństwa i nie będzie przesadą jeśli powiemy, że jednym z najważniejszych pojęć matematycznych jakie poznajemy w szkole. Jest szeroko stosowane w różnego rodzaju badaniach naukowych czy też przez towarzystwa ubezpieczeniowe do wyliczania wielkości składek. Testom stosowanym w medycynie przypisuje się takie parametry jak czułość oraz swoistość, które są niczym jak innym jak pewnymi prawdopodobieństwami warunkowymi. Zrozumienie tego pojęcia pozwala unikać wielu błędnych wniosków do jakich można dojść np. prowadząc jakieś badania. Jest ono również dobrym narzędziem do różnych manipulacji. Dobre przykłady to klasyczny błąd rozumowania prokuratorskiego czy paradoks Berksona.

Spójrzmy na prosty przykład pokazujący jak wiedza o zdarzeniu wpływa na prawdopodobieństwo. Rozważmy rzut tzw. uczciwą kostką, tj. taką, że z góry zakładamy iż szanse na wypadnięcie każdej liczby oczek są równe 1/6.

rzut kostką

W szczególności, szanse na to, że wypadnie jedynka są równe właśnie 1/6. Jeżeli natomiast wiemy, że wypadła nieparzysta liczba oczek, to prawdopodobieństwo wypadnięcia owej jedynki już będzie inne. Wiedza ta sprawiła, że jedynymi możliwymi wynikami są 1, 3 oraz 5.

prawdopodobieństwo warunkowe

Zatem szanse na jedynkę wzrosły do 1/3.

Każde doświadczenie losowe ma zbiór możliwych wyników, zwyczajowo oznaczanych \(\Omega\). Ową omegę możemy również utożsamiać z pewną populacją np. ludzi mieszkających w Polsce. Każde zdarzenie jest, z matematycznego punktu widzenia, pewnym zbiorem \(A\subseteq\Omega\). Zbiór ten może być pewną podpopulacją np. ludzi mieszkających w Polsce o imieniu Marian.

Jak wiemy, \(P(\Omega)=1\) oraz \(0\leqslant P(A)\leqslant 1\). Można więc powiedzieć, w języku zbiorów, że liczbowo \(P(A)\) to ta część zbioru \(\Omega\) jaką zajmuje zbiór \(A\). Lub, mówiąc w języku populacji, liczba \(P(A)\) jest tą częścią całej populacji \(\Omega\), którą stanowi podpopulacja \(A\). W tym przypadku mamy \[P(A)=\dfrac{|A|}{|\Omega|},\] gdzie \(|A|\) oznacza liczbę osób w populacji \(A\).

Z prawdopodobieństwem warunkowym mamy do czynienia, gdy wiemy (lub zakładamy) że zaszło pewne zdarzenie, nazwijmy je \(B\). Ewentualnie, gdy ograniczamy swoje rozważania do jakiegoś podzbioru/podpopulacji \(B\) (np. osób płci żeńskiej). Oznacza to, że teraz zbiorem możliwych zdarzeń nie jest już \(\Omega\), lecz \(B\). Zerknijmy na dwa rysunki.

prawdopodobieństwo

Część jasnozielona (niech to będzie zdarzenie \(A\)) stanowi połowę całości. Wobec tego \(P(A)=0,5\). Jeżeli wiemy lub zakładamy, że zaszło zdarzenie \(B\), to może mieć to istotny wpływ na prawdopodobieństwo zdarzenia \(A\).

prawdopodobieństwo warunkowe

Zbiór możliwych wyników został ograniczony do zbioru \(B\). Na rysunku widać, że ta część zbioru \(A\), która znajduje się w \(B\) (tj. \(A\cap B\)) jest mniejsza niż połowa \(B\). Wobec tego zajście zdarzenia \(B\) zmniejsza szanse na zajście zdarzenia \(A\). Lub mówiąc bardziej matematycznie prawdopodobieństwo warunkowe \(P(A|B)\) zdarzenia \(A\) pod warunkiem \(B\) jest mniejsze niż 1/2, tj. \[P(A|B)\lt\frac{1}{2}\]

Przykład z kostką oraz rysunek uzasadniają sposób w jaki liczymy prawdopodobieństwo warunkowe, tj. \[P(A|B)=\frac{P(A\cap B)}{P(B)}.\] Żeby wzór ten miał sens, to naturalnie musi zachodzić \(P(B)\gt 0\).

Wróćmy teraz do naszego zadania z dziećmi. Państwo Kowalscy mają ich dwoje. Wobec tego są cztery możliwości na to jak rozkładają się płcie tychże dzieci: \[\{(D,D),(D,C), (C,D), (C,C)\}.\] Niektórzy mogliby stwierdzić, że możliwości \((D,C)\) oraz \((C,D)\) to jedna i ta sama możliwość. Nie jest to prawdą. Dzieci jest dwoje i każde z nich może być albo dziewczynką albo chłopcem. Nawet jeśli, z naszego punktu widzenia, dzieci są nieodróżnialne, to jest to dwójka różnych dzieci!

Warunek, że któreś z dzieci to dziewczynka oznacza, że co najmniej jedno z dzieci jest dziewczynką. Nie wiemy które konkretnie. A pamiętajmy, że mamy dwójkę różnych dzieci. Każde z nich może być dziewczynką. Ta informacja sprawia, że odpada możliwość \((C,C)\). Zostają więc trzy opcje \[\{(C,D), (D,C), (D,D)\}.\] Czyli szanse na to, że i drugie dziecko jest dziewczynką (czyli opcja \((D,D)\)) wynoszą 1/3, a nie 1/2!

Rozważmy jeszcze dwa dodatki do treści naszego zadania. Frazę

…któreś z ich dzieci to dziewczynka.

zamieńmy na (1 przypadek)

…starsze z dzieci to dziewczynka.

albo na (2 przypadek)

…jedno z dzieci to dziewczynka o imieniu Marian.

Czy informacja, że starsze dziecko to dziewczynka coś zmienia? Otóż zmienia wszystko diametralnie! Informacja ta jednoznaczne identyfikuje jedno z dzieci! Dzięki niej wiemy, które konkretnie dziecko jest dziewczynką, a nie jak poprzednio, że któreś. To sprawia, że mamy teraz dwie możliwości: młodsze dziecko to albo dziewczynka albo chłopiec. Czyli teraz szanse na to, że drugie (czyli młodsze) dziecko jest dziewczynką wynoszą 1/2 a nie 1/3 jak poprzednio.

Zanim przejdziemy do przypadku drugiego, to mała dygresja. Zauważmy, że drugie dziecko państwa Kowalskich jest konkretnym dzieckiem, mającym konkretną płeć. Zatem w rzeczywistości szanse na to, że jest ono dziewczynką są równe albo 0 albo 1, zależnie od prawdziwej płci. My jednak tej wiedzy nie mamy. Nasze rozważania dotyczą stworzonego przez nas modelu tej sytuacji. Pokazuje to, że rachunek prawdopodobieństwa dotyczy modeli opisujących rzeczywistość, a nie samej rzeczywistości!

Przejdźmy teraz do Mariana. Może się wydawać, że skoro jest to imię typowo męskie, to nie ma żadnej dziewczyny/kobiety o tym imieniu. No i tu niespodzianka! Wg danych na stronie dane.gov.pl w rejestrze PESEL na dzień 24.01.2022 (mówimy o osobach żyjących) znajdowało się 16 osób płci pięknej o tym imieniu!

Tworząc model naszej sytuacji musimy teraz wziąć pod uwagę również imię. Możemy przyjąć następujący zbiór możliwości jeśli chodzi o płcie dzieci państwa Kowalskich: \[\{(DM,C),(C,DM),(DM,DM),(DM,DNM),(DNM,DM)\},\] gdzie:

  • \(DM\) – dziewczynka o imieniu Marian,
  • \(DNM\) – dziewczynka o innym imieniu niż Marian,
  • \(C\) – chłopiec.

Tym razem jednak, wszystkie możliwości nie są równoprawdopodobne. Rodzice mający dwójkę dzieci raczej nie nadają im takich samych imion, a tym bardziej gdy są to dziewczynki o imieniu Marian. Możemy więc założyć, że szanse na opcję \((DM,DM)\) są zerowe. Należy jednak pamiętać, że to tylko założenie. Nie mamy stuprocentowej pewności, że jest prawdziwe. Pominąwszy \((DM, DM)\), pozostałe możliwości możemy uznać za równoprawdopodobne, więc szanse na to, że drugie dziecko jest dziewczynką wynoszą w zasadzie 1/2. Choć biorąc pod uwagę przyjęte uproszenie wypada raczej napisać \[P(DD|DM1)\approx\frac{1}{2},\] gdzie

  • \(DD\) – oboje dzieci to dziewczynki
  • \(DM1\) – jedno z dzeci to dziewczynka o imieniu Marian,

Gdybyśmy zamiast Mariana wzięli pod uwagę inne, znacznie popularniejsze imię (np. Ania), to niekoniecznie moglibyśmy z taką łatwością uprościć nasz model.

Warto wspomnieć, że osób we wspomnianym rejestrze PESEL jest 41 662 197 w tym 21 270 606 kobiet, a 20 391 591 to mężczyźni. Zaś Marianów łącznie jest 139 119. Zatem szanse na to, że losowa wybrana osoba jest Marianem wynoszą \[\dfrac{139119}{41662197}\approx 0,0033392.\]
Zaś szanse na to, że ta osoba ma na imię Marian pod warunkiem, że jest kobietą są równe \[\dfrac{16}{21270606}\approx 0,000000752212\]

\(\)
\(\)

Odpowiedz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *