Miejsce Odrzańskie to wieś, która stała się znana, bo przez 10 lat rodziły się tam tylko dziewczynki (a było ich 12). Ile dzieci (średnio) musi się urodzić aby urodziło się właśnie tyle dziewczynek z rzędu? W tym wpisie nauczymy się liczyć tego typu prawdopodobieństwa.
Ta niewielka, urokliwa wieś jaką jest Miejsce Odrzańskie, znajduje się w województwie opolskim, w powiecie kędzierzyńsko-kozielskim. W jednym z poprzednich wpisów (link) oszacowaliśmy ile średnio powinno być w Polsce wsi, w których urodziłoby się (a dokładniej nie w nich tylko ich mieszkańcom) co najmniej 12 dziewczynek z rzędu gdybyśmy np. od dzisiaj zaczęli notować w każdej z nich płcie urodzonych dzieci. Okazało się, że Miejsce Odrzańskie aż takie niezwykłe nie jest jak mogłoby się wydawać. Dziś zajmiemy się nieco innym zagadnieniem. Policzymy ile średnio urodzeń musi się zdarzyć aby trafić na taką serię dziewczynek?
Rozwiązując różnorakie problemy matematyczne związane z płcią dzieci przyjmuje się często (zwłaszcza w szkole), że szanse na chłopca są takie same jak na dziewczynkę. Założenie to pozwala często uprościć obliczenia, jednak nie odzwierciedla do końca rzeczywistości. Chłopców rodzi się nieznacznie więcej i jest to ogólny trend. Ponieważ odnosimy się do słynnej sytuacji związanej z Miejscem Odrzańskim, to podobnie jak w linkowanym wyżej wpisie przyjmiemy szanse na urodzenie chłopca jako 0,5146, a dziewczynki 0,4854.
Każde urodzenie kolejnego dziecka możemy traktować jako próbę Bernoulliego, tzn. zdarzenie, które może zakończyć się dwoma wynikami zwanymi sukcesem oraz porażką. Proste przykłady to rzut monetą oraz właśnie płeć dziecka. W ogólności można jako próbę Bernoulliego traktować zdarzenia mające więcej niż dwa możliwe wyniki, o ile jesteśmy w stanie je podzielić na dwie grupy A oraz B, z których jedną uznajemy za sukces.
Prawdopodobieństwo sukcesu oznacza się zwyczajowo \(p\), gdzie \(0\leqslant p\leqslant 1\). Wówczas prawdopodobieństwo porażki to \(q=1-p\)
Płcie kolejnych dzieci rodzących się (zwłaszcza różnym) mieszkańcom danej miejscowości nie zależą od siebie. Mówiąc bardziej matematycznie są to zdarzenia niezależne. Dlatego, gdy zajmujemy się prawdopodobieństwem związanym z serią prób Bernoulliego posługujemy się tzw. rozkładem Bernoulliego zwanym też dwumianowym.
W wielkim skrócie, rozkład prawdopodobieństwa mówi nam jak rozłożone jest prawdopodobieństwo w zbiorze wszystkich możliwych wyników danego doświadczenia losowego. Przykładowo w przypadku rzutu uczciwą monetą, orłu jak i reszce przypisujemy po 0,5. Jest to zresztą szczególny przypadek próby Bernoulliego.
Gdy wykonujemy \(n\) prób Bernoulliego z prawdopodobieństwem sukcesu \(p\), to szanse na dokładnie \(k\) sukcesów dla \(k\in\{0,1,\ldots,n\}\) wynoszą \[{n\choose k}p^k(1-p)^{n-k}\] i tę wartość rozkład Bernoulliego \(B(n,p)\) przypisuje liczbie \(k\).
Spójrzmy na poniższy rysunek przedstawiający przykładowe płcie kolejnych dzieci. Kolor niebieski oznacza chłopca, fioletowy zaś dziewczynkę.
W zobrazowanej sytuacji mamy osiemnaścioro dzieci, z czego 8 to dziewczynki. Prawdopodobieństwo tego, że wśród osiemnaściorga dzieci dokładnie 8 to dziewczynki, jest równe (przy naszych założeniach) \[{18\choose 8}\cdot 0,4854^8\cdot 0,5146^{10}\]
Innym przykładem rozkładu, który zresztą jeszcze się nam dalej przyda, jest tzw. rozkład geometryczny. Liczbie naturalnej \(k\gt 0\) przypisuje on prawdopodobieństwo tego, że wykonując próby Bernoulliego, pierwszy sukces otrzymamy w \(k\)-tej próbie. Nietrudno zauważyć, że szanse na to wynoszą \(p(1-p)^{k-1}\).
Jest jeszcze jedno ważne pojęcie, o którym musimy wspomnieć zanim przejdziemy do konkretnych wyliczeń. Jest nim wartość oczekiwana. Jest to, mówiąc w wielkim skrócie, średnik wynik danego eksperymentu. Przykładowo, gdy rzucamy uczciwą kostką do gry, to średni wynik jest równy 3,5.
Gdy mamy pewien eksperyment \(X\) (lub mówiąc matematycznie zmienną losową \(X\)) z możliwymi wynikami \(x_i\), w których każdy zachodzi z prawdopodobieństwem \(p_i\), to wartość oczekiwana \(E[X]\) jest równa \[E[X]=x_1p_1+x_2p_2+\cdots+x_np_n+\cdots\]
Wartość oczekiwana zmiennej losowej o rozkładzie \(B(n,p)\) jest równa \(np\). Czyli wykonując \(n\) prób Bernoulliego otrzymamy średnio \(np\) sukcesów. W przypadku zmiennej losowej o rozkładzie geometrycznym wartość oczekiwana to \(\frac 1p\) dla \(p\gt 0\).
Spróbujmy teraz oszacować liczbę prób Bernoulliego \(Y_n\) potrzebną do uzyskania \(n\) kolejnych sukcesów. Przy czym na razie przyjmujemy, że \(0\lt p \lt 1\) pomijając przypadki skrajne \(p=0\) oraz \(p=1\). Będziemy \(Y_n\) traktować jako zmienną losową. Musimy więc obliczyć wartość oczekiwaną \(E[Y_n]\).
Szansa na otrzymanie \(n\) sukcesów w pierwszych \(n\) próbach jest, jak wiemy, równa \(p^n\). Jeżeli w pierwszych \(n\) próbach nie otrzymaliśmy samych sukcesów, to oznacza to, że pierwsze \(k\) prób zakończyło się sukcesami, gdzie \(k\in\{0,1,\ldots,n-1\}\). Zaś w próbie \(k+1\) otrzymaliśmy porażkę, która sprawia, że całą zabawę zaczynamy od nowa. Możemy więc powiedzieć, że \(E[Y_n]\) spełnia równość: \[\begin{array}{lll}E[Y_n] & = & p^nn+\sum\limits_{k=0}^{n-1}p^k(1-p)(k+1+E[Y_n]) = \\ & = & \sum\limits_{k=0}^{n-1}p^k(1-p)E[Y_n] + \sum\limits_{k=0}^{n-1}p^k(1-p)(k+1) \end{array}\]
Musimy jednak zwrócić uwagę na jedną ważną rzecz. Aby móc bez obaw wykonywać obliczenia zawierające \(E[Y_n]\) musimy pokazać, że jest to liczba skończona dla \(p\neq 0\). Intuicyjnie wydaje się to w miarę oczywiste. Otrzymanie sukcesu nie jest niczym nadzwyczajnym nawet gdy \(p\) jest bardzo małe. Co jakiś czas się to powinno zdarzyć. Po każdym sukcesie, jeżeli nadal wykonujemy próby Bernoulliego, czasami również trafi się sukces w następnej próbie co sprawia, że mamy już dwa sukcesy z rzędu. Idąc dalej w takim rozumowaniu dochodzimy do wniosku, że aby otrzymać \(n\) sukcesów z rzędu, nawet dla dużego \(n\) trzeba poczekać odpowiednio długo.
Teraz przedstawimy bardziej matematyczny argument. Wykonujemy próby Bernnoulliego aż do otrzymania \(n\) sukcesów z rzędu. Jeżeli podzielimy ciąg prób na rozłączne sekwencje po \(n\) kolejnych prób oraz wystąpienie \(n\) sukcesów z rzędu uznamy za… sukces, to mamy nową serię prób Bernoulliego o prawdopodobieństwie sukcesu \(p^n\). Oznaczmy kolejne takie próby przez \(X_1, X_2\) itd. Sukces którejkolwiek próby \(X_i\) oznacza wystąpienie \(n\) sukcesów z rzędu pierwotnego eksperymentu. Ponieważ wartość oczekiwana zmiennej losowej o rozkładzie geometrycznym (o ile \(p\neq 0\)) jest skończona, to skończona musi być również \(E[Y_n]\). Wróćmy do obliczeń.
Ponieważ \[\begin{array}{lll}\sum\limits_{k=0}^{n-1}p^k(1-p) & = & p^0(1-p)+p^1(1-p)+p^2(1-p)+\cdots+p^{n-1}(1-p)\\ & = &1-p+p-p^2+p^2-p^3+\cdots+p^{n-1}-p^n=1-p^n,\end{array}\]
to \[\begin{array}{lll}E[Y_n] & = & p^nn+(1-p^n)E[Y_n]+ \sum\limits_{k=0}^{n-1}p^k(k+1) – \sum\limits_{k=0}^{n-1}p^{k+1}(k+1)\end{array}\] Przenosząc \((1-p^n)E[Y_n]\) na drugą stronę otrzymujemy \[\begin{array}{lll}p^nE[Y_n] & = & p^nn +\sum\limits_{k=0}^{n-1}p^k(k+1) – \sum\limits_{k=0}^{n-1}p^{k+1}(k+1)=\\ & = & p^nn +\sum\limits_{k=0}^{n-1}p^k(k+1) – \sum\limits_{k=1}^{n}p^kk=\\
& = & p^nn+1 +\sum\limits_{k=1}^{n-1}p^k(k+1) – p^nn- \sum\limits_{k=1}^{n-1}p^kk=\\ & = & 1+\sum\limits_{k=1}^{n-1}p^k(k+1)-\sum\limits_{k=1}^{n-1}p^kk = 1+\sum\limits_{k=1}^{n-1}p^k=\\
& = & \sum\limits_{k=0}^{n-1}p^k=\dfrac{1-p^n}{1-p}
\end{array}\]
Ostatecznie mamy \[E[Y_n]=\dfrac{1-p^n}{p^n(1-p)}=\dfrac{1}{p}+\dfrac{1}{p^2}+\cdots+\dfrac{1}{p^n}, \textrm{ dla } 0\lt p \lt 1.\] Dla \(p=1\) mamy oczywiście \(E[Y_n]=n\), zaś dla \(p=0\) dostajemy \(E[Y_n]=+\infty\).
Teraz możemy już oszacować ilość dzieci jaka musi się urodzić by urodziło się 12 dziewczynek z rzędu. Przyjmując prawdopodobieństwo sukcesu równe 0,4854 otrzymujemy \[E[Y_{12}]\approx 11356,87\] Czyli średnio tyle dzieci powinno się urodzić do momentu uzyskania 12 dziewczynek z rzędu. Nie oznacza to jednak, że zawsze będzie to ponad 11 tysięcy. Czasami będzie to liczba znacznie większa niż ta którą uzyskaliśmy teoretycznie, a czasami znacznie mniejsza.
Poniżej wyniki stu symulacji, które przeprowadziłem. Każda z liczb odpowiada innej symulacji i jest po prostu numerem urodzenia, w którym urodziła się 12 dziewczynka z rzędu. Symulację tę zrobiłem w Excelu więc kolejne ,,urodzenia” były losowe na tyle, na ile losowa jest funkcja Rnd() w VBA. Największa otrzymana ilość ,,urodzeń”, to 58 453, zaś najmniejsza to jedynie 44. Rozpiętość jak widać jest spora. Średnia zaś to 12 293,7 czyli niecały tysiąc więcej od tej teoretycznej.
22 927 | 3 831 | 4 334 | 17 518 | 8 007 | 47 700 | 6 363 | 12 814 | 7 399 | 3 177 |
22 781 | 15 837 | 17 916 | 5 573 | 3 384 | 3 550 | 3 229 | 8 927 | 18 339 | 9 532 |
1 891 | 30 947 | 535 | 15 316 | 3 102 | 13 861 | 16 682 | 10 604 | 68 | 2 810 |
82 | 3 303 | 35 475 | 418 | 608 | 4 616 | 15 052 | 23 047 | 5 294 | 4 102 |
4 745 | 30 241 | 1 865 | 3 843 | 49 975 | 1 038 | 58 453 | 641 | 4 087 | 19 420 |
12 920 | 471 | 21 324 | 2 258 | 14 334 | 9 181 | 16 136 | 18 711 | 26 352 | 25 352 |
12 992 | 1 347 | 23 673 | 33 600 | 14 372 | 4 458 | 3 395 | 7 300 | 3 211 | 12 284 |
3 618 | 1 381 | 27 567 | 3 775 | 14 004 | 16 942 | 19 255 | 2 467 | 9 250 | 2 020 |
9 691 | 23 032 | 31 209 | 4 673 | 5 915 | 9 724 | 11 952 | 7 263 | 6 583 | 23 678 |
2 574 | 24 663 | 9 392 | 34 461 | 12 988 | 7 918 | 1 014 | 10 347 | 23 040 | 44 |
Jeśli przyjmiemy \(p=0,5\), to otrzymamy \(E[Y_n]=2^{n+1}-1\). Czyli średnio powinniśmy rzucać 8 191 razy uczciwą monetą, aby otrzymać 12 orłów z rzędu. Widzimy więc, że nie ma niczego nadzwyczajnego w istnieniu miejscowości takiej jak Miejsce Odrzańskie, w której urodziło się 12 dziewczynek z rzędu. Ogólnie, pojawienie się jakiejś dosyć długiej serii takich samych wyników w jakimkolwiek procesie (np. urodzenia dzieci, rzut monetą, ruletka itp.) nie oznacza od razu, że coś jest nie tak. Co jakiś czas takie serie muszą się pojawiać. Podejrzane by było gdyby się nie pojawiały w ogóle.
Gdybyśmy zamiast interesowania się 12 dziewczynkami z rzędu interesowali się zdarzeniem ,,urodziło się 12 dziewczynek z rzędu lub 12 chłopców z rzędu”, to stosowna wartość oczekiwana byłaby mniejsza! Ale to już materiał na inną historię.
Literatura
M. Riggle, Runs of Identical Outcomes in a Sequence of Bernoulli Trials, Western Kentucky Univ. (2018)
S.M. Ross, Introduction to Probability Models, Elsevier Inc. (2007)