Czy może się zdarzyć, że w każdej grupie wiekowej (wg jakiegoś podziału) pewna choroba występuje procentowo częściej u mężczyzn niż u kobiet, a jak się spojrzy na całą populację, to jest na odwrót, że występuje częściej u kobiet? Okazuje się, że może. Mówi o tym paradoks Simpsona.
W 1973 roku okazało się, że istotnie większy odsetek mężczyzn niż kobiet został przyjęty na Uniwersytet Berkeley. Mówiąc dokładniej, spośród mężczyzn, którzy aplikowali, przyjętych zostało 44%. Natomiast, jeśli chodzi o kobiety, to przyjętych zostało 35%. Różnica jak widać jest niemała. Sprawiło to, że Uniwersytet Berkeley został posądzony o dyskryminację kobiet. Spójrzmy jednak na dane, w tym wypadku, dotyczące kilku wydziałów z największą liczbą kandydatów.
Jak widzimy spośród tych wydziałów, jedynie na dwóch (C oraz E) odsetek przyjętych kandydatów jest większy (i to nieznacznie) niż kandydatek. Mimo tego, gdy spojrzymy na całość, to procentowo więcej przyjęto na te wydziały mężczyzn niż kobiet.
W tym konkretnym przypadku wynika to z faktu, że na ogół więcej kobiet niż mężczyzn stara się o przyjęcie na wydziały, które przyjmują mało kandydatów. Zwłaszcza spójrzmy na wydziały A oraz B. Do tego więcej mężczyzn składa podania na te przyjmujące sporo osób. Zanim przejdziemy do matematycznego opisu tego co się właściwie tutaj stało, spójrzmy na jeszcze jeden przykład. Będzie to przykład nie pokazujący żadnych danych prawdziwych, stworzony jedynie ze względów edukacyjnych.
Załóżmy, że mamy pewną chorobę X i chcemy wiedzieć czy np. płeć i/lub wiek mają wpływ na zachorowanie na nią. W tym celu przebadano 5000 tysięcy osób. Grupę tę podzielmy względem płci, na mężczyzn oraz kobiety. Załóżmy, że jest w niej 2000 mężczyzn oraz 3000 kobiet. Dodatkowo podzielmy tych ludzi również względem wieku. Dla prostoty, jedynie na dwie grupy: np. na tych do 45 roku życia włącznie i starszych. Dokładny podział przedstawiono w poniższej tabeli, gdzie również są dane dotyczące liczby osób chorych i zdrowych.
Jak widzimy, zarówno w grupie osób do 45 roku życia jak i u tych mających więcej niż 45 lat, większy odsetek chorych jest wśród kobiet niż mężczyzn. Mimo tego, jeżeli spojrzymy całościowo na przebadane osoby, to okazuje się, że większy odsetek chorych jest wśród mężczyzn.
Spróbujmy teraz oba powyższe przykłady opisać matematycznie. Na początku mamy pewną przestrzeń zdarzeń elementarnych \(\Omega\). Możemy ją utożsamiać np. z pewną populacją typu studenci, osoby poddane jakimś badaniom itp. Dzielimy ją na dwie rozłączne (i niepuste) części. Mówiąc ściślej, wyodrębniamy pewne zdarzenie \(B\subset\Omega\), gdzie \(0\lt P(B)\lt 0\), które daje nam rozkład \[\Omega=B\cup B^{‘},\] który graficznie możemy przedstawić tak:
Odpowiada to np. podziałowi populacji na kobiety oraz mężczyzn. Następnie bierzemy pewne zdarzenie \(A\subset\Omega\). Może ono oznaczać np. osoby chore lub podania na studia rozpatrzone pozytywnie. Pozwala nam to rozważać prawdopodobieństwa warunkowe \[P(A|B)\textrm{ oraz } P(A|B^{‘}).\] Możemy się w takiej sytuacji zastanawiać, które z nich jest większe.
Ponieważ \(P(A|B)\) to nic innego jak prawdopodobieństwo zdarzenia \(A\), w sytuacji gdy ograniczymy naszą przestrzeń zdarzeń elementarnych \(\Omega\) do zbioru \(B\) (przy czym \(P(B)>0\)), to będziemy stosować również niestandardowe oznaczenie \(P_B(A)\) aby uwypuklić ten fakt. W mniejszej przestrzeni \(B\) także możemy rozważać prawdopodobieństwa warunkowe, które również będziemy oznaczać niestandardowo \(P_B(C|D)\). Taka notacja wydaje się bardziej intuicyjna na potrzeby tego wpisu niż powszechnie przyjęta \(P(B|C,D)\).
Mamy więc póki co sytuację wyglądającą następująco:
Rozważamy prawdopodobieństwa warunkowe \(P(A|B)\) oraz \(P(A|B^{‘})\). Na ogół jedno z tych prawdopodobieństw będzie większe niż drugie. Dajmy na to niech \(P(A|B)>P(A|B^{‘})\)
Paradoks Simpsona może pojawić się w sytuacji, gdy zbiór zdarzeń elementarnych \(\Omega\) rozbijemy na mniejsze i rozłączne podzbiory. Dokładniej niech \[\Omega=C_1\cup C_2\cup\ldots\cup C_n\] gdzie \[P(C_i)\neq 0 \textrm{ dla } i\in\{1,2,\ldots, n\}\] oraz \[C_i\cap C_j=\emptyset\textrm{ dla } i\neq j\] W tych ograniczonych podzbiorach (czy też podpopulacjach) możemy, tak jak w przypadku całej przestrzeni \(\Omega\) rozważać prawdopodobieństwa warunkowe \(A\) pod warunkiem \(B\) (czy też \(B^{‘}\)). Tj. prawdopodobieństwa \[P_{C_i}(A|B)\textrm{ oraz }P_{C_i}(A|B^{‘}).\] Z paradoksem Simpsona mamy do czynienia, gdy w co najmniej większości podzbiorów \(C_i\) zależność między prawdopodobieństwami \(P_{C_i}(A|B)\) oraz \(P_{C_i}(A|B^{‘})\) jest odwrotna niż pomiędzy \(P(A|B)\) a \(P(A|B^{‘})\).
Dotychczasowe dwa przykłady pokazują, że taka sytuacja jest możliwa. W przypadku Uniwersytetu Berkeley za przestrzeń \(\Omega\) możemy przyjąć zbiór wszystkich podań na studia. Podział na mężczyzn i kobiety był naszym podziałem na \(B\) oraz \(B^{‘}\). Zaś zdarzenie \(A\) oznaczało, że podanie zostało rozpatrzone pozytywnie. Następnie zbiór podań został podzielony na poszczególne wydziały, co odpowiada podziałowi na podzbiory \(C_i\). Okazało się, że gdy rozpatrzeć całość, to \[P(A|B)>P(A|B^{‘}),\] o ile przyjąć, że \(B\) to mężczyźni. Gdy jednak spojrzy się na stosowne prawdopodobieństwa na poszczególnych wydziałach, to w większości z nich sytuacja jest odwrotna. Na ogół zachodzi \[P_{C_i}(A|B)\lt P_{C_i}(A|B^{‘}).\] Czyli wystąpił tutaj paradoks Simpsona.
Na pierwszy rzut oka może się wydawać zaskakujące, że np. mężczyźni mogą mieć większą szansę na zachorowanie na pewną chorobę, mimo iż w każdej (wg pewnego podziału) grupie wiekowej większe szanse na zachorowanie mają kobiety. Istnienie paradoksu Simpsona (w tym wypadku dla jedynie dwóch podpopulacji) wynika z tego, że istnieją ułamki spełniające zestaw zależności: \[\frac ab\lt\frac cd,\ \frac AB\lt\frac CD\textrm{ oraz }\frac{a+A}{b+B}\gt\frac{c+C}{d+D}.\]
Taki zestaw zależności może wydawać się paradoksalny lub co najmniej nieintuicyjny na pierwszy rzut oka! Wystarczy jednak spojrzeć na poniższy rysunek, aby już taki nieintuicyjny nie był.
Współczynnik kierunkowy prostej przechodzącej przez punkty \((0,0)\) oraz \((b,a)\) jest równy \(\frac ab\). Jest on mniejszy niż współczynnik analogicznej prostej wyznaczonej przez punkt \((d,c)\). Oznacza to, że \[\frac ab\lt\frac cd.\] Analogiczną sytuację w przypadku punktów \((B,A)\) oraz \((D,C)\). Współczynnik kierunkowy prostej przechodzącej przez \((0,0)\) oraz \((B,A)\) jest równy \(\frac AB\) i jest mniejszy od współczynnika kierunkowego prostej przechodzącej przez \((0,0)\) oraz \((D,C)\), który jest równy \(\frac CD\). To z kolei oznacza, że \[\frac AB\lt\frac CD.\] Mimo to, dodawszy stosowne wektory, jak na rysunku, okazuje się, że współczynnik kierunkowy prostej wyznaczonej przez \((b+B,a+A)\) jest większy niż w przypadku \((d+D,c+C)\). Tzn. \[\frac{a+A}{b+B}\gt\frac{c+C}{d+D}.\] Widać to dobitnie na rysunku. Spróbujmy teraz ten rysunek przetłumaczyć na język prawdopodobieństw w przypadku gdy dokonaliśmy rozbicia przestrzeni \(\Omega\) na \(C_1\) oraz \(C_2\).
Zauważmy, że \[P_{C_i}(A|B)=\dfrac{P(A\cap B\cap C_i)}{P(B\cap C_i)},\] oraz \[P(A|B)=\dfrac{P(A\cap B)}{P(B)}.\] Dodatkowo zbiory \(C_i\) są z założenia rozłączne, zatem \[P(A\cap B)=P(A\cap B\cap C_1)+P(A\cap B\cap C_2).\] Wobec tego możemy przyjąć, że \[a=P(A\cap B\cap C_1),\ c=P(A\cap B^{‘}\cap C_1)\] i analogicznie
\[A=P(A\cap B\cap C_2),\ C=P(A\cap B^{‘}\cap C_2)\] Stąd wynika, że również \[b=P(B\cap C_1), d=P(B^{‘}\cap C_1), B=P(B\cap C_2), D=P(B^{‘}\cap C_2)\]
O paradoksie Simpsona możemy myśleć w inny sposób. Wyobraźmy sobie, że badamy zależność między dwoma cechami ludzi w jakiejś populacji. I każdej badanej osobie przypisujemy odpowiednie wartości liczbowe tychże cech. Możemy w tej sytuacji badać ich współczynnik korelacji. I jeżeli podzielimy populację na mniejsze podpopulacje (np. względem wieku), to może się okazać, że w mniejszych podpopulacjach współczynnik korelacji będzie np. dodatni, podczas gdy w całej populacji ujemny. Dosyć dobrze widać to na poniższym rysunku.
Tutaj skomplikowanie bo zbyt matematycznie, a na Wiki jest to łopatologicznie wyjaśnione. Skoro tu jednak trafiłem, przejrzę Twojego bloga.
Dziękuję za komentarz. Ja czytając artykuł na wiki miałem odczucie, że pomija on istotę sprawy. Więc tutaj musiało się niestety skończyć zbyt matematycznie.