Justyna, chodząc na randki, zauważyła, że wielu przystojnych facetów to zwykłe dupki. Ci mniej przystojni są znacznie milsi. Czy aby na pewno to czy buzia mężczyzny jest ładna przekłada się na jego charakter?
Justyna jest samotną dziewczyną, więc chodzi na randki bo chciałaby znaleźć w końcu tego jedynego. Jak każdy zwraca uwagę na wygląd potencjalnego wybranka. W końcu jest to pierwsza rzecz jaką możemy ocenić poznając nową osobę. No bo, jak się da, to lepiej gdy facet jest przystojny niż brzydki. Wygląd nie jest jednak jedynym kryterium. Można ją równie dobrze oczarować swoim charakterem i stylem bycia. A Justyna bardzo lubi inteligentnych i szarmanckich mężczyzn! Sprawia to, że i ci niezbyt przystojni mają szansę wybrać się z nią na randkę. Tak sobie randkując Justyna zauważyła, że przystojniejsi mężczyźni są znacznie częściej zwykłymi gburami, żeby wręcz nie powiedzieć dupkami. Z grubsza mówiąc, im facet przystojniejszy, tym częściej ma gorszy charakter.
Czy aby na pewno? Czy rzeczywiście ładna buzia sprawia, że szanse na to, że mężczyzna jest zwykłym dupkiem znacznie rosną? Przecież i niejeden niegrzeszący urodą mężczyzna nim jest.
Spróbujmy randkowanie naszej bohaterki ubrać w nieco bardziej matematyczne szaty. Gdyby Justyna stworzyła jakiś system przyznawania punktów mężczyznom za urodę oraz charakter, to wizualizacja danych przez nią ocen mogłaby wyglądać mniej więcej tak:
Każdy punkt na wykresie przedstawia oceny jednego mężczyzny. Współrzędna iksowa każdego punktu/mężczyzny, to ocena jego urody. Zaś igrekowa – charakteru. Widzimy, że im bardziej w prawo (tam gdzie są faceci przystojniejsi), to kropki, w ogólności znajdują się jakby nieco niżej (czyli gorszy charakter). Można te niezbyt ścisłe wyrażenie przekuć w precyzyjne matematyczne pojęcie, które pozwoli nam lepiej zrozumieć dlaczego wnioski Justyny są zbyt pochopne.
Jedną z podstawowych wielkości liczbowych służących do mierzenia zależności między dwoma wielkościami jest znany współczynnik korelacji Pearsona. Z kolei jedną z podstawowych rzeczy jakie wie (lub przynajmniej powinien wiedzieć) każdy zajmujący się statystyką czy jakąkolwiek analizą danych jest to, że korelacja nie dowodzi żadnego związku przyczynowo-skutkowego! Choć takowy może naturalnie występować.
Dobrym przykładem jest korelacja ilości kupowanych lodów oraz liczby utonięć. Mimo iż żadna z tych rzeczy nie powoduje drugiej, to nie da się ukryć, że w okresach cieplejszych obie rosną, a w zimniejszych obie maleją. Powodem korelacji jest tu trzeci czynnik – pogoda, który sprawia, że liczba utonięć i spożytych przez ludzi lodów rośnie latem
Współczynnik korelacji (pominiemy to jak dokładnie jest liczony) \(r\) przyjmuje wartości z przedziału \([-1,1]\) i w skrócie opisuje liniową zależność między dwiema wielkościami. Jeżeli jest dodatni, to w dużym uproszczeniu, gdy rośnie jedna wartość, to i druga ma tendencję do tego by rosnąć. Gdy jest ujemny, to wzrost jednej wielkości oznacza, że druga ma tendencję do tego by maleć. Im wyższa wartość bezwzględna \(r\), tym ten związek jest silniejszy.
Choć współczynnik korelacji na poziomie np. \(r=\pm 0,1\) można uznać bardziej za przypadkowy. Zaś \(r=0,9\) oznacza już dosyć sporą korelację. Wartość owego współczynnika dla zbiorów ocen Justyny (wyglądu i charakteru) jest równy \(-0,4\) co potwierdza tendencję do gorszego charakteru przystojniejszych mężczyzn wśród tych, z którymi nasza bohaterka wybrała się na randkę. Spójrzmy na poniższe przykłady danych z policzonym współczynnikiem korelacji:
Dlaczego jednak nie można na podstawie randek Justyny powiedzieć, że ogólnie wśród mężczyzn, ci przystojniejsi mają gorszy charakter? Lub, mówiąc nieco matematyczniej, że w zbiorze wszystkich mężczyzn współczynnik korelacji wyglądu i charakteru nie musi być ujemny?
Powodem jest tutaj sposób w jaki nasza bohaterka wybiera mężczyzn, z którymi się spotyka. Są to mężczyźni wystarczająco przystojni lub z wystarczająco ciekawym charakterem. Natomiast ci, którzy nie są ani przystojni ani nie oczarują jej osobowością zostaną odrzuceni. Justyna się z nimi nie umówi. Gdyby uwzględnić na wykresie to jak oni zostali ocenieni przez naszą bohaterkę, to mógłby on wyglądać tak:
Tu już związek między wyglądem, a charakterem prezentuje się nieco inaczej. Żeby lepiej to zobrazować posłużmy się, co prawda nierealistycznym, ale dobrze pokazującym sytuację przykładem liczbowym.
Załóżmy, że jest 1000 mężczyzn, z którymi Justyna potencjalnie mogłaby się umówić. W poniższej tabeli podzielono ich ze względu na charakter oraz wygląd
Z kolei tutaj zaznaczono tych, którzy mają szansę na randkę z Justyną.
Jeżeli rozważymy wszystkich mężczyzn, tj. 1000, to w przypadku mężczyzn przystojnych (jest ich 500) szanse na to, że ma ciekawy charakter wynoszą \[\frac{250}{500}=\frac 12\] Analogicznie w przypadku tych nieprzystojnych. Natomiast gdy zostawimy jedynie tych mężczyzn, z którymi Justyna by się umówiła, to sytuacja wygląda już inaczej. W tym przypadku wykluczamy mężczyzn, którzy nie są ani na tyle przystojni ani nie mają tak ciekawego charakteru by nasza bohaterka zechciała się z nimi umówić.
W dalszym ciągu, w przypadku mężczyzn przystojnych, szanse na to, że mają ciekawy charakter są równe \(\frac 12\). Jednakże w przypadku tych nieprzystojnych każdy ma ciekawy charakter. Sprawia to, że Justyna odnosi mylne wrażenie, że przystojniejsi mężczyźni są częściej zwykłymi dupkami, a ci brzydszy są znacznie milsi.
Teraz wyjaśnienie matematyczne. Posłużymy się rachunkiem prawdopodobieństwa, a dokładniej prawdopodobieństwem warunkowym.
Niech dana będzie przestrzeń zdarzeń elementarnych \(\Omega\) oraz dwa niezależne zdarzenia \(A,B\subseteq\Omega\) takie, że \(P(A), P(B)\gt 0\) oraz \(P(A\cup B)\neq 1\). W kontekście randek Justyny każde takie zdarzenie elementarne może być mężczyzną, a zdarzenia \(A\) oraz \(B\) mogą oznaczać odpowiednio mężczyzn przystojnych i z fajnym charakterem.
Niezależność zdarzeń \(A\) oraz \(B\) znaczy, że zajście jednego z nich nie wpływa na prawdopodobieństwo zajścia drugiego. Matematycznie oznacza to, że \[P(A\cap B)=P(A)\cdot P(B)\] lub w kontekście prawdopodobieństwa warunkowego, gdy \(P(A), P(B)\gt 0\), to \[P(A|B)=P(A)\] oraz \[P(B|A)=P(B).\]
Ograniczenie się z \(\Omega\) do sumy zdarzeń \(A\cup B\) sprawia, że zdarzenia \(A\) oraz \(B\) stają się zależne o ile \(P(A\cup B)\neq 1\).
Oznaczmy przez \(P_2(C)\) prawdopodobieństwo zdarzenia \(C\) ale już nie w przestrzeni \(\Omega\) lecz w \(A\cup B\). Liczba \(P_2(C)\) to nic innego jak prawdopodobieństwo warunkowe \[P_2(C)=P(C|A\cup B)\] Ponieważ dalej będziemy rozważali prawdopodobieństwo warunkowe w przestrzeni \(A\cup B\), to aby uprościć notację stosujemy niestandardowe oznaczenie \(P_2(C)\) zamiast \(P(C|A\cup B)\).
Otrzymujemy więc \[P_2(A\cap B)=\frac{P(A\cap B)}{P(A\cup B)}=\frac{P(A)\cdot P(B)}{P(A\cup B)}\] oraz \[P_2(A)\cdot P_2(B)=\frac{P(A)}{P(A\cup B)}\cdot\frac{P(B)}{P(A\cup B)}=\frac{P(A)\cdot P(B)}{P(A\cup B)\cdot P(A\cup B)}\gt P_2(A\cap B)\] Czyli zdarzenia \(A\) oraz \(B\) są zależne w przestrzeni \(A\cup B\) o ile \(P(A\cup B)\neq 1\).
Z faktu, że \[P_2(A\cap B)\lt P_2(A)\cdot P_2(B)\] wynika, że \[\frac{P_2(A\cap B)}{P_2(B)}=P_2(A|B)\lt P_2(A)\] Tzn. zajście zdarzenia \(B\) zmniejsza szanse na zajście zdarzenia \(A\) i vice versa gdy ograniczymy przestrzeń zdarzeń elementarnych z \(\Omega\) do \(A\cup B\) o ile \(P(A\cup B)\neq 1\).
Tłumaczy to ujemną korelację między wyglądem a charakterem mężczyzn, którą dostrzegła Justyna podczas swoich randek. Był to jednak dosyć uproszczony i sztuczny przykład gdzie mogliśmy dostrzec paradoks Berksona (w dosyć prostej postaci). Jest to jeden z przykładów, gdzie na podstawie źle dobranej grupy osób (mężczyźni z którymi Justyna się umówiła) próbuje się wnioskować na temat całej populacji.
W rzeczywistości, decyzja Justyny czy się umówić z danym mężczyzną byłaby pewnie wypadkową (tj. sumą) wyglądu i charakteru. Gdyby naprawdę wystawiała im oceny, to umawiałaby się np. tylko z tymi mężczyznami, w których przypadku suma ocen za wygląd i charakter przekroczyłaby pewną wartość. I w takiej sytuacji dostrzegłaby ujemną korelację między wyglądem a charakterem, gdyż znowu mężczyźni niezbyt przystojni z niezbyt fajnym charakterem zostaliby odrzuceni. Natomiast byłaby widoczna nadreprezentacja tych przystojnych lecz o niezbyt ciekawym charakterze oraz tych z niezwykle pociągającym charakterem acz znacznie mniej przystojnych. Do tego część mężczyzn dobrze punktowanych pod zarówno pod względem charakteru jak i wyglądu (i to nie tylko przez Justynę) byłaby świadoma swoich zalet i mieliby sami spore wymagania wobec kobiet, z którymi chcą się spotykać. Np. niektórym marzyłyby się jedynie rude kobiety. A, że Justyna jest brunetką, to nie chcieliby się z nią spotkać. Mogłoby to jeszcze spotęgować wrażenie, że im przystojniejszy mężczyzna tym jest większym gburem.
Obie sytuacje łączy to, że dwa czynniki, które Justyna bierze pod uwagę, tj. ładny wygląd i ciekawy charakter w istotny sposób zwiększają szanse tego samego skutku jakim jest randka z Justyną.
Ograniczenie się do wnioskowania na podstawie próby wybranej na podstawie wspomnianego skutku może (ale oczywiście nie musi!) prowadzić do otrzymania błędnych wniosków!
Świadomość tego typu błędów i paradoksów jest niezwykle ważna gdy się np. przeprowadza badania kliniczne. Zresztą sam Berkson odkrył swój paradoks pracując w klinice, gdzie m.in. badał czy cukrzyca zwiększa szanse na zapalenie pęcherzyka żółciowego. Paradoks Berksona występuje w medycynie pod wieloma postaciami. Może tłumaczyć m.in. występowanie tzw. paradoksu palacza. Jednak występowanie paradoksu Berksona w medycynie to już inna para kaloszy.