Korelacja, czyli co?
Często mówi się w różnych analizach o korelacji. Jednocześnie (my twórcy) nie zastanawiamy się nad tym, że być może dla kogoś, kto tego słucha/czyta pojęcie “korelacja” nie jest czymś oczywistym. Jeżeli jesteś taką osobą, to ten artykuł jest dla Ciebie 😊😊
Siła i kierunek korelacji
O korelacji mówi się, że przyjmuje ona kierunek ujemny, gdy jest mniejsza od zera i dodatni, gdy jest większa, ale co to właściwie oznacza? Poprzez korelację najczęściej rozumiemy zależność liniową (ogółem istnieje więcej rodzajów korelacji, ale o tym później). Co to właściwie znaczy “zależność liniowa”?
Weźmy sobie przykład wzrostu (UWAGA! Na podany przykład patrzymy z małym przymrużeniem oka, bo oczywiście nieco więcej zmiennych ma znaczenie, a same dane są wymyślone przeze mnie). Ja mam 158 cm, a moja mama ma 160 cm. Znam osobę co ma 164 cm, a jej mama ma 162 cm. To teraz stańmy na ulicy i popytajmy ludzi o 2 wartości – ile wzrostu mają oni sami oraz ile wzrostu ma ich mama. W ten sposób otrzymaliśmy 2 zmienne – wzrost dziecka i wzrost mamy. Możemy przedstawić zebrane informacje na wykresie.
Możemy też zauważyć, że “kropeczki” układają się wzdłuż prostej, narysujmy ją!
Kropki nie pokrywają się idealnie z linią – gdyby tak było korelacja wynosiłaby 1, a w tym przypadku wynosi 0.91 (więc i tak baaaardzo dużo). Wartość korelacji obliczamy ze wzoru:
Mamy tutaj przykład korelacji dodatniej – wraz ze wzrostem jednej zmiennej rośnie druga zmienna, a otrzymana prosta “idzie w górę”. W przypadku korelacji ujemnej wraz ze wzrostem jednej zmiennej, druga maleje a prosta “idzie w dół”.
Mamy zatem omówiony kierunek korelacji, a jak jest z jej siłą? Tu zaczyna robić się ciekawie, bo w zależności od tego do jakiego źródła sięgniemy, otrzymamy nieco inną informację 😅
Ja najczęściej spotykam 2 podziały:
Pierwszy mniej szczegółowy:
- |corr| < 0,3 – zależność słaba
- |corr| < 0,7 – zależność średnia
- |corr| ≥ 0,7 – zależność silna
Drugi bardziej szczegółowy:
- |corr| < 0,2 – zależność słaba
- |corr| < 0,4 – zależność niska
- |corr| < 0,6 – zależność umiarkowana
- |corr| < 0,8 – zależność wysoka
- |corr| < 0,9 – zależność bardzo wysoka
- |corr| < 1,0 – zależność praktycznie pełna
Moim zdaniem nie ma tu podziału na lepszy/gorszy, mniej poprawny/bardziej poprawny. Oba są dobre, ale różnią się poziomem szczegółowości. W zależności od tego, po co określamy siłę korelacji sięgniemy po jeden albo drugi. Bardzo często robiąc analizę danych (w tym m.in. analizę korelacji między zmiennymi, zazwyczaj wystarczy mniej szczegółowy podział. Zwłaszcza w sytuacjach, gdy tworzymy model regresji, gdzie istotną kwestią jest brak zależności liniowej pomiędzy zmiennymi niezależnymi. Wtedy nawet można przyjąć, że |corr| > 0,5 to już za wysoka wartość.
Pokazaliśmy na wykresie jak wygląda korelacja dodatnia i ujemna (oba przykłady dotyczyły bardzo wysokiego poziomu korelacji, bo |corr| > 0,9). Pewne rzeczy najlepiej wyjaśnia się obrazkowo więc zobaczmy jak wyglądają różne poziomy korelacji:
Pierwsze co powinno nam się rzucić w oczy, to fakt, że im bliżej zera jesteśmy tym bardziej dane tworzą niepoukładaną chmurę, z kolei im wartość bezwzględna jest większa tym dane bardziej przypominają chmurę skupioną wokół prostej.
Rodzaje korelacji
Korelacja określająca zależność liniową, czyli ta opisana za pomocą przykładu ze wzrostem to tzw. Korelacja Pearsona. Mówimy o niej, że jest to korelacja parametryczna, ponieważ do wyliczenia jej potrzebujemy estymować (przybliżać) parametry (zgodnie ze wzorem jest to średnia, czyli estymator wartości oczekiwanej i odchylenie standardowe).
Osoby, które miały już coś wspólnego ze statystyką wiedzą (albo przynajmniej powinny wiedzieć 😅), że jak mamy parametry do obliczenia, to i zmienne powinny1 mieć rozkład parametryczny (w skrócie rozkład pokazuje jakie wartości może przyjmować zmienna i jak prawdopodobne jest, że każda z tych wartości wystąpi, a rozkład parametryczny to taki, który jest opisywany z pomocą parametrów). Skoro mamy parametry, to zazwyczaj mamy też pewne założenia o naszych danych, a co jeśli te założenia nie zostaną spełnione? Wtedy z pomocą przychodzi korelacja nieparametryczna. Najpopularniejsze korelacje nieparametryczne, to współczynnik korelacji Spearmana i współczynnik korelacji Tau Kendalla.
- Jeżeli obliczamy korelację parametryczną, to teoretycznie zakładamy o danych, że pochodzą one z rozkładu parametrycznego (zazwyczaj chodzi o rozkład normalny). Praktyka jednak pokazuje, że bardzo często pomijane są kwestie sprawdzenia założeń, co może przekładać się na obliczanie korelacji Pearsona na danych, dla których lepiej byłoby zastosować korelację nieparametryczną. ↩︎
Zarówno współczynnik korelacji Spearmana jak i Tau Kendalla odnoszą się do korelacji rangowej, czyli ustalenie zależności między zmiennymi opiera się o kolejność tych obserwacji. Gdy wyliczamy wartości współczynników, to nie wykorzystujemy wprost wartości poszczególnych obserwacji (jak to się dzieje w przypadku korelacji Pearsona) tylko ich pozycję gdybyśmy ułożyli wszystkie obserwacje rosnąco. Jeżeli zdarzy się, że kilka obserwacji ma tę samą wartość, to przypisuje się im pozycję będącą średnią z pozycji, które zajmują.
Należy jednak pamiętać, że brak korelacji (niezależnie od tego o której korelacji mówimy) wcale nie musi oznaczać braku zależności pomiędzy zmiennymi. Doskonałym tego przykładem jest zależność kwadratowa, gdzie poziom wszystkich trzech omówionych korelacji jest na takim samym poziomie dla danych kwadratowych jak dla chmury danych. Widać to doskonale na poniższym obrazku
Powiedzieliśmy, że brak korelacji nie musi oznaczać braku zależności. Musimy też pamiętać, że działa to w dwie strony, tj. Istnienie statystycznie istotnej korelacji pomiędzy dwoma zmiennymi nie musi oznaczać, że są one od siebie zależne. Doskonałym tego przykładem może być liczba utonięć w danym miesiącu w stosunku do liczby zjedzonych lodów w tym miesiącu. Czy zmienne te są od siebie zależne? Oczywiście nie! Jednak korelacja pomiędzy takimi zmiennymi byłaby wysoka. Wartości obu zmiennych rosną w letnich miesiącach. Istnienie wysokiej korelacji pomiędzy zmiennymi w rzeczywistości niezależnymi nazywa się korelacją pozorną.
Podsumowanie
Korelacja wyraża poziom zależności pomiędzy dwoma zmiennymi, czyli np. Zależność pomiędzy wzrostem rodzica a wzrostem dziecka. Przyjmuje ona wartości pomiędzy -1 a 1, gdzie zero oznacza brak istnienia zależności, a im dalej zera tym zależność jest większa. Należy pamiętać, że korelacja może przyjmować wiele postaci jak np. korelacja liniowa (Pearsona) czy korelacja rangowa (Spearmana/Tau-Kendalla).