Czy zmienne losowe mogą być intuicyjne?
Słowem wstępu
Parafrazując… kto nigdy nie miał problemu ze zrozumieniem zmiennych losowych niech pierwszy rzuci kamień!
INTUICYJNA definicja zmiennej losowej wg wikipedii:
Intuicyjnie: odwzorowanie przenoszące badania prawdopodobieństwa z niewygodnej przestrzeni probabilistycznej do dobrze znanej przestrzeni euklidesowej.
Intuicyjne to to jest, ale chyba tylko dla studentów matematyki (jeśli w ogóle)!
Podają nam na studiach koszmarne definicje po czym niejednokrotnie prowadzący dziwią się, dlaczego prawie nikt nie lubi statystyki… Nikt nie polubi czegoś, co jest dla niego niezrozumiałe, bo niby jak? Dlatego dziś porozmawiamy sobie o zmiennych losowych i ich typach ludzkim językiem! Gotowi?

Zmienna losowa (intuicyjnie!)
Na początek przypomnijmy sobie zwykłą zmienną. W czasach szkolnych mieliśmy sobie literkę x, rozwiązywaliśmy jakieś równania z nią, np. 2 + x = 3. Literkę x nazywaliśmy wtedy zmienną, bo kryje się pod nią jakaś liczba, a żeby dowiedzieć się jaka, musieliśmy równanie rozwiązać. Przy zwykłych zmiennych jesteśmy w stanie jednoznacznie określić, ile ten nasz x wynosi.
Ze zmiennymi losowymi jest trochę podobnie – mamy sobie literkę X (co do zasady zmiennie losowe oznaczamy dużą literą, podczas gdy te zwykłe zmienne zawsze oznaczało się małymi literami). Również nie wiemy, co się pod nią kryje, ale mamy dodatkowe utrudnienie: Nie jesteśmy w stanie wprost powiedzieć co to będzie (tak jak w przypadku zwykłej zmiennej), bo ona może przyjmować różne wartości z odpowiednim prawdopodobieństwem.
Dlatego, gdy do gry wchodzą zmienne losowe, to zamiast szukać konkretnej wartości (bo jej nie ma!), szukamy czegoś co nam opiszę taką zmienną – rozkład zmiennej losowej. Zmienną losową opisuje też wartość oczekiwana i wariancja. Jeżeli zaś mówimy o konkretnej wartości zmiennej losowej, to mówimy o realizacji zmiennej losowej. I na tych rzeczach dzisiaj się skupimy…
Rzut kostką jako zmienna losowa
Nic nie jest bardziej intuicyjne niż przykłady z życia wzięte!
Skupimy się ma zmiennej losowej będącej wynikiem rzutu kostką

Nazwijmy ją sobie X. X jest wynikiem rzutu kostką, więc może przyjmować wartości 1-6. Nie wiemy ile X wynosi (przed rzutem), ale wiemy, że jak rzucimy kostką, to otrzymamy 1,2,3,4,5 lub 6 oczek.
Co jeszcze wiemy?
Kostka ma 6 ścian, na każdej inną wartość, więc przy rzucie mamy takie same szanse na otrzymanie dowolnej liczby oczek. Czyli co nam to mówi? Otrzymujemy prawdopodobieństwo trafienia w konkretną wartość (tabela). To jest nic innego, jak rozkład zmiennej losowej! (Zapisany za pomocą tabeli)

Czyli rozkładem zmiennej losowej będzie przyporządkowanie prawdopodobieństwa do potencjalnej wartości. Rozkładu zmiennej losowej nie musimy (czasami wręcz nie możemy) zapisać za pomocą tabeli. Dla rzutu kostką moglibyśmy przedstawić to też na kilka innych sposobów:
- P(X=1)=⅙, P(X=2)=⅙, P(X=3)=⅙, P(X=4)=⅙, P(X=5)=⅙, P(X=6)=⅙
- Bardziej matematycznie… P(X=i)=⅙, i=1,2,3,4,5,6
Powyższe zapisy i zapis jako tabela oznaczają dokładnie to samo.
A jak już w końcu rzuciliśmy tą kostką i wiemy, co dostaliśmy (w tym konkretnym rzucie), to będzie realizacja zmiennej losowej.
Wartość oczekiwana
Na wartość oczekiwaną możemy patrzeć trochę jak na średnią. Oczywiście nie można tu mówić o średniej z kilku rzutów (bo to, że prawdopodobieństwo otrzymania 6 oczek wynosi ⅙, to wcale nie oznacza, że jak rzucimy kostką 6 razy to dostaniemy tylko jedną szóstkę). Przy ogromnym szczęściu moglibyśmy dostać nawet 6 szóstek!
Ale jakbyśmy sobie rzucili kostką tak powiedzmy 100 razy… to na tych 100 razy 6 powinna wypaść około 17 razy (100 * ⅙ = 100/ 6 ). Nie oznacza to, że będzie to dokładnie 17 razy, ale +/- tyle szóstek powinniśmy się spodziewać. Oczywiście to się tyczy wszystkich pozostałych liczb, tak samo oczekujemy około 17 piątek itd. Na wynikach symulacji doskonale widać, że wszystkie te liczby oscylują w okolicach tej naszej 17.
Wyniki symulacji:

Rzuciliśmy sobie 100 razy. Zakładając, że nie wiemy o tym, że szansa na trafienie w dowolną liczbę oczek to ⅙, możemy sobie wysunąć wnioski z naszych rzutów:
Skoro 1 wypadła 21 razy na 100, to prawdopodobieństwo otrzymania 1 wynosi 21% (0,21 w zapisie liczbowym) itd.
Na początku tej części powiedzieliśmy, że na wartość oczekiwaną możemy trochę patrzeć jak na średnią. Trzymając się tych 100 rzutów bez problemu obliczymy średnią:

Ale! (Uwaga przypominamy sobie piękne czasy szkolne.) Zamiast całość dzielić przez 100 możemy podzielić każdy element z osobna.
Czyli równanie pokazane powyżej to nic innego jak:

Zauważmy, że na żółto zaznaczone są prawdopodobieństwa, które sobie wyliczyliśmy na podstawie tych 100 rzutów, a podkreślone wartości to są liczby oczek (czyli wartości jakie może przyjąć nasza zmienna losowa).
Do sedna: wartością oczekiwaną będzie taka właśnie suma, ale wykorzystamy teoretyczne wartości prawdopodobieństwa, czyli w każdym przypadku ⅙.
Ostatecznie wartość oczekiwana:

A to jest niczym innym niż średnią ważoną 😅
Wariancja
Właściwie to się skupimy na odchyleniu standardowym, bo jest bardziej intuicyjne 😄
Krótkie wyjaśnienie

Intuicyjnie:
Odchylenie standardowe to wartość, która wskazuje, o ile średnio wartość zmiennej losowej (czyli jej realizacja) będzie się różnić od wartości oczekiwanej.
Jeżeli mamy zmienną losową, której wartość oczekiwana wynosi 0, a odchylenie standardowe 1, to znaczy tyle, że losując taką zmienną oczekujemy otrzymać wartość z przedziału od -1 do 1 (bo odchylać się możemy w obie strony).
Czy to znaczy, że zawsze wylosujemy liczbę z takiego przedziału?
Zdecydowanie nie. Jest to wysoce prawdopodobne, ale zdecydowanie nie jest to pewne.
Jak obliczyć wariancję i odchylenie standardowe?
Korzystamy z takiego wzoru:

E(X) to jest omówiona wcześniej wartość oczekiwana – przykład jak ją liczyć pokazaliśmy wyżej dla rzutu kostką, należało policzyć tak:


Prawie tak samo jak wartość oczekiwaną tylko zamiast wartości, jakie może przyjąć nasza zmienna (dla rzutu kostką 1,2,3,4,5,6), będą to kwadraty tych liczb, czyli (dla rzutu kostką 1,4,9,16,25,36)

Mamy zatem

UWAGA!!!
Wariancja NIGDY nie będzie liczbą ujemną!
UWAGA 2!!!
Przedstawione metody liczenia wartości oczekiwanej dotyczą TYLKO zmiennych dyskretnych (wyjaśnienie podziału poniżej). Natomiast wzór na wariancję jest taki sam niezależnie od tego czy zmienna jest dyskretna czy ciągła – zawsze wykorzystuje się wartość oczekiwaną oraz wartość oczekiwaną z kwadradu.
Zmienne ciągłe i dyskretne
Warto wspomnieć, że zmienne losowe dzielą się na ciągłe i dyskretne. Dyskretne to takie, które mogą przyjmować tylko określone wartości (jak np. rzut kostką – tu możemy tylko otrzymać liczby od 1 do 6). Zmienną dyskretną będzie np. rzut monetą, gdzie możemy otrzymać tylko orła lub reszkę. Możemy mieć rozkład, który przyjmie tylko liczby naturalne (czyli wartości są ściśle określone ale nie muszą być skończone!).
Z kolei o ciągłych rozkładach mówimy, gdy nie da się dokładnie określić, jakie wartości będzie przyjmować zmienna. Może być ona w jakiś sposób ograniczona (np. wzrost jest przykładem takiej zmiennej losowej – jest ograniczony dla ułatwienia powiedzmy od 0 cm do 250 cm). A jest to zmienna ciągła, bo nasz wzrost może być dowolną liczbą z tego przedziału. Możemy mieć np. 165,5 cm, ale jakbyśmy mierzyli wzrost za pomocą wystarczająco dokładnego urządzenia, to możemy otrzymać wiele liczb po przecinku. Dlatego też wzrost nie może być traktowany jako zmienna dyskretna. Rozkładu ciągłych zmiennych losowych nie opiszemy za pomocą tabelki (jak w przypadku zmiennych dyskretnych). W tym przypadku jesteśmy skazani na opisanie rozkładu za pomocą funkcji, a samo liczenie prawdopobieństwa wiąże się z liczeniem całek.
Jeżeli chcesz się dowiedzieć więcej o tym, jakie występują typy zmiennych losowych oraz jak je od siebie odróżnić, zajrzyj do poprzedniego wpisu: Typy zmiennych w statystyce
Na koniec
Mam nadzieję, że post ten będzie pomocą w intuicyjnym rozumieniu pojęć takich jak wartość oczekiwana czy wariancja. Przy okazji może się przydać do rozwiązywania zadań na studiach, gdzie trzeba będzie policzyć te wartości dla dyskretnych rozkładów.
Dziękuję, że tu jesteś!
Napisz w komentarzu swoje przemyślenia, pytania, a może sugestie?
Do zobaczenia w następnym wpisie 😊
Super, dzięki!
śwwietny artykuł 🙂