Rozproszenie

Wariancja mówi nam, jak rozłożone są wartości w naszym zestawie statystycznym. Wariancja jest czasami nazywana również wariancją.

Czym jest wariancja

Spójrzmy na poniższą tabelę, która przedstawia końcowe oceny dziesięciu wybranych uczniów ósmej klasy. Będziemy zainteresowani dwoma przedmiotami, matematyką i historią.

Nazwa Matematyka Historia
Tomasz 2 4
Marcin 1 1
Jiri 2 1
Miroslav 2 1
Jana 2 3
Lenka 1 4
Ondrej 2 5
Lukas 2 1
Petra 2 2
John 3 4

Widzimy, że większość uczniów ma B z matematyki, czasem ktoś ma A lub C. Natomiast w kolumnie historia mamy spory chaos - oceny są rozrzucone od A do F i żadna ocena nawet znacząco nie dominuje. Oceny z historii są więc bardziej rozproszone niż oceny z matematyki.

Jeśli obliczymy średnią ocen z matematyki, wyjdzie nam 1,9. Widzimy, że większość elementów jest dość zbliżona do tej wartości. Z drugiej strony w historii otrzymujemy średnią 2,6, a większość ocen nie zbliża się do tej wartości.

Jak moglibyśmy określić ilościowo tę wariancję?

Jak obliczyć wariancję

Przekształćmy poprzedni wykres w nieco inną formę i pokażmy tylko oceny z historii.

Wynikowe oceny z historii

Na osi x ponownie mamy uczniów (tym razem bez imion, więc załóżmy, że 1 = Thomas, 2 = Martin itd.) Na osi y mamy wynikowe oceny. Linia y = 2,6 reprezentuje wartość średnią.

Następnie obliczamy wariancję jako średnią kwadratów odległości od średniej. Brzmi to tajemniczo, ale jest proste. Możemy myśleć o kwadratach x jako o zawartości kwadratu o długości boku x. Tworzymy więc kwadraty na naszym wykresie, których długości boków są równe odległości wartości od średniej:

Wykres z odległościami podniesionymi do kwadratu

Cztery takie kwadraty są pokazane na wykresie; nie wszystkie by pasowały. Widzimy, że Jana znajduje się dość blisko średniej, więc jej kwadrat jest mały. Andrew jest daleko od średniej, więc jego kwadrat jest duży. Gdybyśmy skonstruowali wszystkie kwadraty i obliczyli ich średnią zawartość, otrzymalibyśmy wariancję.

Jeśli mamy zestaw wartości X = [x1, …, xN], gdzie $\overline{x}$ jest wartością średnią, wariancję, oznaczmy ją $\mbox{Var}$, obliczamy w następujący sposób:

$$ \mbox{Var}(X) = \frac1N \left((x_1-\overline{x})^2 + (x_2-\overline{x})^2 + … + (x_N-\overline{x})^2 \right) $$

Alternatywnie, używając sumy w następujący sposób:

$$ \mbox{Var}(X) = \frac1N\sum_{i=1}^N (x_i-\overline{x})^2 $$

Dlaczego $(x_1-\overline{x})^2$? Samo wyrażenie $x_1-\overline{x}$ zwróciłoby odległość punktu x1 od średniej. Dokładniej, powinniśmy napisać $|x_1-\overline{x}|$ (wartość bezwzględna), jeśli wartość x1 jest mniejsza niż wartość średniej. Ponieważ chcemy znać zawartość kwadratu, mnożymy tę wartość przez kwadrat.

Wariancja naszego zestawu danych wynosiłaby zatem:

$$ \begin{align*} Var(\mbox{ Historia }) = \frac{1}{10}((4-2{,}6)^2+(1-2{,}6)^2+(1-2{,}6)^2+\\(1-2{,}6)^2+(3-2{,}6)^2+(4-2{,}6)^2+\\(5-2{,}6)^2+(1-2{,}6)^2+(2-2{,}6)^2+\\(4-2{,}6)^2)=\frac{1}{10}\cdot 22{,}4 = 2{,}24 \end{align*} $$

Wariancja (wariancja) wynosi 2,26. Wariancja wartości z wynikami matematycznymi wyglądałaby następująco:

$$ \begin{align*} Var(\mbox{ Matematyka }) = \frac{1}{10}((2-1{,}9)^2+(1-1{,}9)^2+(2-1{,}9)^2+\\(2-1{,}9)^2+(2-1{,}9)^2+(1-1{,}9)^2+\\(2-1{,}9)^2+(2-1{,}9)^2+(2-1{,}9)^2+\\(3-1{,}9)^2)=\frac{1}{10}\cdot2{,}9 = 0{,}29 \end{align*} $$

Wariancja (wariancja) wynosi 0,29. Widzimy, że wariancja dla tego zestawu jest, zgodnie z oczekiwaniami, znacznie mniejsza.

Jak obliczyć wariancję w programie Excel

Zarówno w czeskim, jak i angielskim Excelu do tego celu używana jest funkcja var lub jakiś jej wariant. Na przykład var.p przyjmuje wybór komórek jako parametr.

Odniesienia i zasoby