Podstawy statystyki

Statystyka jest nauką, która próbuje badać rzeczywiste dane i wykorzystuje teorię prawdopodobieństwa do ich opisu.

Właściwa sekcja statystyki

Jest to stary i nieaktualny artykuł, statystyka ma już własną sekcję z artykułem wprowadzającym Podstawowe pojęcia statystyki.

Podstawowe pojęcia

Istnieje kilka podstawowych pojęć używanych w statystyce, które opiszemy tutaj.

Po pierwsze, zbiór statystyczny, który jest skończonym zbiorem pewnych danych, które chcemy zbadać. Dane mogą być ogólne, może to być w zasadzie wszystko. Jeśli chcemy zbadać średnią pensję w Czechach, zbiorem statystycznym będzie zbiór wszystkich osób w Czechach. Liczba elementów w zbiorze statystycznym nazywana jest rozmiarem zbioru. Tak więc rozmiar zdefiniowanego przez nas zbioru statystycznego byłby równy populacji Republiki Czeskiej.

Istnieje również pojęcie jednostki statystycznej, która jest określonym elementem populacji statystycznej. W naszym przypadku jednostką statystyczną byłaby jedna konkretna osoba.

Wreszcie mamy cechę statystyczną, czyli to, co chcemy zmierzyć. W naszym przykładzie cechą statystyczną byłoby wynagrodzenie. Cecha statystyczna może być jakościowa lub ilościowa. Cecha ilościowa (ilość = ilość, liczba) to taka, którą można wyrazić liczbowo (na przykład pensja, wzrost, liczba dzieci, ...), podczas gdy cecha jakościowa to taka, którą można wyrazić słowami (kolor, tak/nie, zawód, ...).

Częstotliwości

Częstości mogą być względne lub bezwzględne i wskazują, ile wartości danej cechy występuje w populacji statystycznej - bezwzględnie lub względnie w stosunku do całkowitej liczby elementów w populacji.

Co ważne, przy obliczaniu częstości musimy zastosować cechę statystyczną, ponieważ jeśli chcemy obliczyć bezwzględną częstość jednostki statystycznej, musimy koniecznie uzyskać zero lub jeden, ponieważ zbiór statystyczny jest zbiorem, a sam zbiór nie dopuszcza więcej niż jednego tego samego elementu.

Zatem bezwzględna częstość wartości cechy statystycznej z wskazuje liczbę wystąpień cechy z w zbiorze statystycznym S. Przykład: mamy klasę dziesięciu uczniów. Każdy uczeń otrzymał ocenę z matematyki na swojej karcie raportu, od jeden do pięć. Oceny są zapisane w poniższej tabeli:

$$\begin{array}{c|c|c|c|c|c|c|c|c|c} 1&2&3&4&5&6&7&8&9&10\\ \hline 2&5&3&2&1&1&2&4&1&3 \end{array}$$

Uwaga: zbiorem statystycznym dla tego przykładu byłoby dziesięciu kolegów z klasy, coś w rodzaju

$$S=\left\{\mbox{ Ondra }, \mbox{ Weronika }, \mbox{ Martin }, \ldots\right\}$$

W tabeli, dla uproszczenia, mamy numeryczny identyfikator ucznia w pierwszym wierszu, więc jednostki statystyczne, tj. elementy zbioru statystycznego, znajdują się w pierwszym wierszu. W drugim wierszu mamy wartości cechy statystycznej, tj. wartości "końcowej oceny z matematyki" tego ucznia.

Tak więc bezwzględna częstotliwość cechy (ocena na karcie raportu) z = 3 byłaby równa dwa, przy czym tylko dwóch uczniów otrzymałoby C na karcie raportu (są to "uczniowie" 3 i 10). Bezwzględna częstotliwość występowania postaci z = 1 wynosiłaby trzy ("uczniowie" 5, 6 i 9).

Częstość względna wskazuje, jaki procent wartości cechy w zbiorze statystycznym jest równy z. Obliczamy częstość względną cechy z w następujący sposób:

$$r=\frac{z_a}{|S|},$$

gdzie za jest bezwzględną częstością cechy z, a |S| jest zakresem zbioru statystycznego, tj. liczbą elementów. Zatem względna częstotliwość znaku trzy byłaby następująca:

$$r_3=\frac{2}{10}=\frac15.$$

Zakres naszej populacji wynosi dziesięć, ponieważ mamy dziesięciu uczniów w naszej klasie. Notację procentową otrzymamy mnożąc przez 100, czyli otrzymamy 20%. Względna częstość występowania jedynki to

$$r_1=\frac{3}{10}.$$

Średnia arytmetyczna

Średnia arytmetyczna, lub często po prostu średnia, jest średnią wszystkich wartości w populacji statystycznej. Przez słowo wartość rozumiemy wartość po zastosowaniu znaku statystycznego. Średnia jest obliczana poprzez zsumowanie wszystkich wartości i podzielenie przez liczbę wartości w populacji. Czyli mniej więcej tak:

$$p_a=\frac{x_1+x_2+x_3+\ldots+x_n}{n}=\frac1n\sum_{i=1}^nx_i$$

Dodałem również wyrażenie za pomocą sumy, na wypadek gdybyś uznał je za bardziej czytelne. Ale poprzednie wyrażenie z ułamkiem jest wystarczające. Wartości x reprezentują wszystkie wartości w naszym pliku.

Przykład: bierzemy dane z poprzedniej tabeli i obliczamy średnią ocenę na ucznia.

$$p_a=\frac{2+5+3+2+1+1+2+4+1+3}{10}=\frac{24}{10}=2{,}4$$

W naszej klasie średnia ocen wynosi 2,4. Jak widać, średnia arytmetyczna może zwrócić wartość, która w rzeczywistości nie jest prawidłowa - nie można wystawić oceny 2,4.

Średnia arytmetyczna jest również zła w użyciu, gdy część danych ma zasadniczo inną wartość niż reszta danych. Więc jeśli mamy plik z wartościami 1, 3, 2, 5, 4, 2, 75, średnia arytmetyczna wyjdzie

$$p_a=\frac{1+3+2+5+4+2+75}{7}=13{,}14.$$

Widzimy, że wynikowa wartość jest daleka od wszystkich wartości w pliku. Jest kilkukrotnie większa od pierwszych sześciu liczb i kilkukrotnie mniejsza od ostatniej wartości. Jest to problem, który można rozwiązać na przykład za pomocą mediany, patrz poniżej. Przynajmniej teraz wiesz, dlaczego dwie trzecie ludzi nie zarabia średniej pensji - istnieje niewielka grupa ludzi, którzy mają znacznie wyższe pensje, które zwiększają średnią arytmetyczną.

Średnia geometryczna

Średnią geometryczną oblicza się w podobny sposób jak średnią arytmetyczną, z tą różnicą, że zamiast dodawania stosuje się mnożenie, a zamiast dzielenia pierwiastek kwadratowy. Średnią geometryczną obliczamy w następujący sposób:

$$p_g=\sqrt[n]{x_1\cdot x_2\cdot x_3\cdot\ldots\cdot x_n}=\sqrt[n]{\prod_{i=1}^n x_i}$$

Średnia geometryczna może być wykorzystywana jako wskaźnik wzrostu. Dla przykładu, załóżmy, że cena produktu wzrosła o 10% w jednym roku, 15% w następnym roku i 5% w kolejnym roku. W ten sposób pierwotna cena c wynosiła

$$1{,}1\cdot1{,}15\cdot1{,}05c=1{,}32825c.$$

Średnia geometryczna tych współczynników wynosiłaby:

$$p_g=\sqrt[3]{1{,}1\cdot1{,}15\cdot1{,}05}=1{,}0992419$$

Co to oznacza? Że jeśli cena wzrosłaby tylko o 1,0992419 za każdym razem, cena końcowa miałaby tę samą wartość:

$$1{,}0992419^3=1{,}32825$$

Modus i mediana

Modus znaku to wartość, która ma najwyższą częstotliwość, oznaczana przez Mod(x). Jeśli wrócimy do przykładu ocen, modus to wartości 1 i 2, ponieważ występują one najczęściej - obie mają bezwzględną częstotliwość 3.

Mediana jest wtedy wartością środkową, oznaczoną przez Med(x). Jeśli możemy ułożyć wartości w sekwencji niemalejącej

$$x_1\le x_2\le x_3\le\ldots\le x_n,$$

to mediana reprezentuje wartość, która znajduje się w środku tej sekwencji. Wartość mediany różni się wtedy, jeśli sekwencja ma nieparzystą lub parzystą liczbę elementów. Jeśli jest nieparzysta, medianą jest element na pozycji

$$\mbox{Med}(x)=x_{\frac{n+1}{2}}$$

Jeśli sekwencja ma parzystą liczbę elementów, to nie ma elementu, który jest całkowicie w środku (przykład: sekwencja 1, 2, 3, 4 po prostu nie ma elementu środkowego). Dlatego bierzemy średnią z dwóch środkowych wartości (średnia z 2 i 3). Tak wygląda formuła dla liczb parzystych:

$$\mbox{Med}(x)=\frac{x_{n/2}+x_{(n+2)/2}}{2}$$

Wróćmy do przykładu, który ilustrował błędnie używaną średnią arytmetyczną. Mieliśmy zestaw wartości s=1, 3, 2, 5, 4, 2, 75. Modus byłby równy dwa, jest to jedyna liczba, która się powtarza. Aby obliczyć medianę, umieszczamy liczby w sekwencji:

$$a_i=1{,}2,2{,}3,4{,}5,75.$$

Sekwencja ma siedem elementów, element środowiskowy jest więc a4 i jest równy trzy.