Podstawowe pojęcia statystyki

Statystyka to nauka, która bada, przetwarza i ocenia dane.

Populacja

Celem statystyki jest przeprowadzenie eksperymentu, aby dowiedzieć się czegoś interesującego o danej populacji. Przez populację ogólnie rozumiemy dowolny zbiór elementów, które chcemy w danym momencie zbadać. Jeśli chcemy poznać średni wiek populacji Republiki Czeskiej, naszą populacją będą wszyscy mieszkańcy Republiki Czeskiej.

Ale jeśli chcemy znaleźć średnie zużycie benzyny przez samochody na sto kilometrów, naszą populacją będzie zbiór wszystkich samochodów (na danym obszarze).

Wybór, próba

Często nie jest możliwa praca ze wszystkimi elementami populacji. Wyobraźmy sobie, że chcemy dowiedzieć się, co ludzie w Czechach sądzą o obowiązkowej maturze z matematyki. Aby naprawdę dowiedzieć się, co ludzie myślą o obowiązkowej maturze z matematyki, musielibyśmy chodzić od domu do domu, od mostu do mostu i pytać każdego obywatela, co myśli o obowiązkowej maturze z matematyki. W praktyce nie jest to możliwe. Oto kilka powodów:

  • Jest to zbyt kosztowne. Zapytanie wszystkich około dziesięciu i pół miliona mieszkańców nie jest tanią sprawą. Na przykład pierwsze bezpośrednie wybory prezydenta kosztowały 625 milionów koron.
  • Trwa to zbyt długo. Wybory trwały z pewnością kilka miesięcy - jeśli potrzebujesz statystycznego wyniku w ciągu tygodnia, to za długo.
  • Nie każdy będzie chciał odpowiedzieć. Niektórzy nie będą chcieli odpowiadać na pytania z zasady. Jeśli nasza populacja jest pewnego rodzaju maszyną, może się znowu zepsuć. Jeśli śledzisz przebieg samochodów, prędkościomierz może się zepsuć lub ktoś może celowo zawyżyć odczyt.
  • Eksperyment może być zbyt niebezpieczny. Nikt raczej nie dostanie zawału serca od pytania o obowiązkowe egzaminy maturalne, ale możemy wziąć inny przykład - testowanie nowego leku o nazwie "all-over". Co by się stało, gdybyśmy przetestowali wszystko-jedynie na całej populacji Republiki Czeskiej i podczas testów okazało się, że 20% testowanych osób natychmiast dostało gwałtownej biegunki? Cóż, prawdopodobnie lepiej będzie, jeśli najpierw przetestujemy lek na mniejszej grupie osób, prawda?

Aby uniknąć tych wad, wybieramy tylko próbkę (lub próbkę) z populacji. Jeśli mamy populację P, to próbka V jest dowolnym podzbiorem P, tj. V ⊆ P. Następnie przeprowadzamy nasz eksperyment tylko na tej próbce V i uogólniamy wyniki na całą populację. Oczywiście wyniki te będą nieprecyzyjne - to, jak bardzo są nieprecyzyjne, zależy głównie od tego, jak duża jest próba V i jaką metodę wybraliśmy do selekcji elementów do V.

Typowe błędy mogą zatem być następujące:

  • Zbyt mała liczba elementów w V. Jeśli zapytasz pierwsze siedem osób, które zobaczysz o obowiązkową maturę, nie możesz uzyskać miarodajnych wyników.
  • Niereprezentatywny wybór elementów z populacji. Jeśli zapytasz tysiąc absolwentów Wydziału Matematyki i Fizyki o obowiązkową maturę z matematyki, otrzymasz inne odpowiedzi niż jeśli zapytasz tysiąc uczniów trzeciej klasy liceum.

Zmienne

Podczas eksperymentu badamy elementy próby. Dane, które obserwujemy nazywamy zmiennymi, a wartości zmiennych nazywamy wariancjami. Istnieją podstawowe rodzaje zmiennych:

  • Zmienna jakościowa: tej zmiennej zazwyczaj nie warto mierzyć, jest to pewnego rodzaju ocena słowna. Typowym przykładem może być zapytanie o narodowość. Wariantami takiej zmiennej byłyby np. wartości "narodowość czeska", "narodowość słowacka" itp. Nie ma sensu mierzyć lub porównywać narodowości czeskiej i słowackiej. Możemy porównać liczbę Czechów i Słowaków, ale nie możemy porównać samej narodowości.

Pytanie o obowiązkową maturę również należy do tej kategorii, gdzie oczekiwane odpowiedzi to "tak, chcę obowiązkowej matury z matematyki" lub "nie, nie chcę obowiązkowej matury z matematyki", które są wariantami tej zmiennej. Ponownie, możemy porównać liczbę odpowiedzi, ale nie ma sensu porównywać faktycznych "tak" i "nie".

  • Zmienne ilościowe: zmierzymy tę zmienną. Są to więc długości, wagi, czasy, zliczenia i tak dalej. Zmienne ilościowe dzielimy dalej na zmienne dyskretne i ciągłe:

Zmienna dyskretna

Zmienna dyskretna zawiera skończoną liczbę wariantów lub zawiera policzalną liczbę wariantów (patrz poniżej). Dość często są to liczby całkowite. Na przykład liczba uczniów w klasie - w normalnej klasie będzie, powiedzmy, od piętnastu do czterdziestu dzieci.

Zmienna dyskretna charakteryzuje się tym, że zawsze jesteśmy w stanie określić, jaki jest następny i poprzedni wariant. Jeśli w klasie 3B jest 28 dzieci, poprzedni wariant to 27 dzieci, a następny to 29 dzieci. W przypadku zmiennej jakościowej zwykle nie jesteśmy w stanie tego zrobić - jaki jest następny wariant po narodowości czeskiej?

Zmienna dyskretna może być nieskończona, ale musi być policzalna - to znaczy, że nadal musimy być w stanie określić poprzedni i następny wariant. Na przykład możemy wprowadzić zmienną "odległość dwóch obiektów z dokładnością do kilometra". Jeśli zmierzymy, że odległość dwóch obiektów, na przykład samochodu i stodoły, wynosi 12 kilometrów, to następny i poprzedni wariant wynosi odpowiednio 13 i 11 kilometrów. Jednak odległość prawdopodobnie nie jest w żaden sposób ograniczona. Jeśli mamy dwa obiekty oddalone od siebie o 1 500 000 kilometrów, z pewnością możemy znaleźć obiekty oddalone od siebie o 1 500 001 kilometrów.

Zmienna pozostałaby dyskretna, nawet gdybyśmy zmienili precyzję na dziesiąte części kilometra (tj. setki metrów). Wówczas moglibyśmy zmierzyć odległość 15,7 km, a następne i poprzednie wartości wynosiłyby 15,8 i 15,6.

Jeśli nie ma poprzedniej lub następnej zmiany, nie jest to sprzeczne z faktem, że zmienna jest dyskretna. Na przykład dla odległości równej zero kilometrów nie ma wcześniejszej zmiany - nie definiujemy odległości minus jeden kilometr. Jednak odległość do najbliższego kilometra jest zmienną dyskretną.

Zmienna ciągła

Zmienna ciągła zawsze zawiera nieskończoną liczbę wariacji. Wartości są zazwyczaj liczbami rzeczywistymi, więc jest to na przykład odległość (bez dodatku precyzji). W przypadku zmiennych ciągłych nie możemy określić poprzedniego lub następnego wariantu. Jeśli zmierzymy, że odległość czegoś wynosi 3,58745 metra, nie możemy znaleźć liczby, która jest dokładnie po tej liczbie.

W zbiorze liczb rzeczywistych istnieją liczby niewymierne z nieskończonym rozwinięciem dziesiętnym. Oczywiście nie mamy przyrządów, które mogłyby zmierzyć odległość do takiej odległości, więc w rzeczywistości każda taka zmienna jest równie dyskretna - właśnie dlatego, że każdy przyrząd ma pewną precyzję. Jeśli mierzysz coś linijką, masz dokładność do jednego milimetra. Możesz więc zmierzyć, że książka ma 167 mm szerokości lub 168 mm szerokości, ale nic pomiędzy; chyba że w jakiś sposób zgadniesz itp.

Jeśli masz bardziej naukowy instrument, możesz być dokładny do jednego mikrometra. Nawet jeśli tak jest, prawdopodobnie nie wystarczy to do całkowicie dokładnego pomiaru obiektu.

Mimo to powszechnie mówimy o odległości czy masie jako o zmiennych ciągłych. W praktyce takie uproszczenie jest konieczne i zazwyczaj nie ma znaczenia.

Zmienna losowa

Zmienna losowa to zmienna dyskretna lub ciągła, dla której nie możemy określić jej wartości wynikowej przed wykonaniem eksperymentu. Zmienna losowa może być wynikiem rzutu sześciościenną kostką. Dopóki nie wyrzucimy tej kości, nie możemy wiedzieć, jaka liczba zostanie wyrzucona na kości.

Możemy przewidzieć, że niektóre wartości będą bardziej prawdopodobne niż inne, ale nie możemy być absolutnie pewni, że otrzymamy konkretną wartość. Na przykład, jeśli losowo wylosujemy jednego mieszkańca Republiki Czeskiej i zapytamy go, w jakim mieście mieszka, jest bardziej prawdopodobne, że mieszka w Pradze niż gdzieś w Kravaře. Krótko mówiąc, więcej ludzi mieszka w Pradze.

Gdybyśmy mieli kostkę do gry z sześcioma kropkami na pięciu bokach i dwiema kropkami na pozostałym szóstym boku, prawdopodobieństwo wyrzucenia sześciu kropek byłoby znacznie większe. Nadal jest to jednak zmienna losowa, ponieważ nie ma pewności, że wypadnie sześć oczek.

Gdybyśmy zmodyfikowali tę kość tak, aby na wszystkich sześciu bokach znajdowało się sześć kropek, rzut kością nie byłby zmienną losową, ponieważ zawsze otrzymywalibyśmy sześć kropek.

Linki i zasoby