6.2 Rozkład statystyki z próby (średnia próbki, proporcja próbki itp.)
Statystyka z próby, taka jak średnia z próby lub odchylenie standardowe próbki, to wskaźnik obliczony na podstawie próbki. Ponieważ próbka jest losowa, każda statystyka jest zmienną losową: różni się w zależności od próby w sposób, którego nie można przewidzieć z pewnością. Jako zmienna losowa, statystyka ma wartość oczkiwaną (średnią), odchylenie standardowe i rozkład prawdopodobieństwa. Rozkład prawdopodobieństwa statystyki nazywany jest rozkładem statystyki z próby. Zwykle statystyki próby są obliczane w celu oszacowania odpowiednich parametrów populacji.
Rozkład statystyki z próby to rozkład prawdopodobieństwa statystyki z próby, który jest tworzony, gdy próbki o rozmiarze \(n\) są wielokrotnie pobierane z populacji. Jeśli statystyka z próby jest średnią z próby, to taki rozkład nazywamy rozkładem średniej z próby.
Każda statystyka, jako zmienna losowa, ma rozkład z próby (a sampling distribution of a statistic).
Rozkład statystyki z próby to rozkład tej statystyki dla wszystkich możliwych prób z tej samej populacji o danej wielkości próby.
Odchylenie standardowe rozkładu statystyki z próby nazywane jest błędem standardowym tej statystyki
Rozważ poniższy diagram Venna (rysunek 6.1).
Prostokąt na diagramie 6.1 przedstawia dużą populację, a każdy okrąg reprezentuje próbkę o rozmiarze n. Ponieważ obserwacje wybrane do próby mogą się różnić, przykładowe średnie z próby również mogą się różnić. Średnia z Próbki 1 (S1) wynosi \(\bar{x}_1 = 3,5\); średnia z Próbki 2 wynosi \(\bar{x}_2\); i tak dalej. Rozkład średniej z próby dla prób o rozmiarze n dla tej populacji tworzą średnie z wszystkich możliwych prób \(\bar{x}_1, \bar{x}_2, \bar{x}_3\) itd. Jeśli próbki są pobierane ze zwracaniem (sampling with replacement), wówczas z populacji można pobrać nieskończoną liczbę próbek.
6.2.1 Rozkład próbkowy średniej (rozkład średniej z próby)
Załóżmy, że populacja składa się z czterech domów (N = 4), gdzie wartość rv. X, liczba pokojów do wynajęcia w każdej jednostce, jest podana poniżej:
- dom pierwszy (2 pokoje),
- dom drugi (3 pokoje),
- dom trzeci (4 pokoje),
- dom czwarty (5 pokojów).
Rozważ losowanie próby rozmiaru 2 (losowanie z powtórzeniami/ze zwracaniem). Istnieją cztery możliwości przy pierwszym losowaniu z populacji, a także cztery możliwości przy drugim losowaniu z populacji. Oznacza to, że wybieramy losowo jednostkę, odkładamy ją, a następnie wybieramy losowo inną jednostkę. Oznaczmy obserwacje na zmiennej X jako X1 (wynik pierwszego losowania) i X2 (wynik drugiego losowania).
Rozkład z populacji zmiennej \(X\) (a population distribution of \(X\)) przedstawiono w tabeli 6.1.
i | X | Prawdopodobieństwo |
---|---|---|
1 | 2 | 1/4 |
2 | 3 | 1/4 |
3 | 4 | 1/4 |
4 | 5 | 1/4 |
Suma | - | 1 |
Znajdź rozkład średniej z próbki \(\bar{X} = (X1 + X2) / 2\).
W praktyce z populacji zostanie pobrana tylko jedna próba losowa, a nie 16 możliwych próbek; w prawdziwym badaniu, wielkość próby byłaby bardzo mała w stosunku do znacznie większej liczebności populacji i oczywiście nie wszystkie obserwacje w populacji byłyby znane.
Dla każdej z 16 możliwych próbek (patrz Tabela 6.2) również podano średnią z próby (uzyskaną przez dodanie dwóch obserwacji i podzielenie przez 2) oraz prawdopodobieństwo wystąpienia (wyrażone jako 1⁄16, ponieważ każda z 16 możliwych próbek jest jednakowo prawdopodobna). Po uwzględnieniu względnego rozkładu częstości lub prawdopodobieństwa, 16 średnich z próby tworzy rozkład średniej z próby, wcześniej zdefiniowany jako rozkład prawdopodobieństwa średnich dla wszystkich możliwych losowych próbek o danej wielkości z jakiejś populacji.
i | Wszystkie możliwe próby (4 * 4 = 16) | Średnia (\(\bar{X}\)) | Prawdopodobieństwo (\(P_i\)) |
---|---|---|---|
1 | 2, 2 | 2 | 1/16 |
2 | 2, 3 | 2.5 | 1/16 |
3 | 2, 4 | 3 | 1/16 |
4 | 2, 5 | 3.5 | 1/16 |
5 | 3, 2 | 2.5 | 1/16 |
6 | 3, 3 | 3 | 1/16 |
7 | 3, 4 | 3.5 | 1/16 |
8 | 3, 5 | 4 | 1/16 |
9 | 4, 2 | 3 | 1/16 |
10 | 4, 3 | 3.5 | 1/16 |
11 | 4, 4 | 4 | 1/16 |
12 | 4, 5 | 4.5 | 1/16 |
13 | 5, 2 | 3.5 | 1/16 |
14 | 5, 3 | 4 | 1/16 |
15 | 5, 4 | 4.5 | 1/16 |
16 | 5, 5 | 5 | 1/16 |
Sum | - | - | 1 |
Nie wszystkie wartości średniej z próby występują z równym prawdopodobieństwem, ponieważ niektóre wartości występują więcej niż raz spośród 16 możliwych próbek. Na przykład średnia próbka wynosząca 3,5 pojawia się wśród 4 z 16 możliwości i ma prawdopodobieństwo 4⁄16.
W tabeli 6.3 przedstawiono rozkład losowania średniej dla prób o wielkości n = 2 z miniaturowej populacji N = 4.
i | Średnia w próbie (\(\bar{x}\)) | Prawdopodobieństwo (\(p_i\)) |
---|---|---|
1 | 5 | 1/16 |
2 | 4.5 | 2/16 |
3 | 4 | 3/16 |
4 | 3.5 | 4/16 |
5 | 3 | 3/16 |
6 | 2.5 | 2/16 |
7 | 2 | 1/16 |
Sum | - | 1 |
Figure 6.2 przedstawia metodę konstrukcji rozkładu średniej z próby na przykładzie populacji liczącej 4 elementy {2, 3, 4, 5}.
6.2.2 Rozkład z próby dla sumy zmiennych losowych (\(S\)) (Sampling distribution for a sample sum)
Przeprowadźmy eksperyment polegający na rzucie dwiema sześciennymi kostkami do gry. Zdefiniujmy zmienną = suma oczek, które wypadły przy rzucie dwiema kostkami do gry.
Rozkład prawdopodobieństwa zmiennej, która może przyjąć 6 wartości z identycznym prawdopodobieństwem jest rozkładem jednostajnym (rzut pojedynczą kostką sześcienną).
Jaki będzie rozkład prawdopodobieństwa dla sumy oczek (lub średniej arytmetycznej wyniku) przy rzucie dwiema kostkami?
W tabeli 6.4 przedstawiono wszystkie możliwe kombinacje wyników, czyli przestrzeń zdarzeń elementarnych:
Pierwsza kość (X1) | ||||||
---|---|---|---|---|---|---|
Druga kość (X2) | 1 | 2 | 3 | 4 | 5 | 6 |
1 | S = 2 | 3 | 4 | 5 | 6 | 7 |
2 | 3 | 4 | 5 | 6 | 7 | 8 |
3 | 4 | 5 | 6 | 4 + 3 = 7 | 8 | 9 |
4 | 5 | 6 | 3 + 4 = 7 | 8 | 9 | 10 |
5 | 6 | 7 | 8 | 9 | 10 | 11 |
6 | 7 | 8 | 9 | 10 | 11 | 6+6 = 12 |
Rysunek 6.3 przedstawia rozkład prawdopodobieństwa sumy S z próby dwuelementowej (suma wyników dwóch rzutów sześciościenną kością), który kształtem przypomina rozkład normalny. Rozkład prawdopodobieństwa do gry (rozkład zmiennej \(X_1\)) był , ale przy rzucie dwiema (\(X_1+X_2\)) lub tym bardziej, co można pokazać, większą liczbą kostek, rozkład prawdopodobieństwa sumy wyników (\(S = X_1+X_2+ ... +X_n\)), lub wartości przeciętnej wyników (\(\overline{X}\)) wraz z wzrostem liczby kostek (lub liczby rzutów kostką), coraz bardziej przypomina rozkład normalny.