6.2 Rozkład statystyki z próby (średnia próbki, proporcja próbki itp.)

Statystyka z próby, taka jak średnia z próby lub odchylenie standardowe próbki, to wskaźnik obliczony na podstawie próbki. Ponieważ próbka jest losowa, każda statystyka jest zmienną losową: różni się w zależności od próby w sposób, którego nie można przewidzieć z pewnością. Jako zmienna losowa, statystyka ma wartość oczkiwaną (średnią), odchylenie standardowe i rozkład prawdopodobieństwa. Rozkład prawdopodobieństwa statystyki nazywany jest rozkładem statystyki z próby. Zwykle statystyki próby są obliczane w celu oszacowania odpowiednich parametrów populacji.

Rozkład statystyki z próby to rozkład prawdopodobieństwa statystyki z próby, który jest tworzony, gdy próbki o rozmiarze \(n\) są wielokrotnie pobierane z populacji. Jeśli statystyka z próby jest średnią z próby, to taki rozkład nazywamy rozkładem średniej z próby.

Każda statystyka, jako zmienna losowa, ma rozkład z próby (a sampling distribution of a statistic).

Rozkład statystyki z próby to rozkład tej statystyki dla wszystkich możliwych prób z tej samej populacji o danej wielkości próby.

Odchylenie standardowe rozkładu statystyki z próby nazywane jest błędem standardowym tej statystyki

Rozważ poniższy diagram Venna (rysunek 6.1).

Rysunek 6.1. Pojęcie rozkładu statystyki (np. średniej) z próby (a sampling distribution)

Prostokąt na diagramie 6.1 przedstawia dużą populację, a każdy okrąg reprezentuje próbkę o rozmiarze n. Ponieważ obserwacje wybrane do próby mogą się różnić, przykładowe średnie z próby również mogą się różnić. Średnia z Próbki 1 (S1) wynosi \(\bar{x}_1 = 3,5\); średnia z Próbki 2 wynosi \(\bar{x}_2\); i tak dalej. Rozkład średniej z próby dla prób o rozmiarze n dla tej populacji tworzą średnie z wszystkich możliwych prób \(\bar{x}_1, \bar{x}_2, \bar{x}_3\) itd. Jeśli próbki są pobierane ze zwracaniem (sampling with replacement), wówczas z populacji można pobrać nieskończoną liczbę próbek.

6.2.1 Rozkład próbkowy średniej (rozkład średniej z próby)

Załóżmy, że populacja składa się z czterech domów (N = 4), gdzie wartość rv. X, liczba pokojów do wynajęcia w każdej jednostce, jest podana poniżej:

  1. dom pierwszy (2 pokoje),
  2. dom drugi (3 pokoje),
  3. dom trzeci (4 pokoje),
  4. dom czwarty (5 pokojów).

Rozważ losowanie próby rozmiaru 2 (losowanie z powtórzeniami/ze zwracaniem). Istnieją cztery możliwości przy pierwszym losowaniu z populacji, a także cztery możliwości przy drugim losowaniu z populacji. Oznacza to, że wybieramy losowo jednostkę, odkładamy ją, a następnie wybieramy losowo inną jednostkę. Oznaczmy obserwacje na zmiennej X jako X1 (wynik pierwszego losowania) i X2 (wynik drugiego losowania).

Rozkład z populacji zmiennej \(X\) (a population distribution of \(X\)) przedstawiono w tabeli 6.1.

Table 6.1. Rozkład X w populacji
i X Prawdopodobieństwo
1 2 1/4
2 3 1/4
3 4 1/4
4 5 1/4
Suma - 1

Znajdź rozkład średniej z próbki \(\bar{X} = (X1 + X2) / 2\).

W praktyce z populacji zostanie pobrana tylko jedna próba losowa, a nie 16 możliwych próbek; w prawdziwym badaniu, wielkość próby byłaby bardzo mała w stosunku do znacznie większej liczebności populacji i oczywiście nie wszystkie obserwacje w populacji byłyby znane.

Dla każdej z 16 możliwych próbek (patrz Tabela 6.2) również podano średnią z próby (uzyskaną przez dodanie dwóch obserwacji i podzielenie przez 2) oraz prawdopodobieństwo wystąpienia (wyrażone jako 1⁄16, ponieważ każda z 16 możliwych próbek jest jednakowo prawdopodobna). Po uwzględnieniu względnego rozkładu częstości lub prawdopodobieństwa, 16 średnich z próby tworzy rozkład średniej z próby, wcześniej zdefiniowany jako rozkład prawdopodobieństwa średnich dla wszystkich możliwych losowych próbek o danej wielkości z jakiejś populacji.

Table 6.2. Wszystkie możliwe 2-elementowe próby
i Wszystkie możliwe próby (4 * 4 = 16) Średnia (\(\bar{X}\)) Prawdopodobieństwo (\(P_i\))
1 2, 2 2 1/16
2 2, 3 2.5 1/16
3 2, 4 3 1/16
4 2, 5 3.5 1/16
5 3, 2 2.5 1/16
6 3, 3 3 1/16
7 3, 4 3.5 1/16
8 3, 5 4 1/16
9 4, 2 3 1/16
10 4, 3 3.5 1/16
11 4, 4 4 1/16
12 4, 5 4.5 1/16
13 5, 2 3.5 1/16
14 5, 3 4 1/16
15 5, 4 4.5 1/16
16 5, 5 5 1/16
Sum - - 1

Nie wszystkie wartości średniej z próby występują z równym prawdopodobieństwem, ponieważ niektóre wartości występują więcej niż raz spośród 16 możliwych próbek. Na przykład średnia próbka wynosząca 3,5 pojawia się wśród 4 z 16 możliwości i ma prawdopodobieństwo 4⁄16.

W tabeli 6.3 przedstawiono rozkład losowania średniej dla prób o wielkości n = 2 z miniaturowej populacji N = 4.

Table 6.3. Rozkład średniej z 2-elementowej próby (sampling distribution of the mean)
i Średnia w próbie (\(\bar{x}\)) Prawdopodobieństwo (\(p_i\))
1 5 1/16
2 4.5 2/16
3 4 3/16
4 3.5 4/16
5 3 3/16
6 2.5 2/16
7 2 1/16
Sum - 1

Figure 6.2 przedstawia metodę konstrukcji rozkładu średniej z próby na przykładzie populacji liczącej 4 elementy {2, 3, 4, 5}.

Figure 6.2. Rozkład średniej z próby dla próby 2-elementowej; f oznacza częstość bezwzględną (Rysunek pochodzi z: Robert S. Witte, John S. Witte. (2017) Statistics. p. 172.)


6.2.2 Rozkład z próby dla sumy zmiennych losowych (\(S\)) (Sampling distribution for a sample sum)

Przeprowadźmy eksperyment polegający na rzucie dwiema sześciennymi kostkami do gry. Zdefiniujmy zmienną = suma oczek, które wypadły przy rzucie dwiema kostkami do gry.

Rozkład prawdopodobieństwa zmiennej, która może przyjąć 6 wartości z identycznym prawdopodobieństwem jest rozkładem jednostajnym (rzut pojedynczą kostką sześcienną).

Jaki będzie rozkład prawdopodobieństwa dla sumy oczek (lub średniej arytmetycznej wyniku) przy rzucie dwiema kostkami?

W tabeli 6.4 przedstawiono wszystkie możliwe kombinacje wyników, czyli przestrzeń zdarzeń elementarnych:

Table 6.4. Przestrzeń zdarzeń elementarnych dla sumy liczby oczek w doświadczeniu rzutu dwiema uczciwymi kośćmi (Sample space for the sum of outcomes in flipping two fair dice)
Pierwsza kość (X1)
Druga kość (X2) 1 2 3 4 5 6
1 S = 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 4 + 3 = 7 8 9
4 5 6 3 + 4 = 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 6+6 = 12

Rysunek 6.3 przedstawia rozkład prawdopodobieństwa sumy S z próby dwuelementowej (suma wyników dwóch rzutów sześciościenną kością), który kształtem przypomina rozkład normalny. Rozkład prawdopodobieństwa do gry (rozkład zmiennej \(X_1\)) był , ale przy rzucie dwiema (\(X_1+X_2\)) lub tym bardziej, co można pokazać, większą liczbą kostek, rozkład prawdopodobieństwa sumy wyników (\(S = X_1+X_2+ ... +X_n\)), lub wartości przeciętnej wyników (\(\overline{X}\)) wraz z wzrostem liczby kostek (lub liczby rzutów kostką), coraz bardziej przypomina rozkład normalny.

Figure 6.3. Rozkład z próby dla zmiennej losowej S = suma oczek uzyskanych przy rzucie dwiema kośćmi (Sampling distribution for the random variable S = sum of outcomes in flipping two fair dice (Source: Wikipedia.org))