6.2 Rozkład statystyki z próby (średnia próbki, proporcja próbki itp.)

Statystyka z próby, taka jak średnia z próby lub odchylenie standardowe próbki, to wskaźnik obliczony na podstawie próbki. Ponieważ próbka jest losowa, każda statystyka jest zmienną losową: różni się w zależności od próby w sposób, którego nie można przewidzieć z pewnością. Jako zmienna losowa, statystyka ma wartość oczkiwaną (średnią), odchylenie standardowe i rozkład prawdopodobieństwa. Rozkład prawdopodobieństwa statystyki nazywany jest rozkładem statystyki z próby. Zwykle statystyki próby są obliczane w celu oszacowania odpowiednich parametrów populacji.

Rozkład statystyki z próby to rozkład prawdopodobieństwa statystyki z próby, który jest tworzony, gdy próbki o rozmiarze \(n\) są wielokrotnie pobierane z populacji. Jeśli statystyka z próby jest średnią z próby, to taki rozkład nazywamy rozkładem średniej z próby.

Każda statystyka, jako zmienna losowa, ma rozkład z próby (a sampling distribution of a statistic).

Rozkład statystyki z próby to rozkład tej statystyki dla wszystkich możliwych prób z tej samej populacji o danej wielkości próby.

Odchylenie standardowe rozkładu statystyki z próby nazywane jest błędem standardowym tej statystyki

Rozważ poniższy diagram Venna (rysunek 6.1).

Rysunek 6.1. Pojęcie rozkładu statystyki (np. średniej) z próby (a sampling distribution)

Prostokąt na diagramie 6.1 przedstawia dużą populację, a każdy okrąg reprezentuje próbkę o rozmiarze n. Ponieważ obserwacje wybrane do próby mogą się różnić, przykładowe średnie z próby również mogą się różnić. Średnia z Próbki 1 (S1) wynosi \(\bar{x}_1 = 3,5\); średnia z Próbki 2 wynosi \(\bar{x}_2\); i tak dalej. Rozkład średniej z próby dla prób o rozmiarze n dla tej populacji tworzą średnie z wszystkich możliwych prób \(\bar{x}_1, \bar{x}_2, \bar{x}_3\) itd. Jeśli próbki są pobierane ze zwracaniem (sampling with replacement), wówczas z populacji można pobrać nieskończoną liczbę próbek.

6.2.1 Rozkład próbkowy średniej (rozkład średniej z próby)

Załóżmy, że populacja składa się z czterech domów (N = 4), gdzie wartość rv. X, liczba pokojów do wynajęcia w każdej jednostce, jest podana poniżej:

dom pierwszy (2 pokoje),
dom drugi (3 pokoje),
dom trzeci (4 pokoje),
dom czwarty (5 pokojów).

Rozważ losowanie próby rozmiaru 2 (losowanie z powtórzeniami/ze zwracaniem). Istnieją cztery możliwości przy pierwszym losowaniu z populacji, a także cztery możliwości przy drugim losowaniu z populacji. Oznacza to, że wybieramy losowo jednostkę, odkładamy ją, a następnie wybieramy losowo inną jednostkę. Oznaczmy obserwacje na zmiennej X jako X1 (wynik pierwszego losowania) i X2 (wynik drugiego losowania).

Rozkład z populacji zmiennej \(X\) (a population distribution of \(X\)) przedstawiono w tabeli 6.1.

Table 6.1. Rozkład X w populacji
i	X	Prawdopodobieństwo
1	2	1/4
2	3	1/4
3	4	1/4
4	5	1/4
Suma	-	1

Znajdź rozkład średniej z próbki \(\bar{X} = (X1 + X2) / 2\).

W praktyce z populacji zostanie pobrana tylko jedna próba losowa, a nie 16 możliwych próbek; w prawdziwym badaniu, wielkość próby byłaby bardzo mała w stosunku do znacznie większej liczebności populacji i oczywiście nie wszystkie obserwacje w populacji byłyby znane.

Dla każdej z 16 możliwych próbek (patrz Tabela 6.2) również podano średnią z próby (uzyskaną przez dodanie dwóch obserwacji i podzielenie przez 2) oraz prawdopodobieństwo wystąpienia (wyrażone jako 1⁄16, ponieważ każda z 16 możliwych próbek jest jednakowo prawdopodobna). Po uwzględnieniu względnego rozkładu częstości lub prawdopodobieństwa, 16 średnich z próby tworzy rozkład średniej z próby, wcześniej zdefiniowany jako rozkład prawdopodobieństwa średnich dla wszystkich możliwych losowych próbek o danej wielkości z jakiejś populacji.

Table 6.2. Wszystkie możliwe 2-elementowe próby
i	Wszystkie możliwe próby (4 * 4 = 16)	Średnia (\(\bar{X}\))	Prawdopodobieństwo (\(P_i\))
1	2, 2	2	1/16
2	2, 3	2.5	1/16
3	2, 4	3	1/16
4	2, 5	3.5	1/16
5	3, 2	2.5	1/16
6	3, 3	3	1/16
7	3, 4	3.5	1/16
8	3, 5	4	1/16
9	4, 2	3	1/16
10	4, 3	3.5	1/16
11	4, 4	4	1/16
12	4, 5	4.5	1/16
13	5, 2	3.5	1/16
14	5, 3	4	1/16
15	5, 4	4.5	1/16
16	5, 5	5	1/16
Sum	-	-	1

Nie wszystkie wartości średniej z próby występują z równym prawdopodobieństwem, ponieważ niektóre wartości występują więcej niż raz spośród 16 możliwych próbek. Na przykład średnia próbka wynosząca 3,5 pojawia się wśród 4 z 16 możliwości i ma prawdopodobieństwo 4⁄16.

W tabeli 6.3 przedstawiono rozkład losowania średniej dla prób o wielkości n = 2 z miniaturowej populacji N = 4.

Table 6.3. Rozkład średniej z 2-elementowej próby (sampling distribution of the mean)
i	Średnia w próbie (\(\bar{x}\))	Prawdopodobieństwo (\(p_i\))
1	5	1/16
2	4.5	2/16
3	4	3/16
4	3.5	4/16
5	3	3/16
6	2.5	2/16
7	2	1/16
Sum	-	1

Figure 6.2 przedstawia metodę konstrukcji rozkładu średniej z próby na przykładzie populacji liczącej 4 elementy {2, 3, 4, 5}.

Figure 6.2. Rozkład średniej z próby dla próby 2-elementowej; f oznacza częstość bezwzględną (Rysunek pochodzi z: Robert S. Witte, John S. Witte. (2017) Statistics. p. 172.)

6.2.2 Rozkład z próby dla sumy zmiennych losowych (\(S\)) (Sampling distribution for a sample sum)

Przeprowadźmy eksperyment polegający na rzucie dwiema sześciennymi kostkami do gry. Zdefiniujmy zmienną = suma oczek, które wypadły przy rzucie dwiema kostkami do gry.

Rozkład prawdopodobieństwa zmiennej, która może przyjąć 6 wartości z identycznym prawdopodobieństwem jest rozkładem jednostajnym (rzut pojedynczą kostką sześcienną).

Jaki będzie rozkład prawdopodobieństwa dla sumy oczek (lub średniej arytmetycznej wyniku) przy rzucie dwiema kostkami?

W tabeli 6.4 przedstawiono wszystkie możliwe kombinacje wyników, czyli przestrzeń zdarzeń elementarnych:

Table 6.4. Przestrzeń zdarzeń elementarnych dla sumy liczby oczek w doświadczeniu rzutu dwiema uczciwymi kośćmi (Sample space for the sum of outcomes in flipping two fair dice)
	Pierwsza kość (X1)
Druga kość (X2)	1	2	3	4	5	6
1	S = 2	3	4	5	6	7
2	3	4	5	6	7	8
3	4	5	6	4 + 3 = 7	8	9
4	5	6	3 + 4 = 7	8	9	10
5	6	7	8	9	10	11
6	7	8	9	10	11	6+6 = 12

Rysunek 6.3 przedstawia rozkład prawdopodobieństwa sumy S z próby dwuelementowej (suma wyników dwóch rzutów sześciościenną kością), który kształtem przypomina rozkład normalny. Rozkład prawdopodobieństwa do gry (rozkład zmiennej \(X_1\)) był , ale przy rzucie dwiema (\(X_1+X_2\)) lub tym bardziej, co można pokazać, większą liczbą kostek, rozkład prawdopodobieństwa sumy wyników (\(S = X_1+X_2+ ... +X_n\)), lub wartości przeciętnej wyników (\(\overline{X}\)) wraz z wzrostem liczby kostek (lub liczby rzutów kostką), coraz bardziej przypomina rozkład normalny.

Figure 6.3. Rozkład z próby dla zmiennej losowej S = suma oczek uzyskanych przy rzucie dwiema kośćmi (Sampling distribution for the random variable S = sum of outcomes in flipping two fair dice (Source: Wikipedia.org))